Sora劲敌！Meta最强沉浸式AI媒体模型来了，300亿参数模型支持Movie Gen视频

硬AI

2024/10/05 04:10

Meta称，Movie Gen是“最先进、沉浸式效果最佳的故事讲述模型套件”，基于授权和公开可用数据训练，以每秒16帧的速度文生视频最长16秒；130亿参数模型支持音频生成；人工评测时，Movie Gen的视频生成能力对Sora净胜率8.2。Meta未明确何时发布，扎克伯格称明年上线Instagram。

本文作者：李丹

来源：硬AI

OpenAI的Sora迎来劲敌，Meta推出号称最先进的媒体基础模型Movie Gen。

Meta称，Movie Gen是公司“针对媒体的突破性生成式AI研究”，它囊括了图像、视频和音频等模态，用户只需输入文本，就可以制作自定义的视频和声音、编辑现有视频，以及将个人图像转换为独特的视频。Movie Gen执行这些任务的表现在人类评估中优于业内类似模型。

Meta介绍，Movie Gen是“最先进、沉浸式效果最佳的故事讲述模型套件”，综合了公司第一波生成式AI媒体研究的Make-A-Scene 系列模型，即可创建图像、音频、视频和 3D 动画的模型，以及随着扩散模型出现而针对Llama Image 基础模型进行的第二波研究模型，即可实现更高质量图像和视频生成以及图像编辑的模型。

文生视频最长16秒 130亿参数音频生成模型人工评测视频生成对Sora净胜率8.2

Meta概括，Movie Gen 具有四种功能：视频生成、个性化视频生成、精确视频编辑、音频生成。

对于视频生成，Meta介绍，用户只要提供一个文本的提示词，Movie Gen就可以利用针对文本转图像和文本转视频进行了优化的联合模型，创建高清的高质量图像和视频。Movie Gen的视频模型有300亿参数，这个转换模型能以每秒16帧的速度生成最长16秒的视频。

Meta称，发现这些模型可以推理物体的运动、拍摄主体与物体之间的相互作用，以及相机的运动，并且可以学习各种概念了解有哪些合理的运动，因此，它们成为同类中最先进的模型。在介绍该功能时，Meta展示了多个10秒长度的视频短片，包括一只像萌翻网络的弹跳猪“Moo Deng”那样的小河马游来游去。

华尔街见闻注意到，单从生成视频的最大长度看，Movie Gen还不敌今年2月OpenAI发布的Sora。Sora令业界震撼的一点是，可以创建长达60秒的文生视频。不过，相比Meta去年11月官宣的视频模型Emu Video，Movie Gen确实进步不小。Emu Video只能以每秒16帧的速度生成最长4秒的视频。

除了直接文生视频，Movie Gen还有出色的个性化视频制作能力。Meta介绍，其扩展了前述基础模型，支持生成个性化视频。用户可以提供某个人的图像，配合文本的提示词，让Move Gen生成的视频包含参考图像中的人物，以及符合文本提示的视觉细节。Meta称，在创建保留人类身份和动作的个性化视频方面，其模型取得了最先进的成果。

Meta展示的一个视频显示，用户可以提供一个女孩的照片，输入文字“一名身穿粉色马甲的女DJ播放唱片，她身旁有一只猎豹”，然后就生成了以照片中女孩为形象的DJ打碟，以及一只猎豹陪伴。

在精确视频编辑方面，Meta称，Movie Gen采用了同一基础模型的编辑变体模型，在用户输入视频和文本提示词后，精确执行任务，生成所需的输出。它将视频生成与高级图像编辑相结合，执行局部编辑，例如添加、删除或替换元素，以及诸如背景或样式修改的全局更改。与需要专业技能或缺乏生成精确度的传统工具不同，Movie Gen 保留了原始内容，仅针对相关像素编辑。

Meta提供的示例之一是，用户输入，让企鹅穿上有英国女王维多利亚在位时期服饰风格的服装，Movie Gen生成的企鹅穿上了带蕾丝的红色女裙。

对于音频生成，Meta称，训练了一个130亿参数的音频生成模型，该模型可以接受视频和可选的文本提示词，生成长达 45 秒的高质量高保真音频，包括环境音、拟声音效（Foley）和乐器背景音乐，所有这些都与视频内容同步。此外，Meta引入了一种音频扩展技术，可以为任意长度的视频生成连贯的音频，在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了最先进的性能。

Meta提供的一个例子是，生成在吉他音乐的伴奏下，全地形车（ATV）引擎轰鸣加速的声音，还有一个例子是，管弦乐声中有树叶沙沙作响和树枝折断的声音。

Meta还展示了针对以上四种能力进行的A/B对比测试人工评估结果，下图显示的净正值胜率代表，相比Sora等竞品模型，人类评估者更青睐Movie Gen模型生成的结果。在直接生成视频这个功能方面，Movie Gen相比Sora的净胜率达到8.2。

基于授权和公开可用数据训练未明确何时发布扎克伯格称明年上线Instagram

Movie Gen 是基于哪些信息进行训练的？Meta 的声明没有说明具体细节，只是说：“我们基于授权和公开可用的数据集对这些模型进行了训练。”

有评论指出，对生成式 AI 工具而言，训练数据的来源以及从网上抓取哪些数据合理仍然是有争议的问题，而且公众很少知道使用哪些文本、视频或音频片段创建了任何大模型。

还有评论称，Meta说训练用的数据集是“专有/商业敏感”的，未提供细节，那么只能猜测，数据包括很多Instagram 和 Facebook 平台的视频，加上一些Meta合作伙伴的内容，以及其他很多未得到充分保护的内容、也就是所谓的“公开可用”内容。

对于发布时间，Meta本周五并未明确Movie Gen何时面向大众推出，只是含糊地说“可能未来发布”。今年2月OpenAI官宣Sora后迄今还未真正向公众开放使用，也并未透露任何计划将要发布的日期。

不过，Meta CEO扎克伯格称，Movie Gen明年会上线Meta旗下的社交媒体Instagram。他在个人Instagram账号发布了一段Movie Gen生成的视频，显示他在用腿部推举机，随着他开始锻炼，背景发生了变化。先是显示，他在一家霓虹灯照耀的未来风格健身房锻炼，然后变为，他穿着角斗士盔甲锻炼，接着变为他推动一台燃烧的纯金机器，最后变为，他用腿部推举一盒鸡块，周围是一片薯条。

扎克伯格配上文字称，Meta新的 MovieGen AI 模型可以制作和编辑视频，每天都是炼腿的日子。该模型将于明年登陆 Instagram。

在社交媒体X，Meta官宣并演示Movie Gen的帖子下面，一些点赞高的评论显示，网友已经在催促Meta正式发布该模型，有网友问，不知道大家有没有机会来试试它。

本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

Sora劲敌！Meta最强沉浸式AI媒体模型来了，300亿参数模型支持Movie Gen视频

文生视频最长16秒 130亿参数音频生成模型人工评测视频生成对Sora净胜率8.2

基于授权和公开可用数据训练未明确何时发布扎克伯格称明年上线Instagram

Waymo联手DeepMind打造世界模型：基于Genie 3，让自动驾驶「脑补」罕见场景

谷歌的“隐形大招”不仅让游戏产业跪了 OpenAI、英伟达和Meta都夜不能寐

Meta电话会：推荐系统正在被大模型重写，没有智能眼镜的未来“难以想象”

从大模型、机器人到约会APP：2026年市场给AI定价的标准，全面转向回报率！

文生视频最长16秒 130亿参数音频生成模型 人工评测视频生成对Sora净胜率8.2

基于授权和公开可用数据训练 未明确何时发布 扎克伯格称明年上线Instagram

Waymo联手DeepMind打造世界模型：基于Genie 3，让自动驾驶「脑补」罕见场景

谷歌的“隐形大招”不仅让游戏产业跪了 OpenAI、英伟达和Meta都夜不能寐

Meta电话会：推荐系统正在被大模型重写，没有智能眼镜的未来“难以想象”

从大模型、机器人到约会APP：2026年市场给AI定价的标准，全面转向回报率！

文生视频最长16秒 130亿参数音频生成模型人工评测视频生成对Sora净胜率8.2

基于授权和公开可用数据训练未明确何时发布扎克伯格称明年上线Instagram