“视频生成器”表皮之下，Sora究竟意味着什么？

腾讯研究院

2024-02-26 19:02

564

追上甚至超越OpenAI，已经几乎成了不可能完成的任务。

Sora，源自日语的そら，空。色即是空。色、受、想、行、识，五蕴亦皆空。至大无外，至小无内，这个产品注定会给人无穷的想象空间。

OpenAI 团队用一个充满禅意的词，又一次开启了AIGC 的新时代。

Sora伪装成了一个视频生成器，可以生成一分钟的高清、高一致性视频，大家首先会认为它是和Pika、Runway一样的实用工具，也会先考虑它对视频、电影行业的颠覆。这当然没错，但看到OpenAI的技术报告，Video generation models as world simulators（视频生成模型作为世界模拟器），用到了世界模拟器这个终极大词，很明显其意义又远不止视频这么简单。

一

Sora在算法上融合了diffusion和transformer两种架构，通过时空patches降维压缩输入的视频等多种视觉数据，代替语言模型中的tokens实现了在transformer中训练。

无论是Diffusion transformer (DiT)架构(Scalable Diffusion Models with Transformers)，还是时空patch思想（Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution），在之前都有其他学者和机构提出过，谷歌也曾经做过不少贡献。OpenAI最大的贡献，跟之前的GPT3一样，是再次验证了Scaling Law可以在这个技术方向上继续发挥作用实现涌现。这是通过无数工程实验试错的结果，背后不仅是其强大的技术力量和信念支持，也是惊人的资本和算力支持的结果。

二

Sora表面上看起来是只在二维平面工作，但其实并非如此。之前的视频生成工具，的确大都只是部分元素在平面上简单运动甚至晃动，而Sora表现出了超强的“3D一致性”。“Sora可以生成具有动态相机运动的视频。随着相机的移动和旋转，人物和场景元素在三维空间中以一致的方式移动。”这就意味着，Sora已经具备对四维时空的完整理解和创造潜力。NeRF（神经辐射场）在之前已经基本具备了基于稀疏图像和视频完成三维建模的能力，二者结合之后，普通用户在XR中自由创造无限的空间场景再无瓶颈，也就可以真正实现“仰观宇宙之大，俯察品类之盛，所以游目骋怀，足以极视听之娱，信可乐也”的向元宇宙迁移的理想了。选在苹果发布Vision Pro之后不久的时点，也许也有这方面考虑。

三

“我们发现，当视频模型经过大规模数据训练后，它们涌现出了新的能力。这些能力使得Sora能够模拟一些来自物理世界的人、动物和环境的某些方面。这些能力的涌现是在没有经过3D、物理等明确数据标记的情况下出现的，它们纯粹是规模效应。”这一条可以说是Sora最为惊人的涌现要素。如果说前两点都还算是之前技术理解的自然延伸，只是比想象快了一点，这一点则清晰证明，DiT模型可以通过海量数据的学习，通过“直觉”方式理解整个物理世界，隐式表达各种物理规律。因此，大家难免会把这个世界模拟器与LeCun提出的世界模型相比较。这也是目前争议最大的一件事，毕竟Sora只是从视频中学习了物理世界的“表征”，可以建立符合人的感受的视频，但在细节上不可能真正“模拟”物理规律，更不能通过这种方式实现因果推断，进而实现具身智能，真正改造物理世界。所以LeCun显然感觉受到了冒犯，并坚持认为自己2022年提出的JEPA（联合嵌入预测架构）才是正途。JEPA并非生成式的，而是在表示空间中进行预测。

如果不是Sora，Meta在同一天发布的V-JEPA本来该受到大得多的关注。但话说回来，生成式模型似乎更接近人类理解世界的方式，只是是否能通过这个路径实现AGI，还是存疑的，毕竟Meta的视频demo离可用还相去甚远。但这次OpenAI的大杀器一出，恐怕短期内DiT必然成了构建AGI的主要路径。也许与交流电和直流电之争一样，并没有什么对错，最终也许是殊途同归，毕竟现在生成模型的主流方式也是缝合多个不同的网络。而且，在真正的世界模型解决物理世界的精确模拟和具身控制问题之前，Sora 也许已经足够解决虚拟世界的感官体验问题了。

结语

与其说Sora是个文生视频技术突破，不如说是OpenAI告诉大家一个通向AGI可行的技术路线，坚定大家对他的信任，并争取到更多的资源，包括资金、芯片和能源。联想到之前ChatGPT抢在Claude以前发布ChatBOT，这次对Google Gemini大杀器的精确阻击，显然也是有意为之。

这不仅仅是一个营销思路，更意味着已经比我们更早看到未来的奥特曼，已经意识到未来资源的稀缺，并需要靠精确的策略来保持OpenAI的技术领袖地位。奥特曼也在通过这种方式告诉所有大模型厂商，下一阶段不要在技术底座上继续与其竞争，争夺有限的资源。虽然有学者认为Sora只是一个大约30亿参数的模型，训练成本并没有想象的高，但视频数据本身的处理、标注等成本，加上长视频在推理阶段注定的巨大token数量和算力消耗，显然对任何公司都是难以承受的挑战。毕竟Sora技术报告中也对比了不同算力下的明显差异，还是离不开力大砖飞的路子。

这是一场不对称的竞争，OpenAI手里应该是已经有一个基本完整的多模态GPT5，他可以根据需要随时释放其中的某一部分打击对手，或者引导舆论。之前传说奥特曼去中东筹集万亿美元试图建设新的芯片和AI生态时，大家还无法想象他的胃口；OpenAI大力呼吁安全与对齐的重要性，甚至要罢免CEO，也一定是因为其看到了我们尚无法想象的强大能力。Sora一出，这一切都变得更加合理。虽然未必AGI一两年内就能实现，的确其速度也会远超之前的理解。

对我国的AI行业来说，Sora的发布，好处是进一步明确了DiT（=VAE编码器+ViT+DDPM+VAE解码器）是多模态AI的可行方向，大厂仍然有可能以现有资源在一年左右接近Sora目前的水平。但近期带给科技政策制定者和百模大战的厂商们，显然更多的是焦虑和警告。事实上，不仅是受到各种限制的我们，即使是Google和Meta，与OpenAI的差距也已经在逐渐拉大，而且在多模态技术路线逐渐统一的背景下，语言模型的标注能力已经形成了巨大的正向循环效应，并加速多模态模型乃至AGI的涌现。追上甚至超越OpenAI，已经几乎成了不可能完成的任务。掂量一下家底后，还有能力继续跟进OpenAI路线梭哈自研多模态底座模型的厂商，估计会迅速缩减到十个以内。即使这样，也还需要国家在芯片产业链培育和新能源战略上都不犯错误，保障芯片与能源供给的指数增长。研发多模态底座模型，可谓知其不可而为，别无选择，在商业跟风之后，也许会成为悲壮的坚持。而且会有更多厂商下决心自研芯片，不只是解决自主可控的供给问题，也是为了裁剪以便更加高效适配自己的算法特点。

除了底座模型之外，当然还有很多更加务实的选择，比如各大厂根据自身业务分化出各自的特色模型，也许是视频、社交、游戏、元宇宙、端侧、具身……或许在一些对基础模型需求不那么高的领域，先于OpenAI创造出独特的应用场景和商业模式，也并不是没有可能。至于创业公司，在大厂封堵了大规模上下文RAG和Agents等技术赛道之后，可能更多还是要去真正从第一性原理去用AI改造各个行业。

已经有人在把Sora的诞生称为牛顿时刻。新的产业革命已经开始，但所有的核心技术都掌握在一个国家，这是非常危险的状态，或者说已经是事实上的战争状态。这一轮人工智能的落地，除了一般意义上的通过具身智能解决物理空间的工作替代和效率提高，更快落地的将是虚拟空间内的生活和娱乐基建建设。后者因为涉及到信息平权和意识形态，或许比科技本身更加敏感和急迫。高质量文化内容的生产门槛快速降低，如果国内没有足够的产品能力和生态，文化传播很容易被倒灌。除了内容安全和监管需求以外，需要主动建立的不仅是一种技术标准，更是文化和福祉的标准。保证我们在虚拟世界能创造每个个体被尊重和保护的公正环境，防止人工智能制造的分歧和争端。

在后面的一年里，Sora对我们世界的扰动比起GPT只会更大，而且不同的是，挑战会远大于希望。当然，最好以上只是杞人忧天的臆想，Sora最终就真的只是个让大家自由创作的视频工具。

本文作者：腾讯研究院资深专家王鹏，本文来源：腾讯研究院，原文标题：《“视频生成器”表皮之下，Sora究竟意味着什么？》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。