2024年2月15日,Sora 的横空出世震惊了世界。
但大家后来的体验,却与最初那几段惊艳绝伦的演示视频,有着不小的差距。
无论是出于高昂的推理成本,还是其他商业考量,公开发布的版本似乎并非那头全力奔跑的猛兽。
人们期待的“电影级”革命,在现实中打了折扣。
但就在594天后的今天凌晨,OpenAI 毫无预警地扔出了第二颗炸弹:
Sora 2,以及一个名为 Sora App 的专属应用。
这一次,或许才是那个传说中的“满血版”Sora,终于来了。
这个标题听起来像是耸人听闻的标题党。
但如果你也看完了发布会,你会发现,“现实不存在了”可能不是一种夸张,而是一种即将到来的变化。
OpenAI 的最终目标从未改变:通往通用人工智能(AGI)。
而 Sora 2,这个被他们称为“有史以来最强大的想象力引擎”的模型,正是这条路上一座至关重要的前哨站。
它的任务,是让 AI 真正理解并模拟我们身处的物理世界。
如果说 Sora 1 的演示是“GPT-1 时刻”,那么 Sora 2 的发布,则更像是“GPT-3.5时刻”。
它不再满足于像素的模仿,而是试图理解并复刻现实背后的物理规律。
这不再是宣传片里的概念,而是 Sora 2 核心能力的直接体现。
它所模拟的物理效果,正是人们当初对 Sora 1 抱有最高期望、却未能在公测版中完全体验到的那种真实感。
过去,AI 生成的动态总有一种“假人感”。
复杂的物理交互,比如体操运动员在空中翻腾的肌肉张力,或者滑水后空翻时身体与水面的撞击,对模型来说几乎是无解的难题。
Sora 2 第一次让这种模拟显得“极其自然”。
发布会展示了一个惊人的案例:
Sora研发团队成员 Minia 使用Sora完成了一个完美的“kickflip”(滑板翻板动作)。
这个让无数爱好者耗费青春也难以掌握的动作,被 AI 轻而易举地复现,其物理效果、身体力学和图像质量都达到了顶尖水平。
这不仅仅是一个酷炫的演示。
它是一个信号,证明 AI 正在从一个“画师”进化为一个“物理学家”,它开始理解重力、摩擦力和碰撞。
与此同时,Sora 2 摆脱了逐个镜头的笨拙创作模式,能够一次性生成更长、更连贯的叙事。
它还是第一个原生就能同步生成音频和视频的 Sora 模型,从多语言对话到环境音效,甚至能精准匹配唇形。
更关键的是,它解决了许多模型“风格坍缩”的通病——即生成的内容最终都趋向于一种单一的美学。
Sora 2 拥有极其广泛的多样性,无论是照片级的现实主义,还是宫崎骏的动漫风格,它都能驾驭。
而Cameo是Sora 2 最令人不安,也最令人兴奋的功能。
你只需要提供一小段自己的视频,模型就能将你“数字化”,理解你的形象、动作和特征。
然后,你可以像一个Prompt一样,被无缝地“注入”到任何所描述的场景中。
你可以让自己出现在赛博朋克的东京街头,或者在《指环王》的夏尔和霍比特人喝一杯。
但 Cameo 的真正潜力,远不止于此。
它真正触动人心的,是能够满足我们这个时代的无数“意难平”。
我们可以让史蒂夫·乔布斯,用他那独一无二的风格,为我们介绍苹果最新的 iPhone 17 Air。
这项技术,第一次给了我们一个弥补记忆中那些遗憾的可能。
它将不再仅仅是“生成视频”,也许是在创造一种“情感寄托”。
当然,这种“复活”的能力也带来了巨大的伦理风险。
正因如此,OpenAI 对 Cameo 的创建流程施加了极其严谨的限制。
包含动态音频挑战和活体检测,以确保是用户本人操作,并防止身份被滥用。
它建立了一套清晰的所有权和控制权体系。
用户可以精确控制谁能使用自己的 Cameo,并遵循一个核心原则:“未经你明确许可并完成 Cameo 创建流程,任何人都无法生成你的形象。”
如此强大的模型,需要一个全新的容器。
OpenAI 没有选择将 Sora 2 塞进现有的社交媒体软件,而是自己做了一个——Sora App。
这背后是一次深刻的产品反思。
团队观察到,如今的社交媒体已越来越偏离其初衷,不再是连接朋友与家人,而是算法主导的、无休止的“信息流”。
Sora App 试图发起一场回归。
它的信息流会优先展示你关注的人的内容。
它的产品哲学不是鼓励被动的“末日滚动”(doom scroll),而是激发主动的创作。
OpenAI 的赌注是:当创作的门槛被 AI 降到无限低时,人们是否愿意从被动的信息消费者,重新变回主动的创造者和分享者?
这个赌注的底气,来自两大功能:“创作器”(Composer)和“再创作”(Remix)。
前者让你用最简单的文字描述,就能拉上朋友的 Cameo 拍一部“大片”。
后者则让创意的病毒式传播变得空前简单。
你可以一键修改任何你看到的视频,立即生成自己的版本。
一个香水广告,可以在一分钟内被朋友们 Remix 成牙膏广告、汽车广告,甚至被翻译成不同语言。
这是一种基于 AI 的、全新的协同创作模式,它可能会催生出完全不同于 TikTok 的新文化形态。
发布会的热潮过后,随着第一批邀请码的发出,Sora 2 的真实面貌开始浮出水面。
笔者从我的几位朋友:VC投资人@真格基金戴雨森和@Linkloud高宁以及@Wenhao Chai那里获得了他们的实测体验。
一个普遍的被提到的看法是:它很强大,但并非完美无瑕。
实际生成的效果,与那些经过精心挑选的、堪称完美的 Demo 视频之间,仍然存在差距。
然而,即便如此,Sora 2 的表现也已经远远超过了市面上所有同类产品的平均水平。
它的强大之处在于,它生成的视频在物理逻辑、连贯性和叙事性上达到了一个新高度。
通俗点说就是有“活人感”,你会觉得这个是真的由真人制作并发布的内容。
对于普通人来说,第一眼看去,已经很难分辨出视频的真假。
AI 视频常有的“恐怖谷”效应,在 Sora 2 这里被极大地削弱了。
但它的“不完美”也同样明显。
最突出的一点是画质。
为了控制高昂的计算成本,OpenAI 显然在输出分辨率和码率上做出了妥协。
这导致许多视频带有一种可见的“糊感”,这种画质上的瑕疵,成为了目前分辨它与真实影像最主要的线索。
这或许是商业落地必须做出的权衡。
Sora 2 已经证明了它在“理解世界”上的潜力,但在“完美复刻世界”这件事上,成本和算力瓶颈依然是那道最现实的门槛。
当然,一个能“创造现实”的工具,其风险不言而喻。
OpenAI 对此心知肚明,并从一开始就采取了极为保守的策略,堪称“戴着镣铐跳舞”。
从清晰可见、会移动的视觉水印,到 C2PA 内容溯源标准;
从严格的底层模型审核,到对青少年用户默认关闭“无限滚动”……
OpenAI 承认,初期的审核会“过度屏蔽”,但他们必须在这个过程中,小心翼翼地寻找开放与责任之间的平衡点。
Sora 2 的发布,与其说是一次常规的版本迭代,不如说是对一年前那个宏大承诺的迟来兑现。
它带着那个曾让世界惊艳、却又似乎被刻意雪藏的真正实力, 宣告了重写现实的战争已经打响。
而它的第一枪,却打得异常克制:仅限 iOS、仅限北美、严格的邀请制。
这背后,是 OpenAI 对社交网络未来形态的一次精准狙击 :
它的目标并非立即将 Sora 作为一个生产力工具推向大众,而是要抢先定义第一个原生的、基于生成式 AI 的社交图谱 。
Sora App 就是那个精心选择的培养皿,而朋友间的邀请码,正是构建这个全新物种的第一批神经元。
因此,这远不止一次技术发布,它是一场关于未来社交形态和人机交互的深刻实验,是通往 AGI 漫长征途中的一座前哨站。
一个用来观察 AI 如何重塑人类创造与连接的实验室。
当任何人都能用一行字生成一个不存在的世界,并让自己和朋友置身其中时,我们与“真实”的古老契约,便已悄然重写。
我们该如何选择呢?
本文作者:Max,来源:01Founder,原文标题:《实测Sora 2,这次现实真的不存在了。》