实测Sora 2,这次现实真的不存在了

01Founder
OpenAI的视频应用Sora 2的表现已远超过市面上所有同类产品的平均水平。它的强大之处在于,它生成的视频在物理逻辑、连贯性和叙事性上达到了一个新高度。通俗点说就是有“活人感”,对于普通人来说,第一眼看去,已经很难分辨出视频的真假。

2024年2月15日,Sora 的横空出世震惊了世界。

但大家后来的体验,却与最初那几段惊艳绝伦的演示视频,有着不小的差距。

无论是出于高昂的推理成本,还是其他商业考量,公开发布的版本似乎并非那头全力奔跑的猛兽。

人们期待的“电影级”革命,在现实中打了折扣。

但就在594天后的今天凌晨,OpenAI 毫无预警地扔出了第二颗炸弹:

Sora 2,以及一个名为 Sora App 的专属应用。

这一次,或许才是那个传说中的“满血版”Sora,终于来了。

这个标题听起来像是耸人听闻的标题党。

但如果你也看完了发布会,你会发现,“现实不存在了”可能不是一种夸张,而是一种即将到来的变化。

OpenAI 的最终目标从未改变:通往通用人工智能(AGI)。

而 Sora 2,这个被他们称为“有史以来最强大的想象力引擎”的模型,正是这条路上一座至关重要的前哨站。

它的任务,是让 AI 真正理解并模拟我们身处的物理世界。

如果说 Sora 1 的演示是“GPT-1 时刻”,那么 Sora 2 的发布,则更像是“GPT-3.5时刻”。

它不再满足于像素的模仿,而是试图理解并复刻现实背后的物理规律。

这不再是宣传片里的概念,而是 Sora 2 核心能力的直接体现。

它所模拟的物理效果,正是人们当初对 Sora 1 抱有最高期望、却未能在公测版中完全体验到的那种真实感。

过去,AI 生成的动态总有一种“假人感”。

复杂的物理交互,比如体操运动员在空中翻腾的肌肉张力,或者滑水后空翻时身体与水面的撞击,对模型来说几乎是无解的难题。

Sora 2 第一次让这种模拟显得“极其自然”。

发布会展示了一个惊人的案例:

Sora研发团队成员 Minia 使用Sora完成了一个完美的“kickflip”(滑板翻板动作)。

这个让无数爱好者耗费青春也难以掌握的动作,被 AI 轻而易举地复现,其物理效果、身体力学和图像质量都达到了顶尖水平。

这不仅仅是一个酷炫的演示。

它是一个信号,证明 AI 正在从一个“画师”进化为一个“物理学家”,它开始理解重力、摩擦力和碰撞。

与此同时,Sora 2 摆脱了逐个镜头的笨拙创作模式,能够一次性生成更长、更连贯的叙事。

它还是第一个原生就能同步生成音频和视频的 Sora 模型,从多语言对话到环境音效,甚至能精准匹配唇形。

更关键的是,它解决了许多模型“风格坍缩”的通病——即生成的内容最终都趋向于一种单一的美学。

Sora 2 拥有极其广泛的多样性,无论是照片级的现实主义,还是宫崎骏的动漫风格,它都能驾驭。

而Cameo是Sora 2 最令人不安,也最令人兴奋的功能。

你只需要提供一小段自己的视频,模型就能将你“数字化”,理解你的形象、动作和特征。

然后,你可以像一个Prompt一样,被无缝地“注入”到任何所描述的场景中。

你可以让自己出现在赛博朋克的东京街头,或者在《指环王》的夏尔和霍比特人喝一杯。

但 Cameo 的真正潜力,远不止于此。

它真正触动人心的,是能够满足我们这个时代的无数“意难平”。 

我们可以让史蒂夫·乔布斯,用他那独一无二的风格,为我们介绍苹果最新的 iPhone 17 Air。

这项技术,第一次给了我们一个弥补记忆中那些遗憾的可能。

它将不再仅仅是“生成视频”,也许是在创造一种“情感寄托”。

当然,这种“复活”的能力也带来了巨大的伦理风险。

正因如此,OpenAI 对 Cameo 的创建流程施加了极其严谨的限制。

包含动态音频挑战和活体检测,以确保是用户本人操作,并防止身份被滥用。

它建立了一套清晰的所有权和控制权体系。

用户可以精确控制谁能使用自己的 Cameo,并遵循一个核心原则:“未经你明确许可并完成 Cameo 创建流程,任何人都无法生成你的形象。”

如此强大的模型,需要一个全新的容器。

OpenAI 没有选择将 Sora 2 塞进现有的社交媒体软件,而是自己做了一个——Sora App。

这背后是一次深刻的产品反思。

团队观察到,如今的社交媒体已越来越偏离其初衷,不再是连接朋友与家人,而是算法主导的、无休止的“信息流”。

Sora App 试图发起一场回归。

它的信息流会优先展示你关注的人的内容。

它的产品哲学不是鼓励被动的“末日滚动”(doom scroll),而是激发主动的创作。

OpenAI 的赌注是:当创作的门槛被 AI 降到无限低时,人们是否愿意从被动的信息消费者,重新变回主动的创造者和分享者?

这个赌注的底气,来自两大功能:“创作器”(Composer)和“再创作”(Remix)。

前者让你用最简单的文字描述,就能拉上朋友的 Cameo 拍一部“大片”。

后者则让创意的病毒式传播变得空前简单。

你可以一键修改任何你看到的视频,立即生成自己的版本。

一个香水广告,可以在一分钟内被朋友们 Remix 成牙膏广告、汽车广告,甚至被翻译成不同语言。

这是一种基于 AI 的、全新的协同创作模式,它可能会催生出完全不同于 TikTok 的新文化形态。

发布会的热潮过后,随着第一批邀请码的发出,Sora 2 的真实面貌开始浮出水面。

笔者从我的几位朋友:VC投资人@真格基金戴雨森和@Linkloud高宁以及@Wenhao Chai那里获得了他们的实测体验。

一个普遍的被提到的看法是:它很强大,但并非完美无瑕。

实际生成的效果,与那些经过精心挑选的、堪称完美的 Demo 视频之间,仍然存在差距。

然而,即便如此,Sora 2 的表现也已经远远超过了市面上所有同类产品的平均水平。

它的强大之处在于,它生成的视频在物理逻辑、连贯性和叙事性上达到了一个新高度。

通俗点说就是有“活人感”,你会觉得这个是真的由真人制作并发布的内容。

对于普通人来说,第一眼看去,已经很难分辨出视频的真假。

AI 视频常有的“恐怖谷”效应,在 Sora 2 这里被极大地削弱了。

但它的“不完美”也同样明显。

最突出的一点是画质。

为了控制高昂的计算成本,OpenAI 显然在输出分辨率和码率上做出了妥协。

这导致许多视频带有一种可见的“糊感”,这种画质上的瑕疵,成为了目前分辨它与真实影像最主要的线索。

这或许是商业落地必须做出的权衡。

Sora 2 已经证明了它在“理解世界”上的潜力,但在“完美复刻世界”这件事上,成本和算力瓶颈依然是那道最现实的门槛。

当然,一个能“创造现实”的工具,其风险不言而喻。

OpenAI 对此心知肚明,并从一开始就采取了极为保守的策略,堪称“戴着镣铐跳舞”。

从清晰可见、会移动的视觉水印,到 C2PA 内容溯源标准;

从严格的底层模型审核,到对青少年用户默认关闭“无限滚动”……

OpenAI 承认,初期的审核会“过度屏蔽”,但他们必须在这个过程中,小心翼翼地寻找开放与责任之间的平衡点。

Sora 2 的发布,与其说是一次常规的版本迭代,不如说是对一年前那个宏大承诺的迟来兑现。

它带着那个曾让世界惊艳、却又似乎被刻意雪藏的真正实力, 宣告了重写现实的战争已经打响。

而它的第一枪,却打得异常克制:仅限 iOS、仅限北美、严格的邀请制。

这背后,是 OpenAI 对社交网络未来形态的一次精准狙击 :

它的目标并非立即将 Sora 作为一个生产力工具推向大众,而是要抢先定义第一个原生的、基于生成式 AI 的社交图谱 。

Sora App 就是那个精心选择的培养皿,而朋友间的邀请码,正是构建这个全新物种的第一批神经元。

因此,这远不止一次技术发布,它是一场关于未来社交形态和人机交互的深刻实验,是通往 AGI 漫长征途中的一座前哨站。

一个用来观察 AI 如何重塑人类创造与连接的实验室。

当任何人都能用一行字生成一个不存在的世界,并让自己和朋友置身其中时,我们与“真实”的古老契约,便已悄然重写。

我们该如何选择呢?

本文作者:Max,来源:01Founder,原文标题:《实测Sora 2,这次现实真的不存在了。》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章