一觉醒来,AI讨论群里热血沸腾。
一头雾水的我看了数百条的聊天记录,发现原来OpenAI发布了最新的视频大模型Sora。
OpenAI的CEO奥特曼发布了一些演示视频,众所周知,当初谷歌演示的时候涉嫌造假,奥特曼干脆让网友提需求,他即时生成。
截止现在(北京时间2月16日11点),一部分海外IP用户反馈,已经可以在ChatGPT4上试用。
演示视频显示,60秒的一镜到底,视频中的女主角、背景人物,都达到了惊人的一致性,各种镜头随意切换,人物都是保持了神一般的稳定性。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
我对 Sora 生成的画面非常感兴趣,尤其是它在不崩、不闪方面的表现。
确实,Sora 的出现为 AI 视频领域带来了新的突破,其生成的画面质量令人印象深刻。
首先,我们来分析一下脸崩现象的原因。在目前的 AI 绘画工具中,许多大模型在处理大幅画面时,往往会遇到面部细节处理困难的问题。这是因为这些模型在训练过程中,可能没有接触到足够多的、具有大幅面画面的训练数据。因此,当它们面对实际问题时,就会出现细节处理不足的情况,也就是我们所说的“脸崩”。
此外,目前的 AI 大模型都是通过逐帧生成画面,然后将这些画面拼接成视频。这种方法在画面细节发生变化时,容易出现闪烁现象。这是因为每一帧的画面都是独立生成的,它们之间的差异会在视觉上形成闪烁效果。
然而,Sora 似乎成功地解决了这两个问题。有分析人士认为,Sora 使用了游戏引擎。我对此表示认同。事实上,使用游戏引擎来生成视频,可以有效地避免逐帧生成画面再拼接的弊端。通过游戏引擎,可以实现更为连续和自然画面生成,从而避免脸崩和闪烁现象。
英伟达高级科学家 Jim Fan 对 Sora 发表了一些观点。他认为 Sora 是一个数据驱动的物理引擎,它可以对真实世界和虚构世界进行模拟。这种模拟器通过去噪和梯度学习方式,学习了复杂的渲染、直观的物理、长期推理和语义理解。如果 Sora 真的使用了虚幻引擎 5 并接受了大量合成数据的训练,那么它的表现就一点也不令人惊讶了。
在 ChatGPT 3.5 推出之前,ChatGPT 发布了几个版本。尽管这些版本的表现令人惊艳,但它们的能力有限,并没有引起广泛关注。然而,ChatGPT 3.5 的推出让一切都变了。它一炮走红后,紧接着推出了付费的 4.0 版本。
与 ChatGPT 类似,Sora 的出现也让人感到措手不及。就在不久前,大家还在为 AI 视频去闪问题而努力。毕竟,我们都看过基于现有技术水平的论文,知道瓶颈在哪里,知道上限在哪里。然而,Sora 的出现就像是从天而降的天顶星科技,打破了我们的认知。
但是,如果 Sora 真的使用了游戏引擎,比如虚幻 5,那么这一切又都可以理解了。只能说之前的 AI 视频走的是 AI 绘画的老路,想当然地认为视频等于绘画逐帧叠加。Sora 巧妙地换了一条路,依然遵循 ChatGPT 的逻辑,用数据去驱动游戏引擎,再由游戏引擎生成画面。
这样的技术并没有超越现有科技水平,但它确实是一次创新。它让我们意识到,之前的 AI 绘画模型可能走错了方向。Sora 的成功告诉我们,将 AI 与游戏引擎相结合,可以实现更为高效和逼真的画面生成。
随着 Sora 的成功,我们可以预见,未来会有越来越多的 AI 大模型接入游戏引擎。这种结合将为绘画大模型带来降维打击,让它们在画面生成方面面临巨大的挑战。不过,这也是 AI 技术发展的必然趋势。只有不断尝试创新,才能推动技术的进步。
并非现实不存在了。
这,就是现实。
内容由AI生成
本文作者:天渊三,来源:星空财研,原文标题:《现实不存在了?不,这就是现实》