OpenAI CTO：Sora计划年底对外发布，或增加音频和视频编辑功能

硬AI

2024/03/14 10:24

OpenAI首席技术官透露，Sora预计将在今年发布，可能还需要几个月的时间。一段20秒时长、720P分辨率的无声视频，仅仅几分钟就能制作完成，计划在未来为视频增加音频和剪辑功能。

作者：葛佳明

来源：硬AI

今年2月，OpenAI在官网发布了仍处测试阶段的文生视频大模型Sora，人们只需输入一些文字提示，就能制作长达60秒的视频，逼真的视觉效果更是让许多动画、影视行业从业者感到“恐慌”。

当地时间3月13日周三，OpenAI的CTO Mira Murati接受媒体专访，在访谈中，Murati表示，目前Sora正在开展红队测试(一种安全评估方法)，仅面向少数人开放，计划是在2024年晚些时侯可以正式与公众见面。

Murati表示，目前利用Sora文生视频的成本远高于使用图像生成器Dall-E的成本。她表示，在Sora向公众发布时，他们将努力优化算法，降低所需的算力，使更多人能够享受到这项技术带来的便利。

Murati透露，一段20秒时长、720P分辨率的无声视频，仅仅几分钟就能制作完成，计划在未来为视频增加语音功能，让内容更加完整。“我们正在努力将这项技术打造成人们可以编辑和创作的工具。”

当被问及Sora对视频行业从业者可能带来的影响时，Murati强调OpenAI在发布这项技术时的谨慎态度。她表示，OpenAI已经让一些行业内部人士提前进入测试阶段，以便更好地了解并应对可能出现的挑战。她说：“我们希望电影界人士和世界各地的创作者都能参与进来，与我们共同探索如何进一步推动这些行业发展。”

如何识别AI生成视频？

针对Sora的工作原理，Murati解释称，Sora通过大量视频数据的学习，学会识别和理解各种物体和动作。当用户给它一个文本提示词时，它能够迅速勾勒出整个场景，并逐帧填充细节，从而生成出令人惊艳的视频内容。

那么OpenAI在训练Sora时使用了哪些数据？Murati回答称：“我们使用了公开可用的数据和授权数据。”

当被进一步问及是否包括YouTube、Instagram和Facebook等平台上的视频时，她表示并不清楚具体情况。Murati后来证实，授权材料确实包括了来自一些摄影图片网站的内容。

在早期阶段，人们如何能够识别出视频是由人工智能生成的而不是真实拍摄的呢？Murati提到了可能的解决方案：在视频的底部添加水印。她表示，这些视频最终将包含元数据，用以标明其来源，这有助于我们识别和追溯其生成方式。

除了技术问题，OpenAI还在致力于通过红队测试来确保Sora的安全性和可靠性。红队成员尝试使用各种提示来挑战Sora，以发现可能存在的漏洞、偏见和其他有害结果。Murati称：“这就是为什么我们实际上还没有将Sora面向公众推出的原因，我们需要先弄清楚这些问题，然后才能广泛的使用它们。”

Murati透露，Sora的提示词政策可能会借鉴其图像生成器Dall-E。比如，Sora将不允许生成公众人物的图像。

而关于可能涉及裸体的内容，Murati表示，公司正在与艺术家们紧密合作，探讨如何在不限制创造力的前提下，为这类内容设置适当的“护栏和限制”。

人类将如何适应这样的变革？

对于好莱坞等视频行业来说，文生视频领域的繁荣既让人担心又让人兴奋，这取决于谁用，怎么用。

好莱坞超级制片人、导演、拥有美国最大制片厂之一泰勒·派瑞（Tyler Perry）在目睹Sora的表现后，主动放弃了8亿美元的电影制片厂扩建计划。他意识到，这项技术有可能大幅度减少在布景和外景拍摄上的费用，但同时也引发了人们对未来职业前景的担忧。

当被问及Sora对视频制作工作可能带来的影响时，Murati再次强调了OpenAI在发布这项技术时的谨慎态度。她表示，OpenAI已经让一些行业内部人士提前进入测试阶段，以便更好地了解并应对可能出现的挑战。她说：“我们希望电影界人士和世界各地的创作者都能参与进来，与我们共同探索如何进一步推动这些行业发展。”

尽管OpenAI在推进这项技术时表现得像瓷器店里的一头公牛，那么它需要小心翼翼地避免破坏现有的秩序。但不可避免的是，随着技术的不断进步和应用，它终将开始“撞碎瓷盘”，进而引发视频制作行业的深刻变革。

本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。