【会议纪要】像人一样理解世界？Sora将颠覆哪些行业

秦陈莉

02/28 14:12

AI视频拉动算力，对于基础设施的需求，未来的增长是非常明确的。下游的内容，特别是文娱领域会迎来很多新机会。

核心观点

1、Sora模型的目标其实是要去做AGI，它呈现出的能力是对现实世界的模拟，这超出了市场原本对AGI发展速度的预期

2、目前来看Sora只具备了镜头级的生成能力，可以通过一个镜头讲述一点点内容，但并不具备通过几句自然语言就生成一段成熟视频的能力。

3、Sora提供的是一个更加三维的、立体的、符合我们人类世界认知的一个窗口，更需要人类用户的数据反馈。

4、AI视频拉动算力，对于基础设施的需求，未来的增长是非常明确的。下游的内容，特别是文娱领域会迎来很多新机会。

5、任何大模型或者工具只不过是让我们生产内容的门槛变低了，成本降低了，但是生产内容的所有核心逻辑还是没有变。

6、除了非常重要的文娱领域，大家已经能看到有直接的影响以外，自动驾驶、机器人都是AI非常重要的、大的落地场景。

点击图片观看视频回放

2月20日 19:00，见闻邀请了天风全球前瞻产业研究院联席院长【孔蓉】、AI系列短剧制作人【陈坤】一起来聊聊Open AI Sora问世会带来哪些影响？以下是本期会议纪要。

纪要正文

华尔街见闻：

您作为优酷的前综艺工作室的负责人，AI影视应用领域的探索者，对于文生视频，您觉得这对于整个行业的影响会体现在哪些方面？

陈坤：

先分享一下我的个人感受，我从2023年11月份开始参与AI影视制作，当时我看到了Pika的宣传片，然后意识到AI影视应该是一条可以去尝试和探索的路了。所以之后尝试了pixverse、Pika、Runway等市面上几乎所有的AI视频的工具。

在Sora发布之前，大家会发现所有的视频都有一系列同样的问题。

首先，视频的篇幅很短，基本上所有AI视频生成工具的有效时长大概在4秒左右。第二，所有的动作幅度都很小，比如说大家能看到我背后这只狼，可能它只能向前挪动一点，或者往前走一步，只能是这种动作幅度。第三，一致性的保持非常差。另外原来的文生视频会产生很多不符合物理规律的地方，比如说如果这只狼走路，可能看起来像飞过来的而不是正常走的。

在Sora发布前，由于这些普遍性问题的存在，大家对于AI影视的关注不多。目前，AI影视在主流媒体端只有零星的呈现，还没有太多的AI影视作品可以商业化交付出来。

Sora的出现，首先生成视频的篇幅长度能达到60秒，相比之前大大提升了。另外我看到的第一个Sora生成的视频是一位女性走在东京街头，相信大家也都看过了。让我感觉到震撼的是，女主角的走路过程几乎没有瑕疵，并且地上的水印倒影出来的城市的夜景，以及女主角身后的人物走动等这些场景都非常符合现实世界的设定。这在之前文生视频模型中，是非常难达成的。之前AI工具生成的视频，没有办法做到那么长，那么真，对于背景画面的控制和理解也没有这么好。

所以Sora让我们觉得这个行业要变了，或者说唤醒了更多的专业工作者来关注这件事情。Sora发布的那一天，非常多的影视行业的同行来问我Sora是什么？在哪可以用？怎么才能用到它？那未来我们是不是就不用拍视频了？

从Sora发布至今，我觉得它就像OpenAI这个三体放出来的水滴一样，不断地给我们展示神迹，让我们对它充满期待。但是目前来说，在我们国内还无法使用（试用）Sora这个大模型，只有OpenAI内部团队使用后展示一些视频，大家可能会感觉到焦虑甚至恐慌。

华尔街见闻：

Sora发布后，很多人觉得我们离AGI可能只有一到两年了，您怎么看？未来的大模型除了视频以外还扩展到哪些产业或者领域？

孔蓉：

刚才展示的视频中一段是2023年5月份，Runway的第一代视频工具生成的，我们能够看到视频里不管是一致性和连贯性都相对比较差，人物可能在几秒的转换过程中脸花了，有的手掌生成出六个手指头。而现在，经过一年的时间，我们从Sora发布的视频来对比，可以看到这个领域的飞速发展。

2023年，很多人已经预测到在2024年生成视频领域会有很大的变化，但是没有想到的是，在2024年的农历新年，OpenAI推出的Sora颠覆了大家的想象。

在2023年大家普遍认为新技术可能会先从动画、动漫领域，生成更好的一些内容，但是真人视频领域可能还需要一段时间，包括对于现实世界的模拟，当时我也觉得可能还需要一到两年的时间来发展。但是Sora的发布，超出了大家原来的预期，惊艳了全世界。让大家看到从2023年5月份至今，仅8个月左右的时间，技术发生了非常大的进步。

Sora的论文题目叫做word simulation，最后论文的结尾作者也提到Sora还有一些bug，在模拟物理规律的时候还是有些问题。Sora模型的目标其实要是要去做AGI。从它的创造团队的Team Leader（比如Bill等重要的牵头人）在Twitter上的签名都是要走向AGI这一点我们就能看出，这也是Sora与Pika、Runway很大的一个区别。

Sora呈现出的能力是对现实世界的模拟，官方展示的大部分视频也都是模拟现实环境的内容。这是除了生成视频时长更长、清晰度更高、画质更精美之外非常重要的一点，它在往AGI的路上又迈进了一步。因为要真正走向AGI，大模型的理解能力需要更加强大，除了要理解文字、图片，还需要理解真实世界的环境，也就是类似于这样视频化的内容。

说到AGI的实现时间，在2022年ChatGPT推出之前，大家普遍还觉得AGI是天方夜谭，还需要至少十年才可能实现。2023年聊到AGI，在硅谷，大家更多在讨论，2028年我们就有50%的概率会实现AGI。到时候人工智能的理解能力会更强，更像人，此外它的决策能力、记忆能力也会更靠近人类，而不像现在，我们与它对话几分钟后，它可能就无法识别你是谁了。甚至未来它的决策能力能够像人一样，在20个选项中选到最优解。

从现在发布的技术来看，真正AGI到来的时间在不断缩短，但是我觉得可能还要三到五年的时间更现实一些。2023年的年底Sam Altman其实有提到，2024年模型的能力可能就会有一个大的飞跃，这种飞跃会超出所有人的预期，它不是一个简单的线性变化。但是至于是否一到两年就能够实现突破，我无法下判断，但是的确会比我们原本预想的时间要更短了，特别是Sora发布之后。

华尔街见闻：

如何看待AI在影视创作行业的具体应用、以及产生的影响？

陈坤：

AI生成模型发布后以后，很多人认为AI生成就能代替传统拍摄了，我觉得这个可能性并不大。目前大家看到的技术效果展示都只是单个镜头内的能力体现，Sora目前也没有对外展示过任何的操作界面，也没有展示过同一个人物不同侧面的连续性以及一致性。所以基于目前我们所看到的这些技术能力，AI想要取代我们整个行业的拍摄，我认为是不太可能的。

Sora生成一段60秒的视频是需要非常大的算力成本的，如果未来开放给用户使用，参考现在ChatGPT的月费，我认为这笔账是算不太过来的。我认为Open AI不论是创造GPT还是Sora，不仅仅是为了赚取用户的使用费用，而是让更多的人去使用这个工具。比如通过GPT生成用户认为有效的内容，用户一般会有下载的动作。这个下载的过程就是在告诉大模型，对应的结果对于人类来说是最优解，是更符合我们人类逻辑的。

Sora提供的是一个更加三维的、立体的、符合我们人类世界认知的一个窗口，更需要人类用户的数据反馈。

基于算力成本的压力，和遥遥领先业内的技术水平（其他模型的能生成的视频长度大约在4秒左右）我认为Sora未来开放给用户使用的视频生成时长或许会短于60秒，并且用户的使用费用会是一个相对普惠的、大多数人都能用得起的定价。

现在所有官方发布的Sora的Demo都是Showcase。Showcase就是把自己最好的一面展示给大家，但大多数模型，比如Pika，真正的使用体验或许不会像它的Showcase所呈现的如此惊艳。我相信Sora开放后也会显现同样的问题，那么用一句话就能把传统的拍摄替代，在短时间内还是不太可能实现的。

另外，非影视行业的人可能忽略的是，所有的影视作品，除了视频镜头环节，还有大量的其他工作需要完成，比如说后期剪辑、配音、配乐等。当然随着新技术的发展，Eleven Labs推出了配音、配乐、配音效的功能。但是剪辑环节我暂时没有看到有非常好的AI剪辑的工具，能够完全自动来完成整个故事片的剪辑。

所以目前来看Sora也只是具备了镜头级的生成能力，可以通过一个镜头讲述一点点内容。它并不具备通过几句自然语言就生成一段成熟视频的能力。所以我觉得Sora开放用户应用后带来的冲击可能会比大家现在想象的要小很多。

华尔街见闻：

从工具到内容再到硬件在2024年初有了一个全新的发展，这些发展会带动元宇宙的概念和产业加速落地吗？

孔蓉：

2024年年初苹果vision Pro发布之后，引起了很多业内人的讨论，在产品的使用反馈上，大家能体验到，特别是在视频呈现上跟以往所有的XR的设备是完全不同的。

XR的内容其实是一个比较大的短板，在过去几年，首先是硬件设备的出货量相对还是比较小，另外制作的成本也比较高，所以导致很多的开发者也不太愿意去做XR相关的内容。但是vision Pro推出之后，唤起了不少潜在的开发者去做XR内容的兴趣。

另外，特别是与AI视频相关的是，现在缺乏的是比较好的3D、视频的内容，包括高清晰度的内容。如果未来AI视频的工具，真的像它Demo展示的能力那么强，甚至技术发展迭代后更好的情况下，从技术层面是能够做一个相互的补充，使得整体的XR内容生态逐步更丰富的。

华尔街见闻：

Sora发布，哪些产业、环节最先受益？

孔蓉：

一个是基础设施。对于算力的需求，我们很难说跟文字、图片相比，文生视频到底多消耗多少倍的算力，但是很明确的是它对于算力的需求是不断的，而且是非常大量的，相较于图片或者文字，那是非常巨大的算力消耗的一个成本。所以从投资的角度，如果要找确定性，的确就是AI视频拉动算力。对于基础设施的需求，未来需求的增长是非常明确的。

另外对于整个应用端，因为Sora发布后，是能够看到未来AI视频带来的，未来应用的机会可能会不断地出现。从资本市场的角度，大家会关注影视广告电商会有什么样的新的机会。一方面它可能带来的是行业的影响，但是另外一方面肯定也会带动很多新的机会以及市场的预期。

我们觉得在下游的内容，特别是对于娱乐文娱这个领域，到了一个非常重要的新的阶段。这个阶段是由AI、苹果的vision Pro、XR等新的技术推动的。都说明了原有的娱乐的体验和内容形态已经到了要发生巨大变化的一个时点。从投资的角度，这也是一个比较重要的机会。

华尔街见闻：

关于应用，您觉得Sora对于未来行业整个上游和下游会带来哪些积极的或者说颠覆性的、变革性的影响？

陈坤：

AI影视出现后，第一波受到冲击的肯定是短视频或者短剧，原因就是成本的降低。最直接的就是以前可能需要实拍的内容，现在不需要了，包括以前需要CG制作的内容，可以用AI影视的手段去解决了。

但是比如说像电影这样，直接要给消费者做内容交付的内容产品暂时还不会受到大的冲击。因为消费者是直接付费去获得的一个成熟产品体验，如果看一部电影的过程中出现多次问题画面，那可能就会面临被退票的风险。

所以我觉得第一波受到冲击的会是短视频和短剧，就像我现在就正在做的一个AI系列短剧《山海奇境》概念篇。

在Sora出现后的一段时间可能还会兴起一股荒诞艺术。

Sora发布的当天，Sam Altman化身客服，在Twitter上在线接单，生成了一条海豚在沙滩上骑自行车的视频。这一条视频其实是让我们看到了符合物理定律的一个视觉器官。还有最近Sora生成的一些其他视频，比如屁股后边是个灯泡的螃蟹，有鲜花的老虎，眼睛是各种电子设备的德国牧羊犬，这些其实都是夸张而荒诞的。

这样的内容会对广告行业造成非常大的影响。因为这样的画面效果之前是需要花费大量的时间和金钱去渲染生成的，但是现在Sora可以快速的生产出来。对于广告行业的冲击可能也来自于这点。

还有一个方面，比如说像一些有大量的成型的音频素材的企业，比如喜马拉雅、蜻蜓，包括儿童教育类的企业。他们所拥有的大量的广播剧或者说是音频剧等音频素材可能会在短时间内会变成大量的视频展现出来。大家可能会看到非常多之前熟悉的音频作品变成了视频作品。

当然，我们在讨论AI对影视行业的影响的时候，不单单要考虑生产端，我们还要考虑视频的消费端。我们已经经历了，从长视频到短视频，内容生产者的群体基数放大了一个数量级。可以预见，未来AI工具的加持下，这个数量级很可能再放大一倍。

但是内容消费者的体量是基本不变的。长视频时代，我们的视频内容从供应不足到供应充足。短视频时代来临后，从供应充足到供应冗余。那么AI影视出现后，一定会出现大量的、非常多的冗余的信息，一下冲到所有人面前。

内容的创作还是会回归最基本的原理，就是你一定要有自己独特的地方，比如有独特的审美，或者独特的表达方式，或者你有独家的核心内容。任何大模型或者工具只不过是让我们生产内容的门槛变低了，让我们生产内容的成本相对降低了，但是生产内容的所有的核心逻辑还是没有变。

华尔街见闻：

假设未来放开了Sora类似的工具使用，您觉得对于影视行业从业者来说，是会更轻松了，能产出更多内容，还是会更卷、会更累？给整个行业增压了，还是减压了？

陈坤：

AI其实在目前这个阶段是促进我们人类去产生更多创造力的。未来你如果有创造力，你会认为你的时间不够用，比如说之前你想出一个点子来，需要一周、一个月甚至一年才能实现，但是未来可能只要一分钟甚至一秒钟。这就需要不断地去动脑子去创造。

这个过程当中会被淘汰的是那些用到人类创造性比较少的人。AI工具对人类劳动力的挤压一定是从下往上挤，越在下面的人越会有可能被替代。但是越往上的人，你越有创意的人，越会被发现，会冒出来。

现在我们已经在各个AI群里边发现了一个趋势，很多的AI影视创作的爱好者，并不局限于北上广这些大城市，有可能就在县城或者是小地方。但是他们有创意，加上现在的内容剪辑的门槛也在降低，一些影视爱好者已经能产出一些作品了。AI会让让没有创造力的工作慢慢被挤掉，而有创造力的工作会越来越被看到。

华尔街见闻：

孔总您怎么看这个新的视频大模型，对于短视频平台，短剧公司，带来的影响和冲击。

孔蓉：

它会极大地释放了我们原来创意行业的生产力。

2023年由木头姐出具的一篇报告中有一组测算，里面提到了整个创意内容领域，有20万亿美金。我不确定这个数字是否准确，或者这个测算方法是否科学。但是它已经表达得很明确，AI出现了之后，会让原本非常有创意的、有特别多想法的人能通过效率极高的工具更快地去实现想法。

所以硅谷有一种说法，未来会有一个人的公司。那未来在影视领域可能也会出现一个人的制作公司或者制作团队，只要有好的创意，可以借由这些工具参与到内容的制作。从未来用户跟观众的角度，就能够看到更多更好的内容。

以短视频平台的兴起为例，丰富的直播内容，大量的博主，KOL的不断涌现，都能够看到行业的变化。短内容或许不是最好的内容形式，但是整体内容创意行业变得更加的丰富了。相信AI到来之后，短视频等的流量平台上的创意内容会变得更加的繁荣和丰富。

我觉得对于从业者来说是一件好事，只是角色身份可能要有所转变，未来好的创意和想法的是最有价值，最有竞争力的。

孔蓉：

我知道坤导也正在使用AI制作短剧，您觉得未来一年的时间里，AI视频领域以及AI短剧领域会有什么样的变化和机会？

陈坤：

当一个新的工具出现时，它一定会沿着上一个时代的轨迹先往前运行一段。所以我认为在接下还是会先出现比较符合上一个时代传播规律的内容，然后慢慢地才会出现新的形态。比如我做短片还是会以两分半钟为一个基础卡段，5集讲一个故事，一共12个故事，会以这种形式来做第一部AI影视短剧的尝试。

如果Sora开放使用后真的有现在这些Demo一样的质量，并且它的成本也足够低的话，肯定会有一大批新的影视作品产生。这些影视作品不一定都是全新制作的，可能有些是原来的内容换了一种全新的表现形式。比如像我观察到Sora发布的一个Demo，展现了一个可能大家忽略了的功能，就是视频转视频的功能。

那个demo是一辆车在公路上一直往前开，开着开着变成马车，变成吉普，变成别的车，包括车周边的环境，可以从一个林间的公路变成海滩，变成海底、沙漠等各种不同的场景。

这意味着只要这个转会是足够稳定的，以及它的一致性能够保持得非常好的话，完全可以把不同的影视片段剪辑到一起以后变成一部新的作品。这也会是一种创作的潮流，这些新奇的玩法可能会是第二波潮流，再往后就需要大家未来一起来探索了。

我们可以回想一下，抖音的火爆其实就得益于手机摄像头出现后，我们视频拍摄的成本降低了，手机运镜也非常方便。抖音平台上的内容一开始也都是炫酷运镜的风格，时至今日，短视频形态形式已经是百花齐放了。所以随着技术的发展，内容及形态也会有逐步变化迭代更新的这样一个过程。

华尔街见闻：

您觉得下一阶段大模型，或者说像GPT-5这种已经在路上的新产品和技术，对于它的发展路线、技术路径或者时间表，您有哪些展望或者前瞻的指引？

孔蓉：

OpenAI发布的Sora，可能是AGI往前走的重要的一步。对于2024年，我们还可以期待的是GPT-5的发布时间，还有包括Meta、谷歌的Ultra以及Meta的Llama3，在2024年二季度或者年中是否会发布。这些从整个产业以及投资的角度都是非常重要的标志性事件。

另外，AGI会有什么样的突破？在2024年年初，Sam Altman和Meta的小扎都又给AGI打了Call，不断释放未来AGI的一些可能以及预期。今年会有什么样的能力展现出来，是我们非常关注的。

在看AI的发展的过程中，AI代理人（AI agents），会有什么样的能力突破，是不是真的能像你的助理一样，帮你完成一些更复杂的任务，这些是后续我们再去看整个大模型以及AI发展的过程中也非常重要的一环。

总结来说，一个是大模型2024年的进步，无论是GPT-5还是谷歌或者Meta等大厂的大模型的发布，另外在AGI的未来的展望之下，AI代理人会有什么样的能力提升。这些对于大模型能力要求，不只是理解能力，还要有更强的记忆以及决策能力的提升。这些对于产业、投资都是非常重要的事件。

华尔街见闻：

Sora这类大模型，理解世界的能力大幅提升之后，会对像自动驾驶这一类新的技术能够带来促进作用吗？

孔蓉：

这的确是一个非常重要的落地场景，现实的环境所有的内容其实都可以理解为都一段视频的呈现。所以所谓的视频内容结合在一起的大场景，其中之一就是自动驾驶。自动驾驶在很早就用上类似Sora的架构。除了非常重要的文娱领域，大家已经能看到有直接的影响以外，自动驾驶、机器人都是AI非常重要的、大的落地场景。

在机器人的理解能力上，现有的机器人的理解能力都是比较弱的。如果除了理解简单的指令，机器人能够很好地理解周围的环境（像今天Sora展现出的这种强大的理解能力），真的能够理解现实世界的所有物理规律的话，那机器人的应用场景可能会比我们预想的来的更快更多。

华尔街见闻：

展望未来，真的可以一个人通过工具去完整实现一部商业影视作品的制作吗？

陈坤：

我想跟大家分享一个理论——猴子理论。把一只猴子放在一个打字机面的前，理论上只要给它足够长的时间，它就能敲出来莎士比亚。我并不是说大家是猴子，我只是想说“有可能”，但是多长时间能实现？是一个未知的问题。

我们站在今天来看，即便所有的工具都具备，即便Sora真的能只通过几句自然语言就能生成一个表情、动作、声音都完美的视频角色。但是你懂表演或者剪辑吗？你无法指导视频中的角色进行表演，也无法把镜头组接在一起。

你不懂镜头的运作和切换，不知道该如何配音，不了解画面的蒙太奇之间的关系。所以你没有这些专业能力做支撑来完成这件事情。只有具备了以上提到的这些专业能力的导演或者编剧，可能通过工具成为第一批实现梦想的人，而不是行业外的普通人。

对于有想法的普通人（非影视行业专业），能够实现的是镜头级别的非常漂亮的一段视频，但是想表达非常长的一个叙事内容，还是很难的。

对于内容行业来说，它核心能力还是不变的，AI工具并不能冲击头部公司、团队的壁垒和优秀的能力。

人类的创造力才是最宝贵和最珍贵的，这是我认为在短时间内AI取代不了的部分。在任何行业都是一样的，塔尖上的人在做的、创造的东西，是不断推着这个世界往前走的。

如果有一天，真正的AGI到来，当它已经完全超过了我们人类的所有的能力，大家可能也不会再做影视创作了。假如以后脑机接口真正出现了，你潜意识里的所有内容都会转化为电信号给到大模型，大模型能根据你自己的喜好为你生成你想要的世界，就像现在抖音能根据你的喜好推荐视频一样。

理论上，只要你往前走路的速度不及铺路的速度快，你永远走不出这条路。未来的真正的视频时代，就是你走不出去的那个时代，但那个时代有多远？但愿我们这一代人能看到。

华尔街见闻：

您觉得这种大量的工具和应用的涌现，对于XR行业是否会有一个加速促进的作用，是不是真的能落地？

孔蓉：

我认为是肯定会的。我从2021年，比较早就开始关注、分享元宇宙是什么，如何实现。今天我们已经能看到的硬件终端，已经成为元宇宙的非常重要的入口。我相信科技依然会在未来加速，特别是AI出现之后，不管是机器人、XR领域、还有更多产业领域的技术都会加快发展。因为AI带来的就是效率提升，会让这些技术更快速地落地，以及这技术之间又会发生一些化学反应。

所以我对于未来，不管是从整个产业的展望，还是投资机会上，都是非常乐观和兴奋的。我觉得这个是一个全新的时代带给我们的机会，在未来的五年到十年的中长期的周期里会有非常大的变化。

我一直非常关注传媒文娱行业，我曾经复盘过原来传媒娱乐的五个周期，然后会发现所有的周期的拉动都是由于新的技术，所以我看到了Sora的发布，是对于整个行业来说非常最重要的变化。展望未来，我正处在一个黄金时代，不管是从产业还是从投资，我们要把握住机会。

怎样参加大咖会客厅？

- 成为大师课会员可畅享全年30场+线上大咖会客厅！

- 见闻vip会员可免费参加3场，需进入大咖会客厅页面兑换权益。

风险提示：大师课为甄选第三方合规机构人士，讲授投研理论课程之平台，所授内容不构成对任何具体产品的买卖或投资建议。平台课程所表述的意见仅供学习与参考，不代表华尔街见闻意见或观点，也不解决用户特殊的投资目标、财务状况或需要。市场具有波动性和不确定性，平台不对任何与您依赖课程观点或信息而遭受的损失承担责任。投资有风险，请谨慎决策。