近期快手和字节分别发布了可灵3.0、Seedance 2.0,市场关注度较高。相较于上一代模型(可灵2.6,字节seedance 1.5),两个新模型在一致性、稳定性、分镜等方面均有突破,但最大的突破是实现了视频输入。上一代模型只有文生视频、图生视频以及一些简单的动作控制功能,而新一代模型可以上传一个视频,模型可以根据视频中的内容做参考来生成新视频,实现了多模态输入-视频输出,补齐了原生多模态的拼图。
市场关心的问题是,Seedance 2.0 的性能相较于1.5版本提升明显之后,我们应该如何看待当前视频模型的竞争格局?可灵相较于seedance的差异化优势在哪里?
结合这些问题,我们做了七组测试。测评覆盖的能力包括两组风格(动画风格、真人写实风格)。选择这两个方向的原因是:一方面,当前AI应用较多的场景是AI漫剧;另一方面,AI若能逐步渗入真人演绎的场景(包括真人短剧、中视频以及更长的长视频和电影等),整个AI视频生成的市场空间就会打开。核心驱动力在于需求是存在的,但技术目前没有达到足够好的水平,导致渗透率现阶段只能停留在动漫类风格的内容上。
以下是我们的七组测试prompt和想要测试的能力:

第一组:新海诚风格日系动画

第二组:赛博朋克城市夜景

第三组:动画哭戏

第四组:真人哭戏

第五组:运动表现

第六组:视频转视频
将一段真人视频上传模型,要求转换成迪士尼动画风格。可灵成功输出了结果,但效果一般,有些僵硬,不如纯文本生成的效果生动,且背景音乐直接沿用了原视频的音乐。Seedance未能生成成功,失败了。

第七组:对口型能力

模型定位差异与定价对比
总体来看,Seedance更侧重于帮用户表达一个故事,可灵则更侧重专业级别的内容生产。可灵的电影质感更强,包括打光、精细表情、皮肤细节、奔跑时的动作控制以及背景雨水等细节都更丰富。
在定价方面:生成一个5秒钟720P视频,可灵约4元人民币,Seedance约2.3元人民币,价格是可灵的一半多一点。15秒视频下,Seedance的定价优势更明显。但1080P清晰度目前Seedance不支持,只能使用可灵3.0。另外,谷歌的视频模型定价远高于国内,但也是目前唯一能生成4K视频的模型,面向的消费者群体有所不同。


竞争格局
我们用同一个提示词(男子雨中奔跑)测试了多家视频模型。结论是目前可灵3.0和Seedance 2.0处于全球最强水平。
阿里的万相2.6比较卡通风格,缺乏细节。MiniMax的海螺2.3视频生成比较真实,但缺点是无法实现音画同出,需要后期配音。Veo 3.1(谷歌)的基本要素都具备,但人物看起来有点奇怪。OpenAI的Sora 2效果比较差,有很明显的游戏感,像《模拟人生》风格,可能是因为训练时喂入了较多的游戏引擎数据,导致生成风格不够真实。
从定价看,国内几家5秒钟视频定价大约在0.4美金左右,海外则贵很多——谷歌5秒视频约5美金,OpenAI的Sora 2约2.5美金(gemini会员和sora用户每天会有少量的生成额度)。

市场空间与增长逻辑
目前几家主要AI视频模型的ARR(年化经常性收入)都在快速增长,呈现一年1-3倍的增长趋势,且没有出现A公司增长导致B公司收入下降的情况。截至今年1月份,主要公司的ARR加起来大约不到10亿美金,仍是一个非常早期的蓝海市场。作为对比,OpenAI已有200亿美金ARR,Anthropic有90亿美金ARR,两家加起来接近300亿美金。而视频模型公司的ARR合计不到10亿美金,差距很大。
从下游市场看,国内电影票房每年约400-600亿人民币规模,海外100-200亿美金规模。再考虑到社交短视频、广告片、真人短剧等。目前AI视频行业的渗透率仍然很低。
AI视频模型的市场空间等于各垂类场景市场规模乘以AI渗透率之和。目前AI已解锁的场景主要是AI漫剧,在该赛道已全面铺开并替代了很多传统动漫创作的人力环节。但在真人短剧、中长视频和电影领域,AI尚未有效渗透,核心原因是技术还不够成熟——例如电影的清晰度要求更高,而当前720P或1080P远达不到要求。
而且AI视频模型也会存在"供给创造需求"的过程,类似于AI编程——Cursor、Lovable、Replit等AI编程公司的ARR也是每年数倍增长,原因在于编程门槛的降低使得产品经理、销售甚至纯小白也在使用AI编程。视频模型也将遵循类似逻辑。

在中美差距方面,文本模型差距约3到6个月,但在视频方面,国内已超过了Veo 3.1和Sora 2(虽然有一部分原因是,这两个模型发布时间较早,近期尚未更新)。阶段性来看,视频AI领域中美差距很小,甚至中国实现了反超。核心原因在于国内拥有较多的多模态数据——字节和快手各自拥有自己视频平台的数据(同样的逻辑,谷歌能做出veo3.1,也离不开youtube和waymo的数据),这些一方数据在训练中的标签化能力对视频生成模型帮助很大。

从漫剧市场的数据看,去年1月到7月播放量增长了5倍,7月到12月又增长了约四五倍,漫剧市场本身在快速增长,AI在其中的制作成本这块蛋糕也会随之增大。
据第三方机构Mayor Research估计,中国视频制作市场约200多亿美金,全球约1600多亿美金,涵盖长视频、短视频、中视频以及漫画和真人等各种风格。目前AI能渗透的部分主要是漫剧和一部分广告片、KTV背景视频等对一致性要求不高的短内容。从用户规模看,漫剧触达的用户约一亿多,微短剧接近七亿用户,长视频、短视频及网络视频则是八亿到十亿用户。AI目前触达的用户体量仍较小。

技术路线展望
视频模型比文本模型大约晚一年,世界模型又比视频模型晚一年。2023年大家看到了ChatBot,2024年看到了推理模型,2025年Agent、Coding和多模态都有了雏形,2026年文本市场不会被放弃,仍然是卷的重要方向,但AI Agent、Coding和多模态可能在今年会有比较大的变化(包括技术上的、tokens消耗、收入方面的变化)
对上游而言,多模态场景可以拉动token消耗、算力需求和存储需求;对下游而言,漫剧、真人短剧和中长视频都可能受益于技术迭代。
在技术路线上,当前视频模型的主流路线是DiT(Diffusion+Transformer),Sora系列和Veo 3等都验证了这条路线可行。但不排除有公司会探索自回归路线,自回归路线在生成时长的长度上可能优于DiT,但成本更高。
此外,多模态会和世界模型可能会联动。谷歌近期发布的Genie project 就是一个世界模型,能稳定生成1-2分钟的内容,物理理解能力更好。李飞飞团队也在去年年末推出了商用的世界模型产品,从研究阶段走向商业化。我们预计今年世界模型领域会有较多新的变化。

本文来源:东吴证券



