中国版Sora:快手可灵

华创证券刘欣
1、可灵能够模拟物理世界特性,完成大幅度的合理运动;2、具备强大的概念组合能力和想象力,能够将用户丰富的想象力转化为具体的画面;3、不仅支持生成长达 2 分钟的30fps 且具备 1080p 分辨率的超长视频,同时支持多种宽高比。
  • 快手可灵是快手于2024年6月6日推出的一款AI视频生成大模型的AI视频。可灵为快手AI团队自研,基于快手在视频技术方面的多年积累,采用类似 Sora 的DiT技术路线,结合多项自研技术创新,效果对标Sora。
  • 从技术角度看,快手可灵结合多项自研技术创新,采用了原生的文生视频技术路线,替代了图像生成+时序模块的组合,实现了可灵生成时间长、帧率高,能准确处理复杂运动的能力。在完成度上,能够模拟物理世界特性,完成大幅度的合理运动;在创新度上,具备强大的概念组合能力和想象力,能够将用户丰富的想象力转化为具体的画面;在参数表现上,不仅支持生成长达 2 分钟的30fps 且具备 1080p 分辨率的超长视频,同时支持多种宽高比。
  • 从功能体验看,快手可灵大模型具备强大的视频生成能力让用户可以轻松高效地完成艺术视频创作,通过文字描述,可灵生成的视频可实现 1 )大幅度的合理运动:可灵采用 3D 时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律,复杂、大幅度的时空运动也能准确刻画;2 )长达 2 分钟的视频生成:得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达 2 分钟的视频,且帧率达到 30fps;3 )模拟物理世界特性:基于自研模型架构及 Scaling Law 激发出的强大建模能力,可灵能够模拟真实世界的物理特性,生成符合物理规律的视频;4 )强大的概念组合能力:基于对文本-视频语义的深刻理解和Diffusion Transformer 架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实的世界;5 )电影级的画面生成:基于自研 3D VAE,可灵能够生成 1080p 分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现;6 )支持自由的输出视频宽高比:可灵采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比,满足更丰富场景中的视频素材使用需要。
  • 从行业视角看,快手作为头部短视频公司积极布局 AI ,其产品表现不仅展现了快手在 AI 大模型技术方面的深厚积累,也体现了国产 AI 视频模型的技术能力。我们看好 AI 技术持续迭代,中国厂商技术加速追赶,看好 AI 视频应用加速发展与商业化探索,看好内容创作的门槛降低。

一、 产品简介

 快手可灵是快手于 2024 年 年 6 月 月 6 日推出的一款 AI 视频生成大模型的 AI 视频。可灵为快手 AI 团队自研,基于快手在视频技术方面的多年积累,采用类似 Sora 的 DiT 技术路线,结合多项自研技术创新,效果对标 Sora,具有一系列优势:1)能够生成大幅度的合理运动;2)能够模拟物理世界特性;3)具备强大的概念组合能力和想象力;4)生成的视频分辨率高达 1080p,时长高达 2 分钟(帧率 30fps),且支持自由的宽高比。(部分功能效果尚未对外开启使用测试)

二、 功能体验
根据可灵官网,可灵大模型具备强大的视频生成能力让用户可以轻松高效地完成艺术视频创作,通过文字描述,可灵生成的视频可实现:

(一) 大幅度的合理运动

可灵采用 3D 时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律,复杂、大幅度的时空运动也能准确刻画。

图表 1 宇航员在月球上奔跑的画面,动作流畅,步态和影子的运动合理恰当

资料来源:快手可灵官网

(二)达长达2分钟的视频生成

得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达 2 分钟的视频,且帧率达到 30fps。

图表 2 仅依靠提示词“小男孩在花园里骑自行车经历秋冬春夏四季变换”,即可生成长达一分半的长视频

资料来源:快手可灵官网

(三) 模拟物理世界特性

基于自研模型架构及 Scaling Law 激发出的强大建模能力,可灵能够模拟真实世界的物理特性,生成符合物理规律的视频。

图表 3 小男孩吃汉堡的生成视频中,吃汉堡的过程被真实反映,咬合位置与汉堡上的咬痕匹配,脸部肌肉动态逼真

资料来源:快手可灵官网

(四) 强大的概念组合能力

基于对文本-视频语义的深刻理解和 Diffusion Transformer 架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实的世界。

图表 4 对于猫咪开着车的充满想象力的场景,逼真展现

资料来源:快手可灵官网

(五) 电影级的画面生成

基于自研 3D VAE,可灵能够生成 1080p 分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。

图表 5 生成视频达 分辨率高达 1080p

资料来源:快手可灵官网

(六) 支持自由的输出视频宽高比

可灵采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比,满足更丰富场景中的视频素材使用需要。

图表 6  同一个视频支持自由的高宽比,其中包括快手原生态的竖版视频

资料来源:快手可灵官网

本文作者:华创证券刘欣,来源:华创证券,原文标题:《快手可灵:国产首发对标 Sora 的 的 DiT 架构频文生视频AI模型》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章