作者:赵雨荷
来源:硬AI
著名大模型开源平台Stability AI日前在其网站发布用于渲染3D视频的生成式AI视频工具Stable Video 3D(SV3D)。
据了解,Stability AI一直在开发其Stable Video技术的视频功能,使用户能够从图像或文本提示生成短视频。SV3D在Stability AI之前的Stable Video Diffusion模型的基础上进行了改进,适用于新视角合成任务(Novel View Synthesis) 和3D生成的任务。
通过SV3D,Stability AI通过能够根据单一输入图像创建和转换多视图3D网格,为其视频生成模型增加了新的深度。
SV3D现已可供商业使用,Stability AI Professional会员每月20美元(对于年收入不到100万美元的创作者和开发者)。对于非商业用途,用户可以从Hugging Face下载模型权重。
以下是SV3D快速生成的示例视频,尽管存在一些轻微扭曲,但随着相机围绕它们旋转,视频中所有对象的形态仍然明显连贯且坚固。
“通过更新我们的Stable Video扩散图像到视频扩散模型,并增加相机路径条件,SV3D能够生成针对对象的多视图视频,”公司在详细介绍新模型的博客文章中写道。
Stability AI的首席研究员Varun Jampani表示:“SV3D是生成3D产品的有价值工具,尤其是在游戏行业内。它还能够生成360度轨道视频,这在电子商务中非常有用,提供了更具沉浸感和交互性的购物体验。”
科技的媒体公司 The Rundown 创始人 Rowan Cheung就表示,Stablity AI正在持续输出产品,令人印象深刻。
Stability AI最为人所知的产品或许是文本生成图像的模型Stable Diffusion,包括SDXL和Stable Diffsusion 3.0,后者仍处于早期研究的预览阶段。Stable Diffsusion 1.5是一个开源图像生成模型,构成了许多其他AI图像生成和视频产品的基础,包括Runway和Leonardo AI。
在2023年12月,Stable Zero123模型发布,提供了构建3D图像的新功能。当时,Stability AI的创始人兼CEO Emad Mostaque表示,Stable Zero123将是一系列3D模型中的第一个。
而SV3D技术采用了与Stable Zero123不同的方法进行3D生成。“SV3D可以被视为我们之前提供的Stable Zero123的继任者和改进版,”Jampani说。“SV3D是一个新视角合成网络,它以单一图像作为输入,并输出新视角图像。”
Jampani解释说,Stable Zero123基于Stable Diffusion,并且一次输出一张图像。SV3D基于Stable Video Diffusion模型,并且同时输出多个新视角,而这也是SV3D的关键优势。根据Stability AI的说法,SV3D能够从任何给定角度提供连贯的视角。
除了其新视角合成能力外,SV3D还能优化3D网格。通过利用其多视角3D图像的一致性,SV3D可以直接从产生的新视角生成高质量的3D网格。“SV3D利用其多视角一致性来优化3D神经辐射场(NeRF)和网格表示,以提高直接从新视角生成的3D网格的质量,”Stability AI在其公告帖中写道。
据了解,SV3D有两种变体用于特定的用途。其中,SV3D_u基于单一图像输入生成轨道视频,无需相机条件设置;SV3D_p通过同时适应单一图像和轨道视图,扩展了这一能力,允许用户沿指定的相机路径创建3D视频。