Stability AI发布3D视频生成工具SV3D！可同时输出多个新视角

硬AI

2024/03/20 00:16

这款新模型基于Stable Video Diffusion模型的改进，能够根据单一输入图像创建和转换多视图3D网格。Stability AI表示，新模型在游戏和电子商务中有很大价值，能提供更具沉浸感和交互性的购物体验。

作者：赵雨荷

来源：硬AI

著名大模型开源平台Stability AI日前在其网站发布用于渲染3D视频的生成式AI视频工具Stable Video 3D（SV3D）。

据了解，Stability AI一直在开发其Stable Video技术的视频功能，使用户能够从图像或文本提示生成短视频。SV3D在Stability AI之前的Stable Video Diffusion模型的基础上进行了改进，适用于新视角合成任务（Novel View Synthesis) 和3D生成的任务。

通过SV3D，Stability AI通过能够根据单一输入图像创建和转换多视图3D网格，为其视频生成模型增加了新的深度。

SV3D现已可供商业使用，Stability AI Professional会员每月20美元（对于年收入不到100万美元的创作者和开发者）。对于非商业用途，用户可以从Hugging Face下载模型权重。

以下是SV3D快速生成的示例视频，尽管存在一些轻微扭曲，但随着相机围绕它们旋转，视频中所有对象的形态仍然明显连贯且坚固。

“通过更新我们的Stable Video扩散图像到视频扩散模型，并增加相机路径条件，SV3D能够生成针对对象的多视图视频，”公司在详细介绍新模型的博客文章中写道。

Stability AI的首席研究员Varun Jampani表示：“SV3D是生成3D产品的有价值工具，尤其是在游戏行业内。它还能够生成360度轨道视频，这在电子商务中非常有用，提供了更具沉浸感和交互性的购物体验。”

科技的媒体公司 The Rundown 创始人 Rowan Cheung就表示，Stablity AI正在持续输出产品，令人印象深刻。

Stability AI最为人所知的产品或许是文本生成图像的模型Stable Diffusion，包括SDXL和Stable Diffsusion 3.0，后者仍处于早期研究的预览阶段。Stable Diffsusion 1.5是一个开源图像生成模型，构成了许多其他AI图像生成和视频产品的基础，包括Runway和Leonardo AI。

在2023年12月，Stable Zero123模型发布，提供了构建3D图像的新功能。当时，Stability AI的创始人兼CEO Emad Mostaque表示，Stable Zero123将是一系列3D模型中的第一个。

而SV3D技术采用了与Stable Zero123不同的方法进行3D生成。“SV3D可以被视为我们之前提供的Stable Zero123的继任者和改进版，”Jampani说。“SV3D是一个新视角合成网络，它以单一图像作为输入，并输出新视角图像。”

Jampani解释说，Stable Zero123基于Stable Diffusion，并且一次输出一张图像。SV3D基于Stable Video Diffusion模型，并且同时输出多个新视角，而这也是SV3D的关键优势。根据Stability AI的说法，SV3D能够从任何给定角度提供连贯的视角。

除了其新视角合成能力外，SV3D还能优化3D网格。通过利用其多视角3D图像的一致性，SV3D可以直接从产生的新视角生成高质量的3D网格。“SV3D利用其多视角一致性来优化3D神经辐射场（NeRF）和网格表示，以提高直接从新视角生成的3D网格的质量，”Stability AI在其公告帖中写道。

据了解，SV3D有两种变体用于特定的用途。其中，SV3D_u基于单一图像输入生成轨道视频，无需相机条件设置；SV3D_p通过同时适应单一图像和轨道视图，扩展了这一能力，允许用户沿指定的相机路径创建3D视频。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。