谷歌刚刚发布了其最新的视频生成模型 Veo 2 和图像生成模型 Imagen 3,并推出了一项全新的图像生成实验工具 Whisk,有趣的是根据谷歌的测试,OpenAI Sora成为表现最差的主流视频生成模型,可灵成为视频生成顶流之一,海螺表现也不错。
Veo 2:号称最先进的视频生成模型
Veo 2 能够生成各种主题和风格的高质量视频。在与顶尖模型的对比测试中,由人类评估者进行评判,Veo 2 取得了最先进的成果。它对真实世界物理规律以及人类动作和表情的细微之处有了更深入的理解,从而提高了视频的整体细节和真实感。
Veo 2 理解电影语言的独特之处。用户可以指定类型、镜头和电影特效,Veo 2 能够以高达 4K 的分辨率和数分钟的时长来呈现效果。无论是低角度的跟踪镜头,还是科学家使用显微镜的特写镜头,Veo 2 都能轻松实现。通过提示词中的 “18mm 镜头” 或 “浅景深”,Veo 2 可以分别生成广角镜头或背景模糊、突出主体的效果。
Veo 2 的核心优势包括:
高质量和控制力: 能够忠实地遵循简单和复杂的指令,并逼真地模拟真实世界的物理规律以及各种视觉风格。
增强的真实感和保真度: 在细节、真实度和伪影减少方面显著优于其他人工智能视频模型。
先进的运动能力: 由于对物理规律的理解以及执行详细指令的能力,Veo 能够准确地呈现运动。
更强大的相机控制选项: 准确地解读指令,以创建各种镜头风格、角度、运动以及它们的组合。
Veo 2 在 Meta 发布的 MovieGenBench 基准数据集上,对 1003 个提示词及其对应的视频进行了人类评估。结果显示,Veo 2 在整体偏好和准确遵循提示词的能力方面表现最佳,对比模型为Sora,Meta的Movie Gen,可灵,海螺。
从谷歌这个测试中我们发现,OpenAI的 Sora 是几款主流的视频生成模型中相对表现最差的,可灵是谷歌最大的竞争对手,在总体偏好和指令遵循偏好两个指标上,如果把平手和偏好指标数据加起来,可灵是几款视频模型中唯一相对Veo超过50%的偏好选择的模型,哈哈,可灵获得谷歌的认证。
与传统视频模型经常“虚构”多余细节(如多余的手指或意外的物体)不同,Veo 2 产生这些问题的频率较低,使其输出更逼真。
谷歌也改进了其 Imagen 3 图像生成模型,现在可以生成更明亮、构图更好的图像。它能够以更高的精度渲染更多样化的艺术风格,从照片写实主义到印象主义,从抽象到动漫。升级后的 Imagen 3 模型能够更忠实地遵循提示词,并呈现更丰富的细节和纹理。
提示:背景有霓虹绿色灯光、浅景深的亚洲女性肖像
提示:一张特写的微距摄影素材照片,画面中一颗草莓被精细地雕刻成蜂鸟的形状,正处于飞翔中,翅膀模糊成动态效果,仿佛正在吸食一朵色彩鲜艳的管状花朵的花蜜。背景是郁郁葱葱、色彩丰富的花园,柔和的虚化效果(散景)营造出梦幻般的氛围。图像极其精细,采用浅景深确保草莓蜂鸟的锐利对焦,而背景则柔和淡出。高分辨率、专业摄影师风格,柔和的光线使场景细节表现得淋漓尽致,专业的色彩分级进一步增强了鲜艳的色彩,使画面呈现出卓越的清晰度。景深使蜂鸟与花朵在虚化背景下格外突出
提示:以高预算动画电影风格呈现,画面充满生动、绘画般的质感,展现出广阔的星际景观,紫色、蓝色与金色的发光星云交织辉映。主角是一名身披星辰图案飘逸斗篷的小女孩,伫立在一座晶莹剔透的悬崖边缘。悬崖下,熔化的星尘之河在银河中蜿蜒流淌,金色光芒动态闪烁。背景中,高耸的星座以神话生物的形态悬浮,轮廓由发光的点状线条勾勒而成。流星划破广袤的天空,为画面增添了动感与璀璨的光辉。镜头角度略微升高,既捕捉到了浩瀚银河的壮丽,也展现出主角旅程的孤独与神秘感
Imagen 3 可以生成各种格式和风格的高质量图像,从逼真的风景到质感丰富的油画或奇思妙想的粘土动画场景
提示:雄狮在梦幻般的丛林中傲然咆哮的详细插图,紫色白色线条艺术背景,浅紫色纸张纹理上的剪贴画
提示:黏土动画场景。一个老年妇女的中广角镜头。她穿着飘逸的衣服。她正站在一个郁郁葱葱的花园里,用一个橙色的浇水壶给植物浇水
在与顶尖图像生成模型的并排比较中,由人类评估者进行评判,Imagen 3 取得了最先进的成果
Imagen 3 能理解以自然、日常语言编写的提示,因此无需复杂的提示工程就能轻松获得想要的输出结果
提示:一张折纸鸟在城市景观中翱翔的特写照片,鸟儿与其他不同颜色和图案的鸟儿成群结队,在下方的建筑物上投下错综复杂的阴影
目前,最新的 Imagen 3 模型将在 Google Labs 的图像生成工具 ImageFX 中全球推出,覆盖 100 多个国家。用户可以访问 ImageFX 开始体验。
Whisk:用图像激发创意的全新工具
Whisk 是谷歌实验室推出的最新实验项目,允许用户输入或创建图像,以表达他们心目中的主题、场景和风格。然后,用户可以将它们组合在一起,并重新混合,创造出独特的作品,例如数字毛绒玩具或珐琅别针。
Whisk 结合了最新的 Imagen 3 模型和 Gemini 的视觉理解和描述能力。Gemini 模型会自动为用户的图像编写详细的描述,然后将这些描述提供给 Imagen 3。这个过程让用户可以轻松地以有趣的新方式重新混合主题、场景和风格。
谷歌是真的“杀疯了”,一雪前耻。
文章来源:AI寒武纪,原文标题:《突发!谷歌版Sora发布:最大对手竟是「可灵」,OpenAI表现最差》