国产Nano Banana来了!字节Seedream4.0发布,这次要让PS提前退休

AI寒武纪
Seedream 4.0相较于上一个版本具有超强主题一致性、多图灵活创作、高清4k直出,出图速度非常快,完全可以对标谷歌的nano banana模型。其核心突破在于将文生图(T2I)与图像编辑整合进单一的DiT架构中,其采用高压缩比VAE和精心设计的DiT架构,实现训练和推理速度提升超10倍。

太卷了!火山引擎推出了豆包・图像创作模型 Seedream 4.0,相较于上一个版本具有超强主题一致性、多图灵活创作、高清4k直出(目前只在火山引擎率先支持4k版),体验更极致(秒级图像生成),我刚试玩了一下,出图速度非常快,模型核心能力非常牛逼,可以完全对标谷歌的nano banana模型

废话不多说,直接看效果,进入火山方舟体验中心:

 

我先试了一个生成手办的破圈的提示词:

提示词:Create a 1/7 scale commercialized figure of thecharacter in the illustration, in a realistic style and environment. Place the figure on a computer desk, using a circular transparent acrylic base without any text.On the computer screen, display the ZBrush modeling process of the figure. Next to the computer screen, place a BANDAI-style toy packaging box printed with the original artwork

我的参考图:

Seedream 4.0生成的

说实话我用这个破圈的提示词就是检验一下 Seedream 4.0的能力,其实内心戏是如果生成效果拉胯,我就直接不玩了,没想到结果非常好,顿时对Seedream 4.0的能力信心大增

下面是正餐,我想先看看Seedream 4.0指哪打哪的能力,突发灵感就从海报开始,赖得在网上找海报模版了,最近刷短视频刷到了《洛神赋》,直接让模型生成一幅关于《洛神赋》的海报:

提示词:《洛神赋》是曹植的辞赋名篇,其中最为世人传诵的句子是: “翩若惊鸿,婉若游龙。” 此句以灵动之笔描绘洛神宓妃的姿态,意为“(她)翩然如惊飞的鸿雁,婉约如游动的蛟龙,轻根据这段描述生成一个海报,关键词为:翩若惊鸿,婉若游龙

生成的效果:

Seedream 4.0的中文文字生成能力比nano banana好太多了

接下来我们开始魔改,先改下关键词“翩若惊鸿,婉若游龙”的字体,改为手写体

提示词:将图中的关键词“翩若惊鸿,婉若游龙”字体改为手写体,其他保持不变

这是改后的效果,一致性保持的很好

继续测试,测一测Seedream 4.0图片推理能力,《洛神赋》除了这句“翩若惊鸿,婉若游龙”非常有名之外,接下来的一句也很有名,我们简单测一下模型推理,要求补充接下来一句词,并且图片要体现新加入词的意境

提示词:“翩若惊鸿,婉若游龙。”后一句也很有名,请把后一句也作为关键词加入海报,字体为手写体,另外海报也要体现后一句的意思

生成的效果:

后一句 “荣曜秋菊,华茂春松”也广为流传,看来Seedream 4.0诗词学的还是不错的

我已经越测越上头了,除了改字体以为,想给文字换个涂鸦风格试试看看

提示词:将画面中的文字材质改为涂鸦喷漆

生成的效果:

还是挺满意的,再上一点难度,给个参考图改一下整体的风格

参考图:

提示词:将图1风格换位图2的立体主义风格

生成效果:

到目前为止,Seedream 4.0测试非常丝滑,也给了我非常大的惊喜,一个不恰当的比喻:我几乎可以肯定Seedream 4.0就是图像领域的R1模型,复刻了DeepSeek R1给我带来的冲击和惊喜

继续测试4K直出功能(目前只在火山引擎提供,体验链接在上方),多图创作和连续生图能力

我们现在进入4k超高清生图世界

静物特写测试:

提示词:一张富有戏剧性的石榴静物摄影。几颗完整的和被掰开的石榴放在深色天鹅绒上,露出红宝石般晶莹的果粒。采用强烈的明暗对照法(Chiaroscuro)布光,光影对比强烈,背景深黑,氛围古典而奢华

人物肖像测试:

提示词:

主体与人物特征: 人物: 照片的主角是一位年轻、美丽的东亚女性。她拥有白皙无瑕的肌肤和精致的五官。 
妆容: 她的妆容非常专业和干净。眼妆精致,细长的眼线勾勒出眼型,大地色系的眼影显得深邃而自然。她的唇妆是水润的蜜桃色或豆沙色,饱满而有光泽。整体妆感既突出了她的美貌,又显得非常清新和优雅。 

发型: 她留着一头蓬松、富有光泽的棕色长卷发。大波浪的卷发自然地披散在肩上,几缕发丝轻盈地拂过脸颊,为她增添了浪漫和柔美的气息。 神态与姿势: 她的头微微倾斜,眼神温柔地凝视着镜头,带有一种亲切和引人注目的吸引力。姿势放松而自然,散发出一种沉静、自信的气质。 

服装与配饰: 服装: 她穿着一套米色或燕麦色的针织衫。里面是一件V领的针织吊带,外面搭配了一件同色系的针织开衫。开衫随意地滑落,露出一侧的香肩和锁骨,这种穿搭方式增添了一丝慵懒和女性化的魅力,显得既舒适又不失时尚感。

配饰: 她佩戴了简约而闪亮的饰品。一条纤细的银色项链,吊坠是一颗小巧的钻石(或水晶),恰到好处地点缀在颈间。耳朵上戴着与之相配的、小巧的悬挂式耳环。这些配饰为整体造型增添了精致感,但不喧宾夺主。 色彩、光线与背景: 色彩: 整张照片的色调非常统一和谐,以温暖的大地色系为主。背景的暖黄色、服装的米色、头发的棕色以及她温暖的肤色融为一体,营造出一种非常舒适、柔和且高级的视觉感受。 

光线: 采用了专业的影棚布光,光线非常柔和、均匀。正面光照亮了她的脸部,几乎没有明显的阴影,使得她的皮肤看起来光滑细腻。这种布光方式是典型的美妆或时尚摄影手法,旨在最大限度地展现人物的美感。 背景: 背景是纯净的暖黄色纯色背景,简洁的背景让所有注意力都集中在人物身上,突出了她的气质和造型

艺术设计测试:

提示词:

对这个词进行艺术设计:Seedream-4.0, 效果:液态玻璃3d效果 视觉表现:具有强烈的视觉冲击,感觉快要溢出纸面的效果

4K直出,超高清图像生成就算是同一个提示词,也有完全不同的体验,直接为图像的生产级应用提供了无限可能,火山引擎提供了各种不同比例的4k直出格式,强烈建议现在就去试试(公号后台上传图片会被压缩,超高清效果表现不出来)

多图加推理测试,以下我就直接展示参考图和提示词了,注意图一图二图三分别对应上传图片的顺序

参考图:

提示词:一个模特摆姿势靠在粉色宝马车上。她穿着以下物品,场景背景是浅灰色。绿色外星人是一个钥匙扣,挂在粉色手提包上。模特肩上还有一只粉色鹦鹉。旁边坐着一只戴着粉色项圈和金色耳机的哈巴狗

生成的效果:

 

参考图:

提示词:使图一人物做出图二中pose动作

生成的效果:

参考图:

提示词:把图一和图二融合进图三,构造一个两人散步的场景

生成的效果:

参考图:

提示词:用这些食材为我做一顿美味的午餐,放在盘子里,盘子的特写视图,移除其他盘子和食材

生成的效果:

参考图:

提示词:图1和图2放在一起生成情侣写真,两人动作自然亲密,眼神细腻生动,烛光氛围

生成的效果:

到这里,我想你已经看到了Seedream 4.0多图灵活创作的实力

最后再测一下Seedream 4.0的连续生图能力,让他完成一个电影分镜的创作,连续生成12张分镜图片,并且用镜头语言讲一个完整的故事

参考图:

提示词:用这两个角色创作一个令人上瘾的12部分故事,包含12张图像,讲述经典的电影侦探故事。故事关于他们寻找线索并最终发现的失落的宝藏。整个故事充满刺激,有情感的高潮和低谷,以精彩的转折和高潮结尾。不要在图像中包含任何文字或文本,纯粹通过图像本身讲述故事

生成的效果:

Seedream 4.0连续生图能力还是挺让我震惊的,两人角色在连续生成12张分镜图后人物的ID,尤其是最重要的脸部ID依然保持的很好

以上就是我的一手小测试,可以肯定的说Seedream 4.0的核心能力完全可以对标nano banana,模型能力够了以后指哪打哪,玩法成千上万,商业,娱乐,艺术想象空间太大了,大家可以玩起来了

据火山引擎官方的透露,他们把Seedream 4.0 定位为一个从生成到编辑的一站式图像创作模型

Seedream 4.0的核心突破在于将文生图(T2I)与图像编辑(SeedEdit)整合进单一的DiT架构中。更关键的是,在整个后训练(Post-training)链路,包括SFT和RLHF阶段,都采用了联合训练框架。这使得两个任务的能力可以相互促进,实验证明,其效果远超单任务独立训练,在指令遵循和美学表现上均有显著提升,实现了架构统一与联合训练

采用高压缩比VAE和精心设计的DiT架构,实现训练和推理速度提升超10倍。同时,团队构建了大规模、可扩展的多模态数据处理链路,通过视频抽帧、HTML数据挖掘、多专家模型合成等方式,为模型的强大编辑和生成能力提供了坚实的数据基石,结果:2K 图像最快秒级生成,4K稳定输出

通过引入微调版的SeedVLM模型,Seedream 4.0获得了强大的世界知识和上下文理解能力。这使其能够处理超越简单描述的复杂指令,在需要逻辑推理、物理约束和常识判断的任务中表现出色

Seedream 4.0 的价值不只是某项指标提升了,而是通过架构、训练与工程的协同,把高质量图像生成从研究性成果推向了产品化、可用化。对创意产业、设计服务、以及任何需要大量视觉内容的业务,它带来的是效率和质量的双重跃升。

本文作者:花不玩,来源:AI寒武纪,原文标题:《国产Nano Banana来了!字节Seedream4.0发布,这次要让PS提前退休》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章