开源仅一周,鹅厂文生图大模型强势登顶,击败谷歌Nano-Banana

机器之心
在国际权威 AI 模型评测榜单 LMArena 上,HunyuanImage 3.0 一举超越了谷歌风头无两的 Nano-Banana 以及字节的 Seedream 4.0,位列文生图(Text-to-Image)综合榜单和开源榜单第一。

一夜之间,文生图领域的「王座」被国产大模型拿下!

主角是腾讯混元团队发布并开源仅一周的原生多模态生图模型 —— 混元图像 3.0(HunyuanImage 3.0)。

在国际权威 AI 模型评测榜单 LMArena 上,HunyuanImage 3.0 一举超越了谷歌风头无两的 Nano-Banana 以及字节的 Seedream 4.0,位列文生图(Text-to-Image)综合榜单和开源榜单第一。

下图为 LMArena 文生图完整(Overall)榜单:

腾讯的这款模型参数量为 80B(推理时每个 token 激活 13B),是其迄今为止规模最大、性能最强的开源文生图利器。如今,强势登顶 LMArena 印证了当初其「生成效果完全可媲美业界顶级闭源旗舰模型」的自信。

发布一周来,混元图像 3.0 迅速在创作者圈中走红。无论是画面质感、细节还原,还是构图理解与风格一致性,很多网友都表示这款模型的生成效果远超预期。

在 GitHub 上,混元图像 3.0 的 star 数已经突破了 1.7k,社区热度不断攀升,吸引了越来越多开发者的关注与参与。

文生图的新 Goat,其实际表现是否名副其实?接下来的一手实测结果即将揭晓。

一手体验

排行榜上的学霸,不一定是日常里的好学生。不少模型分数高得惊人,可一旦真正上手,往往漏洞百出。如今,混元图像 3.0 登顶 LMArena 榜单第一,它究竟是实至名归,还是徒有虚名?别急,我们马上来实测看看。

凭借原生多模态架构的优势,混元图像 3.0 在继承 Hunyuan-A13B 世界知识的基础上,具备了原生的世界知识推理能力。

因此,当我们输入提示:「创作一幅九宫格漫画展示曹冲称象,每幅画需要配上简单的文字描述」时,混元图像 3.0 不仅能够理解这是一个历史典故,还能将故事拆解成连贯的九个场景。更值得注意的是,它生成的每一格画面都配有简洁准确的文字说明,形成了完整的故事链条,而不是零散的画面堆砌。这种表现说明它已经能够在图像生成中融合知识、推理与创作。

解数学题也不在话下,混元图像 3.0 能够迅速识别出这是一个代数问题,并给出清晰的推理过程,整个解题步骤逻辑严谨,排版清晰,最终答案一目了然。

提示语:解方程组 x+y=4 ,2x-y=2,给出详细求解过程。

而当我们进一步输入提示「用循环箭头的形式解释破茧成蝶」,混元图像 3.0 又能切换到创意表达模式:它将自然的蜕变过程拆解成多个阶段。

几个案例测试下来,可以看出,混元图像 3.0 不仅具备基本常识,还能够在此基础上进行推理和表达。既能逻辑缜密地解决问题,又能生动直观地呈现创意。更重要的是,这些结果并不是死记硬背式的套用,而是体现了它在理解提示语意图后,结合自身知识体系进行再创造的能力。

同时,混元图像 3.0 还具备精确文字生成、长文本渲染能力,从而大大改善了以往模型常见的文字乱码或字形扭曲问题。

提示词:一张印有 “愿阳光洒进你的心田,带来温柔力量,祝你早日恢复活力,拥抱健康与喜悦~” 文字的祝福贺卡。卡片设计风格,特写构图,温暖柔和的氛围,简洁而精致。背景大面积留白,营造宁静感。文字旁边点缀一束鲜花,由玫瑰、百合、向日葵组合,色彩清新,传递关怀与希望。

再比如在具有复杂文字要求的海报场景中,混元图像 3.0 也能轻松应对。中秋将至,我们让模型生成一张主题海报。

提示词:一幅精美的中秋节主题画作,满月高悬在夜空中,月光洒在古色古香的中式庭院里。一张圆桌上摆满了各式各样的月饼、茶壶。背景有红色的灯笼和摇曳的竹林。大标题:书法毛笔字体“花好月圆”,副标题“但愿人长久”。画面细节丰富,暖黄色色调,海报设计,国风,韵味。

从结果来看,混元图像 3.0 精准地抓住了用户需求,整体观感既有节日氛围,又具备商业设计的完成度。

接下来,我们再进行一组海报测试。这次的提示语是:「柠檬水海报」。

混元图像 3.0 生成的画面色调明亮,柠檬切片、透明玻璃罐都表现得极为写实,整体构图简洁干净,极具商业质感。字体排版自然融入画面,呈现出清新又具广告感的效果,让人几乎可以感受到柠檬的清香与冰爽气息。

混元图像 3.0 还能驾驭更加复杂的提示:「以白色为背景的九宫格插画,展示一只真实写实风格的宠物形象,共九种不同表情和动作。画面可爱、生动,宠物神态自然,画风温暖写实。 九宫格内容如下: 第一行:① 不高兴的动作,文字‘不想上班’;② 高兴的动作,文字‘放假啦’;③ 四仰八叉躺着的动作,文字‘已躺平’。 第二行:① 振臂的动作,文字‘奋斗吧’;② 大哭的表情,文字‘啊啊啊;③ 竖大拇指的动作,文字‘你真行’。 第三行:① 思考的动作,文字‘思考人生’;② 鼓腮生气的动作,文字‘不开心’;③ 害羞捂脸的动作,文字‘伤心啦’。 每张表情图片下方配有黑色萌宠风格字体的文字,整体布局整齐可爱,背景纯白,风格统一。」

接下来我们决定进一步考验混元图像 3.0 对传统艺术的表现力,这次的提示语是「中国传统剪纸艺术风格,展现细腻精致的民俗非遗纸艺之美。红色剪纸元素镌刻出‘国庆节’字样,构图典雅大方,富有传统韵味。画质高清,突出剪纸细节与层次感,营造节日氛围。」

出乎意料的是,混元图像 3.0 对传统元素的把握同样出色。

与此同时,混元图像 3.0 还兼具出色的美学表现力。面对复杂的指令,它依然能够准确理解语义、平衡画面构图,并在细节中展现高级的视觉审美。

这次,我们采用英文提示语:

「A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.」

可以看出混元图像 3.0 很好的理解了英文提示语,生成的人物以及画面非常逼真,甚至手部都看不出瑕疵。

再来一个提示语「画面中心是一个金发小男孩,穿着绿色衣服,系着黄色围巾,坐在一条小船里,怀抱着两朵红玫瑰。小船漂浮在波浪般的蓝色海面上,海浪像是绒毛或艺术质感般细腻。背景是一片星空,带有梵高《星空》的旋转星云与明亮月亮。画面中点缀着闪烁的光点,营造温暖、浪漫和童话般的氛围。」

混元图像 3.0 还具有很高的文字渲染能力。例如,当我们输入提示语:创建一个高分辨率的文字 3D 渲染图,第一行文字是 "HUNYUAN",第二行文字是 "IMAGE 3.0",每个字母使用不同的材质进行渲染,材质可以是 sisal、亚麻绳、竹编、草棉花、牛仔布、沙子、木头、皮革、粘土、大理石、羊毛金属、火山熔岩、冰块、火焰、水泥、钻石等。旁边陶瓷、一只很矮的 Tencent QQ 企鹅正扶着文字,仿佛这些文字都是它拼的。 将其放置在干净简约的浅灰色背景上。

我们还测试了更多示例。

提示语:水彩画风格,全景视角。画面中有石桥、河流、人物、树木与天空,色调以秋日的金黄与暖橙为主,笔触细腻而略带朦胧,呈现出写意的艺术质感。整体氛围宁静悠然,展现公园秋日的自然景致与人文活动交织的美感,充满诗意与生活气息。

提示语:生成六种材质的满月,其中第二个是真实的满月。

最后再来一个《十二生肖月饼》,祝大家中秋节快乐。「以中秋为题,融合传统文化与节日意象,月饼不同材质,比如抹茶、玫瑰,颜色各异。十二生肖各展风姿:鼠小巧玲珑、牛稳稳健、虎咆哮、兔可爱,龙飞腾、蛇轻灵,马驰骋千里,羊温顺,猴机灵古怪,鸡鸣瑞气,狗忠相伴情意长,猪憨可爱庆团圆。」

从以上一系列测试来看,混元图像 3.0 的表现可谓全面而稳定。它不仅在创意表达上展现出极高的理解力与想象力,也在逻辑推理、文字生成、审美构图等方面实现了显著突破。

混元图像 3.0 是怎么炼成的?

榜单成绩和一手实测都很「硬」,混元图像 3.0 肯定在技术层面藏着一些独到之处。

我们了解到,混元图像 3.0 以「Hunyuan-A13B」为基础模型,后者是一个 MoE 大语言模型。首先,为使该模型具备处理视觉输入以及相应的图像理解与生成能力,腾讯混元团队为其配备了预训练的视觉编码器和 VAE;其次引入了思维链(CoT)的训练与推理机制,进一步增强模型在图像理解与生成任务上的表现。加之专门针对图像生成任务进行了微调与后训练,混元图像 3.0 的「图像生成模块」最终成型。

从技术路径来看,混元图像 3.0 不仅仅追求生成质量的显著提升,而是逐渐迈向「理解 — 推理 — 生成一体化」的多模态智能架构。

在模型设计上,混元图像 3.0 采用一种混合式的离散 - 连续建模策略,对文本词元采用自回归的下一词元预测方式进行建模,对图像词元采用基于扩散的预测框架进行建模,同时兼顾语言的逻辑结构与图像的连续特征空间,做到「文字理解与视觉生成」的高效协同。

这样一来,整个模型在一个紧密结合的框架内融合了语言建模、图像理解和图像生成三大功能,实现了统一的多模态建模。

从上图可以看到,混元图像 3.0 的整体框架包含了以下几大关键组件:

  • 主干网络(Backbone):基于 Hunyuan-A13B 构建,总参数为 800 亿,包含 64 个专家,每个 token 激活 8 个专家 并共享 MLP,使激活参数量约 130 亿。

  • 文本分词器(Text Tokenizer):采用混元分词器(Hunyuan Tokenizer),在其词汇表中加入一组专为图像生成与理解任务设计的特殊 tokens,以增强多模态处理能力。

  • 图像编码器 (Image Encoder):在图像生成中采用内部 VAE,将像素映射至 32 维潜空间,下采样因子为 16。相比需要额外块化层的 8 倍下采样方案,这一设计更简洁高效,生成质量更优。对于条件图像输入,采用了双编码器,将 VAE 与视觉编码器的潜层特征拼接,实现统一的多模态表示,同时支持图像理解与生成任务。

  • 投影器(Projector):使用双投影器将图像特征对齐至 Transformer 潜空间,其中 VAE 特征经时间步调制的残差块进行映射,视觉特征经两层 MLP 进行转换,并融合时间步嵌入以增强扩散条件控制。

在数据构建上,团队首先对一个超百亿规模的原始图像库进行筛选,仅保留不足 45% 的初始数据,最终获得近 50 亿张图像构成的纯净、优质且多样化的数据集。

接下来是图像描述生成,主要作用是生成内容丰富、可控且基于事实的图像描述。

该流程由三大核心组件构成:(1)结构化图像描述的层级化方案,(2)多样化数据增强的组合式合成策略,以及(3)实现事实性实体注入的专用智能体。

最后是思考生图数据集构建,为此团队构建了两种特定的训练数据:(1)文本到文本(T2T)推理数据,用来强化模型逻辑推理能力;(2)文本到文本到图像(T2TI)推理数据,该数据明确地对从抽象概念到视觉呈现的全过程进行建模。

在训练策略上,分为预训练与后训练。

具体而言,预训练分为四个渐进式阶段。第一阶段:训练 Transformer 主干网络,同时保持 ViT 冻结;第二阶段:Transformer 主干网络保持冻结,使用 MMU 数据微调 ViT 及其相关的对齐器模块 (aligner module) ;第三阶段:ViT 和 Transformer 使用更高分辨率(大于 512px)的图像进行联合训练,并且引入了图文交错数据,以增强多模态建模能力;在最后阶段,训练图像被进一步限制在一个高分辨率子集上,其中每张图像的短边至少为 1024 像素。用于 MMU 任务的图像也被限制在高分辨率子集上,以提升理解能力。

训练期间,团队保留了图像的宽高比,从而使得混元图像 3.0 能够生成多分辨率图像。预训练之后,团队还进行了专门针对文生图任务的指令微调,以更好地遵循用户指令。

混元图像 3.0 能够生成多分辨率图像

接着是后训练,首先是在一个人工标注的数据集上进行 SFT(监督微调)。随后利用 DPO(直接偏好优化)解决图像生成中常见的结构缺陷问题。接下来利用在线强化学习框架 MixGRPO 来优化风格、构图、光照等要素,从而减轻图像失真并减少伪影的存在。最后通过 SRPO 和团队内部提出的奖励分布对齐(ReDA)方法进行优化,进一步提升生成图像的真实感和清晰度。

得益于上述技术的加持,混元图像 3.0 在文图一致性与视觉质量方面的表现,足以超越 Seedream 4.0、Nano Banana、GPT-Image 等顶尖模型。

在此基础上,腾讯混元团队也希望将这一成果回馈社区,通过开源混元图像 3.0 的代码与权重,进一步降低高质量多模态研究的门槛,帮助更多研究者和开发者在这一前沿模型上开展创新实验与应用探索。

另外,根据腾讯混元团队透露,目前混元图像 3.0 仅开放了文生图能力,图生图、图像编辑、多轮交互等版本将于后续发布,大家可以再等等。

从模型到生态,打赢 AIGC 这场体系战

近一两个月来,AIGC 领域又进入到了一个爆发期,包括国外谷歌的 Nano-Banano 以及国内腾讯的混元图像 3.0、字节的 Seedream 4.0,都在全球范围内引发了广泛关注。

在图像生成领域同样受 Scaling Laws 增益放缓影响的当下,这些「爆款模型」的出现一次次刷新了人们对生成式 AI 能力边界的认知。从特征来看,这波模型更新向着多模态融合与智能深化的方向演进,从以往的「能生成」发展到「能理解、能推理、能控制」;从属性来看,AI 也正从传统的创意辅助工具迈向具备自主理解与表达能力的智能内容创作引擎。

与此同时,在这场演进中,开源也成为核心推动力。尤其是国内 AI 大厂与初创公司,越来越多地选择开放模型权重,借助社区分享与协作实现快速更新迭代。作为国内大模型领域的领军者之一,腾讯同步推进多模态技术创新与开源生态建设。

一方面,腾讯围绕混元模型家族深耕多模态领域,并持续有领先成果产出,包括此次图像领域的混元图像 3.0、3D 领域的混元 3D 3.0、视频领域的 HunyuanVideo 以及世界模型 HunyunWorld-1.0,由此形成的全栈式 AIGC 体系为腾讯在多模态智能与内容生成领域的长远布局做足了准备。

当然,腾讯也在积极布局开源。上月初开源的混元翻译模型 Hunyuan-MT-7B 以及最新的世界模型 HunyuanWorld-Voyager 一度在 Hugging Face 模型趋势榜单前三中占据两席。

加之腾讯覆盖面极广的业务矩阵,包括社交、内容生产、广告推荐、游戏,为技术的落地提供了丰富的场景和数据支撑。从模型能力到开源生态再到多场景落地,完整的 AIGC「链条」已经形成。

本文来源:机器之心,原文标题:《开源仅一周,鹅厂文生图大模型强势登顶,击败谷歌Nano-Banana》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章