边写边画、边说边画，混元图像2.0来了！

张雅琦

05-16 19:58

211

混元图像2.0能够实现"一边打字一边出图"的完全实时反馈，用户输入提示词的过程中，画面会随着文字变化而实时调整。AI图像生成进入“毫秒级”时代。

5月16日，腾讯推出了其新一代图像生成模型——混元图像2.0（Hunyuan Image 2.0），号称将图像生成速度提升至“毫秒级”。

何谓“毫秒级”？答案可能令人大吃一惊：当用户在输入提示词的同时，即可看到图像的实时变化，所见即所得。

腾讯表示，得益于超高压缩倍率的图像编解码器以及全新扩散架构，该模型参数量提升了一个数量级，实现了毫秒级响应速度，改变了传统“抽卡—等待—抽卡”的方式，带来交互体验革新。

混元图像 2.0 不仅实现了"边说边画"的实时互动，还在模型架构和生成质量上实现了全面飞跃。在GenEval基准测试中，混元图像2.0模型的准确率超过95%，远超其他同类模型，证明了其在复杂文本指令理解与生成方面的卓越能力。

交互革新："边打字边出图"的新范式

实际测试显示，混元图像2.0能够实现"一边打字一边出图"的完全实时反馈，用户输入提示词的过程中，画面会随着文字变化而实时调整。

例如输入"人像摄影，爱因斯坦，背景是东方明珠电视塔，自拍角度"，系统能够实时生成符合描述的图像，并在每个新元素添加时立即更新画面。

人物的表情也可以瞬间改变，比如让爱因斯坦吐舌头：

除此之外，还可以连续对画面增加或修改多个细节：一个女生，亚洲面孔，大眼睛，笑容灿烂，长头发，穿中式服装，戴上帽子，手绘风格。

动漫风、编织风等，效果也都不错：

这种实时反馈机制彻底打破了传统"输入提示词→等待数秒→查看结果→调整重试"的繁琐流程，大幅降低了创作门槛，使得创意表达更加流畅连贯。

超写实画质：真实感与细节的完美结合

除了速度，混元图像2.0在图像质量上也取得了显著提升。

通过强化学习等算法以及引入大量人类美学知识对齐，生成的图像有效避免了AIGC图像的“AI味”，呈现出更真实的质感和更丰富的细节。

GenEval 评估基准测试显示，腾讯混元图像2.0模型准确率超过95%，远超同类模型。这种高保真度的图像生成能力，对需要高质量素材的行业（如广告、设计等）有着巨大的吸引力。

图像二次编辑：图生图的强大功能

混元图像2.0不仅支持文字生成图像，还提供了强大的“图生图”功能。可提取参考图的主体或轮廓特征，对现有图像进行二次编辑。

这种能力极大地拓展了该模型的使用场景，从给宠物生成个性化照片到专业的设计创作，用户都能轻松驾驭。比如上传一张猫咪照片，图像参考强度设定为92，让猫咪眼睛变大，在草地上，戴上皇冠。

例如，用户可以上传一张蛋糕照片，然后通过简单指令将巧克力味改成草莓味，同时保持形状和摆放与参考图一致。

还可以实时对图片进行风格的修改，添加小元素，对比和原图的效果。比如下面的例子，通过一张小猫的图片，生成“家居猫、公主猫、古惑仔猫”。

此外，还支持一键为简笔画上色，以及"画面优化"功能，自动改进构图、景深和光影效果。

实时绘画板：专业设计师的生产力工具

除了实时文生图，混元图像 2.0 还提供了实时绘画板功能。

基于模型的实时生图能力，用户在绘制线稿或调整参数时，预览区同步生成上色效果，突破了传统“绘制-等待-修改”的线性流程，可助力专业设计师的创作。

实时绘画板支持多图融合，用户上传多图后，可将多个草图叠加至同一画布自由创作，经过AI 自动协调透视与光影，按照提示词内容生成融合图像，进一步丰富了AI生图的交互体验。

这一功能特别适合有初步设计想法但缺乏专业绘画能力的用户。

技术进步：五大关键突破

据科技媒体量子位分析，混元图像 2.0 的背后是五项关键技术突破：

更大的模型尺寸：相比前代产品，参数量提升了一个数量级，显著提高了性能上限。

超高压缩倍率的图像编解码器：腾讯混元团队自研编解码器大幅降低了图像编码序列长度，同时通过对信息瓶颈层的优化和强化对抗训练，保证了细节生成能力。

多模态大语言模型作为文本编码器：区别于CLIP、T5等传统架构的浅层语义解析，通过适配多模态大语言模型，显著提升了语义匹配能力，在GenEval等客观指标上超越同类产品。

全尺度多维度强化学习后训练：基于"慢思考"奖励模型，通过通用后训练与美学后训练，有效提升图片生成的真实感。

自研对抗蒸馏方案：基于隐空间一致性模型，将去噪轨迹上的任意点直接映射到轨迹生成样本，实现少步高质量生成。