5月16日,腾讯推出了其新一代图像生成模型——混元图像2.0(Hunyuan Image 2.0),号称将图像生成速度提升至“毫秒级”。
何谓“毫秒级”?答案可能令人大吃一惊:当用户在输入提示词的同时,即可看到图像的实时变化,所见即所得。
腾讯表示,得益于超高压缩倍率的图像编解码器以及全新扩散架构,该模型参数量提升了一个数量级,实现了毫秒级响应速度,改变了传统“抽卡—等待—抽卡”的方式,带来交互体验革新。
混元图像 2.0 不仅实现了"边说边画"的实时互动,还在模型架构和生成质量上实现了全面飞跃。在GenEval基准测试中,混元图像2.0模型的准确率超过95%,远超其他同类模型,证明了其在复杂文本指令理解与生成方面的卓越能力。
交互革新:"边打字边出图"的新范式
实际测试显示,混元图像2.0能够实现"一边打字一边出图"的完全实时反馈,用户输入提示词的过程中,画面会随着文字变化而实时调整。
例如输入"人像摄影,爱因斯坦,背景是东方明珠电视塔,自拍角度",系统能够实时生成符合描述的图像,并在每个新元素添加时立即更新画面。
人物的表情也可以瞬间改变,比如让爱因斯坦吐舌头:
除此之外,还可以连续对画面增加或修改多个细节:一个女生,亚洲面孔,大眼睛,笑容灿烂,长头发,穿中式服装,戴上帽子,手绘风格。
动漫风、编织风等,效果也都不错:
这种实时反馈机制彻底打破了传统"输入提示词→等待数秒→查看结果→调整重试"的繁琐流程,大幅降低了创作门槛,使得创意表达更加流畅连贯。
超写实画质:真实感与细节的完美结合
除了速度,混元图像2.0在图像质量上也取得了显著提升。
通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像有效避免了AIGC图像的“AI味”,呈现出更真实的质感和更丰富的细节。
GenEval 评估基准测试显示,腾讯混元图像2.0模型准确率超过95%,远超同类模型。 这种高保真度的图像生成能力,对需要高质量素材的行业(如广告、设计等)有着巨大的吸引力。
图像二次编辑:图生图的强大功能
混元图像2.0不仅支持文字生成图像,还提供了强大的“图生图”功能。可提取参考图的主体或轮廓特征,对现有图像进行二次编辑。
这种能力极大地拓展了该模型的使用场景, 从给宠物生成个性化照片到专业的设计创作,用户都能轻松驾驭。 比如上传一张猫咪照片,图像参考强度设定为92,让猫咪眼睛变大,在草地上,戴上皇冠。
例如,用户可以上传一张蛋糕照片,然后通过简单指令将巧克力味改成草莓味,同时保持形状和摆放与参考图一致。
还可以实时对图片进行风格的修改,添加小元素,对比和原图的效果。比如下面的例子,通过一张小猫的图片,生成“家居猫、公主猫、古惑仔猫”。
此外,还支持一键为简笔画上色,以及"画面优化"功能,自动改进构图、景深和光影效果。
实时绘画板:专业设计师的生产力工具
除了实时文生图,混元图像 2.0 还提供了实时绘画板功能。
基于模型的实时生图能力,用户在绘制线稿或调整参数时,预览区同步生成上色效果,突破了传统“绘制-等待-修改”的线性流程,可助力专业设计师的创作。
实时绘画板支持多图融合,用户上传多图后,可将多个草图叠加至同一画布自由创作,经过AI 自动协调透视与光影,按照提示词内容生成融合图像,进一步丰富了AI生图的交互体验。
这一功能特别适合有初步设计想法但缺乏专业绘画能力的用户。
技术进步:五大关键突破
据科技媒体量子位分析,混元图像 2.0 的背后是五项关键技术突破:
更大的模型尺寸:相比前代产品,参数量提升了一个数量级,显著提高了性能上限。
超高压缩倍率的图像编解码器:腾讯混元团队自研编解码器大幅降低了图像编码序列长度,同时通过对信息瓶颈层的优化和强化对抗训练,保证了细节生成能力。
多模态大语言模型作为文本编码器:区别于CLIP、T5等传统架构的浅层语义解析,通过适配多模态大语言模型,显著提升了语义匹配能力,在GenEval等客观指标上超越同类产品。
全尺度多维度强化学习后训练:基于"慢思考"奖励模型,通过通用后训练与美学后训练,有效提升图片生成的真实感。
自研对抗蒸馏方案:基于隐空间一致性模型,将去噪轨迹上的任意点直接映射到轨迹生成样本,实现少步高质量生成。
网友灵魂画手上线体验
有不少网友创作者发来了体验:
图源自创作者一只小娜娜
社交平台X上的网友表示:
“令人印象深刻的创新!通过实时 AI 图像生成重新定义创造力。”
还有人表示:
“虚幻\绝对虚幻。很想探索这个”
“实时图像生成/修改有可能开辟一些疯狂的新机会和想法。”
“这听起来很神奇!速度和质量改变了游戏规则。迫不及待地想看看大家用它创造了什么!”