作者 | 黄 昱
编辑 | 周智宇
AI多模态大模型持续火热,腾讯也出招了。
5月14日,腾讯宣布旗下的混元文生图大模型全面升级,该模型采用了与Sora一致的DiT架构(Diffusion With Transformer),不仅可支持文生图,也可作为视频等多模态视觉生成的基础。
在腾讯方面看来,DiT架构很可能成为下一代主流视觉生成架构。未来,DiT架构很可能会成为文生图、生视频、生3D等多模态视觉生成的统一架构。
并且腾讯将混元文生图大模型开源,可供企业与个人开发者免费商用。
这是业内首个中文原生的DiT架构文生图开源模型。它希望借此填补文生图开源社区DiT架构空白,让更多开发者参与其中,以更快追赶上国外先进闭源多模态大模型。
腾讯也能在这个过程中,借着大模型重构自身业务,为现有业务赋能。从最新财报来看,大模型已对腾讯的业务产生积极作用。
此次腾讯升级的混元文生图大模型参数量15亿,支持中英文双语输入,支持最长256个字符(业界主流是77个)的图片生成指令,支持用户文本改写以及多轮绘画。
过去几年,主流的文生图模型以基于U-Net架构的扩散模型为主,然而U-Net模型容易陷入性能瓶颈,面临着扩展性问题,DiT架构主要是替换了模型中的U-Net架构的部分。Transformer架构只要算力与数据量足够,可以无限扩展。
基于Transformer架构的模型似乎更有潜力让文生图模型变得更聪明。因此,混元文生图从 2023 年7月起就开始做研发,全链路自研,从零开始训练。今年初,混元文生图大模型已全面升级为DiT架构。
据华尔街见闻了解,结合腾讯内部广告等真实场景需求优化与架构升级,最新的腾讯混元文生图大模型,对比基于U-Net架构的模型,视觉生成整体效果提升20%,同时在多轮对话、细粒度语义理解、中国元素、真实人像生成等细分场景下效果有明显提升。
腾讯文生图负责人芦清林指出,与Dalle3、SD3、Midjorney这三个业界知名的闭源文生图模型相比,混元文生图大模型排在Dalle3和Midjorney之后,在所有开源文生图模型中,混元文生图大模型则表现最好。
芦清林进一步指出,在混元文生图大模型开源之前,开源和闭源的文生图技术能力差距是在逐渐拉大的,腾讯希望通过此次开源能够把这个差距缩小。
芦清林也透露,今年初OpenAI推出Sora就是因为他们有了一个很强的DiT架构模型,此次混元文生图大模型开源有一个初衷,就是希望通过把DiT架构模型拿出来,让业界想做文生视频的同行可以快速地将这一技术拓展到视频上去,可以帮助大家节省很多时间。
腾讯一直是开源技术的支持者,过去已开源了超 170 个项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块。
芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。”
多模态是大势所趋。开源证券指出,国内外AI多模态大模型的持续突破及后续商业化,或大幅降低广告、课件、短剧、动画、剧集、电影等制作成本,提高IP开发、广告营销及教学效率,扩大商业化空间。
去年9月发布混元大模型时,腾讯就十分强调实用性,称混元大模型是“从实践中来,到实践中去”的实用级大模型。在混元文生图大模型开源后,不排除腾讯也会将大语言模型开源。
当然,开源或闭源都只是不同技术路线的选择,最终目的还是商业化应用。按照腾讯的规划,腾讯做混元大模型一定先是服务腾讯本身,再是通过腾讯云向产业规划,C端的应用则还在探索阶段。
芦清林对华尔街见闻表示,混元文生视频的商业化探索不算紧迫,因为腾讯内部的业务场景非常丰富,能给自身业务赋能已经很好。至于to C端的商业化,还没有明确的计划,但不排除会尝试。
在5月14日晚腾讯一季度业绩说明会上,腾讯管理层也表示,腾讯在积极创造和测试不同的AI产品,看看哪些产品对公司现有的产品有意义。随着时间的推移,这些产品将在微信等拥有大量用户的平台上推出。
据腾讯披露,目前已有超过400项腾讯业务和应用场景,接入腾讯混元大模型内测。腾讯混元文生图能力则被广泛用于素材创作、商品合成、游戏出图等多项业务及场景中。
国内外AI“军备竞赛”战局正酣,但这是一场马拉松比赛。在等待“AI的iPhone时刻”真正来临前,腾讯选择了一条更扎实的路,让AI成为自己业务的“倍增器”,面对这场技术变革,也会更加从容。