今天凌晨2点,阿里巴巴开源了新架构模型Qwen3-Next-80B-A3B,对混合注意力机制、高稀疏性MoE、训练方法等进行了大幅度创新,迎来了自己的DeepSeek时刻。
Qwen3-Next是一个混合专家模型总参数800亿,仅激活30亿,训练成本较Qwen3-32B暴降90%,推理效率却提升10倍,尤其是在超长文本32K以上的提示场景中。
性能方面,Qwen3-Next的指令微调模型在推理与长上下文任务中,可媲美阿里的旗舰模型Qwen3-235B;思考模型则超过了谷歌最新的Gemini-2.5-Flash思考模型,成为目前最强低能耗开源模型之一。
在线体验:https://chat.qwen.ai/
开源地址:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
阿里API:https://www.alibabacloud.com/help/en/model-studio/models#c5414da58bjgj
网友对阿里新模型的架构非常赞赏,表示,半年前我才刚跟联合创始人聊过类似这样的架构!当时好像把它叫做 “动态权重注意力” 之类的,具体名字记不太清了。这设计真的太出色了!
昨天我测试了好几款模型:思维模式下的 ChatGPT-5、Claude-4,还有专家模式下的 Grok-4。刚刚又测了Qwen3 Next。在所有这些模型里,只有你们这款模型第一次尝试就给了我正确答案。真的太出色了!
未来以来,这个模型击败了谷歌的Gemini-2.5-Flash。
在这里看到 DeltaNet的应用,真的有点让人惊喜!我很好奇,如果换成模型架构发现的AlphaGo 时刻这篇论文中提出的模型架构,这款模型的性能会发生怎样的变化?
800 亿参数、超高稀疏性再加上多token预测,这配置太惊艳了!要是你的 GPU 有足够显存,用它跑起来速度绝对飞快。
基本上老外对阿里的创新模型非常满意,赞美超多。
Qwen3-Next架构简单介绍
阿里认为上下文长度扩展与总参数扩展是大模型未来发展的两大核心趋势,为在长上下文和大参数场景下进一步提升训练与推理效率,他们设计了全新的模型架构Qwen3-Next。
相较于Qwen3的MoE结构,Qwen3-Next进行了多项关键改进,包括混合注意力机制、高稀疏性MoE结构、利于训练稳定性的优化手段,以及可实现更快推理的多token预测机制。
在核心特性方面,Qwen3-Next采用门控DeltaNet+门控注意力的混合创新架构。线性注意力虽能打破标准注意力的二次复杂度,更适合长上下文处理,但仅用线性注意力或标准注意力均有局限。
线性注意力速度快但召回能力弱,标准注意力推理时成本高、速度慢。经系统实验验证,门控DeltaNet的上下文学习能力优于滑动窗口注意力、Mamba2等常用方法,将其与标准注意力按3:1比例,75%层用门控DeltaNet,25%层保留标准注意力结合,模型性能持续超越单一架构,实现性能与效率的双重提升。
标准注意力层还进行了多项增强,如采用此前研究中的输出门控机制以减少注意力低秩问题、将每个注意力头的维度从128提升至256、仅对前25%位置维度应用旋转位置编码以改善长序列外推能力。
稀疏性设计上,Qwen3-Next采用超高稀疏性MoE结构,800亿总参数在每步推理中仅激活约30亿,占比3.7%。实验表明,在全局负载均衡的前提下,固定激活专家数量并增加专家总参数,能稳步降低训练损失。与Qwen3的MoE相比,Qwen3-Next将总专家数扩展至512个,结合10个路由专家+1个共享专家的设计,在不影响性能的同时最大化资源利用率。
训练稳定性优化方面,注意力输出门控机制有效解决了注意力Sink、大规模激活等问题,保障模型数值稳定性;针对Qwen3中QK-Norm存在的部分层归一化权重异常增大问题,Qwen3-Next采用零中心RMSNorm,并对归一化权重施加权重衰减以防止无界增长;初始化时对MoE路由器参数进行归一化,确保训练初期每个专家都能被无偏选择,减少随机初始化带来的噪声。这些设计提升了小规模实验的可靠性,保障大规模训练平稳进行。
多token预测机制也是Qwen3-Next的亮点,其原生引入的多token预测(MTP)机制,不仅为投机解码提供高接受率的MTP模块,还能提升模型整体性能,同时针对MTP的多步推理性能进行优化,通过保持训练与推理一致性的多步训练,进一步提高实际场景中投机解码的接受率。
预训练阶段,Qwen3-Next展现出卓越的效率。其训练数据来自Qwen3的36T token预训练语料中均匀采样的15T token子集,GPU时长不足Qwen3-30-3B的80%,计算成本仅为Qwen3-32B的9.3%,却能实现更优性能。推理速度上,填充阶段4K上下文长度时吞吐量接近Qwen3-32B的7倍,32K以上时超10倍;
解码阶段4K上下文长度时吞吐量接近Qwen3-32B的4倍,32K以上时仍保持超10倍的速度优势。性能表现上,Qwen3-Next-80B-A3B-Base仅激活Qwen3-32B-Base非嵌入参数的1/10,却在多数基准测试中性能更优,且显著超过Qwen3-30B-A3B。
后训练阶段的性能同样亮眼。指令模型Qwen3-Next-80B-A3B-Instruct大幅超越Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,性能接近旗舰模型Qwen3-235B-A22B-Instruct-2507;在RULER基准测试中,该模型在各长度下均优于注意力层更多的Qwen3-30B-A3B-Instruct-2507,且在256K上下文内击败总层数更多的Qwen3-235B-A22B-Instruct-2507,印证了混合架构在长上下文任务中的优势。
推理模型Qwen3-Next-80B-A3B-Thinking性能超过Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-Thinking等更高成本模型,多个基准测试击败Gemini-2.5-Flash-Thinking,关键指标接近Qwen3-235B-A22B-Thinking-2507。
本文来源:AIGC开放社区,原文标题:《阿里DeepSeek时刻!开源新架构模型:推理快10倍、成本暴降90%》