训练成本大降超九成！阿里开源下一代基础模型架构，引入混合注意力机制

9月12日，阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B，包含两个版本：更擅长理解和执行指令的指令（Insctruct）模型，以及更擅长多步推理和深度思考的推理（Thinking）模型。据介绍，相比Qwen3的MoE（混合专家）模型结构，Qwen3-Next进行了以下核心改进：混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化，以及提升推理效率的多token预测机制（简称MTP，Multiple-Token Prediction）。

在核心技术方面，新模型采用全球首创混合架构，75%用Gated DeltaNet（线性注意力），25%用原创Gated Attention（门控注意力），总参数80B只需激活3B，就可以在性能上媲美Qwen3旗舰版235B模型，算力利用率约为3.7%，帮助用户“极致省钱”。在训练成本方面，Qwen3-Next模型较今年4月发布的密集模型Qwen3-32B大降超90%，长文本推理吞吐量提升10倍以上。新模型在Qwen3预训练数据的子集15T tokens上进行预训练，仅需Qwen3-32B所用GPU计算资源的9.3%，便能训练出性能更好的Qwen3-Next-Base基座模型，大幅提升了训练效率。（澎湃新闻）