华为首个开源大模型来了!Pro MoE 720亿参数,4000颗昇腾训练

华为首次开源盘古大模型。根据SuperCLUE中文大模型基准测评5月的数据,盘古72B在开源排行榜中位列第五,仅次于DeepSeek-R1满血版、DeepSeek-V3满血版以及Qwen3-32B和235B。有媒体评论称,华为通过从芯片(昇腾 NPU)、到框架(MindSpore),再到模型(盘古)形成了完整的垂直整合体系。它证明在英伟达主导的单一产业格局之外,存在一种可行的高性能替代方案。

国产大模型开源竞争进入新阶段,华为首次开源盘古大模型核心能力。

6月30日,华为宣布开源盘古70亿参数稠密模型和盘古Pro MoE 720亿参数混合专家模型,同时开放基于昇腾的模型推理技术。这是华为首次将盘古大模型的核心能力对外开源。

华为表示,720亿参数的盘古Pro MoE模型在昇腾800I A2上实现单卡1148 tokens/s的推理吞吐性能,通过投机加速技术可进一步提升至1528 tokens/s,显著优于同等规模的稠密模型。

此次开源正值国产大模型开源浪潮兴起之际。继DeepSeek-R1成功后,MiniMax、阿里巴巴、月之暗面等头部厂商陆续升级开源模型,推动大模型价格下探60%-80%,加速应用普及。

模型引入“快思考”和“慢思考”双系统

华为此次开源包括三个主要组件:盘古Pro MoE 72B模型权重和基础推理代码已正式上线开源平台,基于昇腾的超大规模MoE模型推理代码同步发布,盘古7B相关模型权重与推理代码将于近期上线。

据开源开发者平台GitGo信息,盘古Pro MoE基于MoGE架构构建,总参数量720亿,激活参数量160亿。该模型专门针对昇腾硬件优化,在昇腾300I Duo推理服务器上提供极具性价比的模型推理方案。

根据华为官方介绍,盘古Embedded 7B模型引入“快思考”和“慢思考”双系统,简单问题用快速模式响应,复杂问题用深度模式推理,可自动切换。

方案在专家选择阶段采用分组机制,具体来说,先将专家划分为若干等规模的分组,再从每个分组中选取相同数量的专家进行激活。在典型的分布式部署中,每个专家分组对应独立的计算设备,从而MoGE天然地实现了跨设备的计算负载均衡。这一设计显著提升了训练和推理场景下的系统吞吐量。

在预训练阶段,华为使用了4000个昇腾NPU,在包含13万亿tokens的高质量语料库上进行预训练,分为通用、推理和退火三个阶段,逐步提升模型能力。

在后训练阶段,其通过监督微调(SFT)和强化学习(RL)进一步增强推理能力,还采用了检查点合并等技术优化模型。

最终,盘古Pro MoE在昇腾800I A2上实现了单卡1148 tokens/s的推理吞吐性能,并可进一步通过投机加速等技术提升至1528 tokens/s,显著优于同等规模的320亿和720亿个参数的稠密模型;在昇腾300I Duo推理服务器上,华为也实现了极具性价比的模型推理方案。

千亿内总参数模型中处于领先

华为表示,昇腾NPU能够支持盘古Pro MoE的大规模并行训练。多项公开基准测试结果表明,盘古Pro MoE在千亿内总参数模型中处于领先地位。

在英文基准领域,盘古Pro MoE在MMLU-PRO上以显著优势超越当前主流的稠密模型(包括Qwen3-32B、GLM-Z1-32B和Gemma3-27B)及 MoE架构的Llama4-Scout模型,创下新的性能标杆。

在阅读理解领域,盘古 ProMoE于DROP基准测试中获得91.2的优异成绩,与当前最优的Qwen3-32B模型(91.3)基本持平,充分验证其具备与前沿模型相当的英文文本理解与推理能力。 

在中文领域评估中,盘古Pro MoE展现出专业化的语言理解优势。

具体而言,在知识密集型评测C-Eval(EM)中,盘古Pro MoE以91.1的卓越成绩超越Qwen3-32B(89.2)等现有百亿参数量级最优模型。针对中文常识推理任务,盘古Pro MoE在CLUEWSC(EM)基准上取得94.7的高分,较Qwen3-32B(94.6)实现微幅提升,并明显领先于Gemma3-27B(91.3)等其他对比模型。

推理基准盘古Pro MoE在保持高效推理的同时,展现出优异的逻辑推理能力。

代码生成方面, 在MBPP+(Pass@1)的指标达到80.2,与Qwen3-32B(82.0)处于同一性能区间。数学推理任务中,MATH-500测试以96.8分超越Qwen3-32B(96.6),CNMO2024基准Pass@1指标70.8亦较后者(70.4)提升0.4分。特别在 SuperGPQA复杂问题解答基准中,54.8 的Pass@1 得分显著优于 GLM-Z1-32B(52.6)和Qwen3-32B(49.8)等稠密模型。

值得注意的是,在仅激活160亿参数的配置下,盘古Pro MoE的推理能力即可媲美320亿(32B)量级的先进模型。这种高效率源于创新的MoGE架构设计,该架构在保证逻辑推理精度的同时,保障了高效的推理速度。

“工业奇迹”

根据SuperCLUE中文大模型基准测评5月的数据,盘古72B在开源排行榜中位列第五,总分为58.75分,超越Qwen3-14B、Qwen3-8B,仅次于DeepSeek-R1满血版、DeepSeek-V3满血版以及Qwen3-32B和235B。

有媒体评论称,华为通过从芯片(昇腾 NPU)、到框架(MindSpore),再到模型(盘古)形成了完整的垂直整合体系。昇腾和盘古生态系统是一项里程碑式的技术成就。它证明在英伟达主导的单一产业格局之外,存在一种可行的高性能替代方案。

国产大模型开源竞争加剧

华为开源盘古大模型正值国产AI开源浪潮兴起。2025年开年,DeepSeek-R1的成功在全球掀起开源风潮,随后国产大模型开源消息接连不断,涵盖自然语言处理、计算机视觉、多模态等多个领域。

2025年6月,MiniMax、阿里巴巴、月之暗面等国内头部大模型厂商陆续升级多款开源大模型。研究报告显示,这些厂商在有限算力支持下,通过算法升级促进模型性能持续提升。

大模型价格同步快速下探。MiniMax-M1、豆包大模型1.6定价比DeepSeek-R1降低约60%-80%,更高性价比将加快应用普及速度。华为此次开源举措有望进一步推动人工智能技术在千行百业的应用与价值创造。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章