DeepSeek V4“寄予厚望”！国产算力“进攻的矛”--超节点

04-26 20:20

909

DeepSeek明确背书昇腾950超节点，国产算力正从"能用"迈向"好用"，而超节点技术成为关键突破口。华为CloudMatrix 384通过集群方式，总性能反超英伟达NVL72达1.7倍，印证"以量取胜"路径可行。东方证券认为今年将是国产超节点规模放量元年，交换芯片、液冷、服务器ODM、供电系统等全链条有望深度受益。

国产算力正从"能用"迈向"好用"，超节点技术成为弥合差距的关键支点。

华尔街见闻提及，4月24日，DeepSeek V4预览版发布，公司披露受限于高端算力供给，V4 Pro版本服务吞吐十分有限，预计下半年随华为昇腾950超节点批量上市后，Pro版本价格将大幅下调。

高盛研报指出，这一表态具有双重意涵：一是DeepSeek的成本竞争力将进一步强化；二是在芯片管制持续收紧的背景下，中国顶尖AI模型向国产算力迁移的趋势得到头部玩家的背书。

此前，国家发改委亦于2025年底的新闻发布会上罕见正面回应，称"超节点等集群互联技术发展，为国产算力赶上国际领先水平提供了良好机遇"。

在此背景下，东方证券发布电子行业深度报告，以"超节点：国产算力进攻的'矛'"为题，系统梳理超节点的技术逻辑、产业格局与投资机会，认为2026年将是国产超节点规模放量元年，交换芯片、服务器ODM、液冷、供电等全链条有望深度受益。

AI算力需求跃升，超节点成必然选择

大模型参数规模的持续膨胀，正将算力基础设施推入超节点时代。

东方证券报告指出，随着MoE（混合专家）架构成为新趋势，模型参数以每年约10倍的速度增长，已迈入十万亿级阶段——Qwen3-Max模型总参数超过1T，文心5.0参数量达2.4T。

与此对应，算力集群规模不断提升，万卡集群已成训练大模型的最低标配，十万卡级集群成为主流趋势。

Scaling Law的适用范围亦从预训练扩展至后训练和推理全流程。

据OpenAI介绍，在开发o3时训练计算和推理时间均增加了一个数量级，验证了模型性能会随思考次数持续提升。

DeepSeek则表示，对模型后训练强化学习持续投入算力，V3.2在后训练投入超过预训练成本的10%，推理性能已与GPT-5-high相似。

在分布式训练架构中，张量并行（TP）和混合专家并行（EP）对带宽需求最为突出。

随着MoE模型中跨服务器的All-to-All通信量急剧增长，传统以太网已难以承受千亿级模型单次梯度同步产生的TB级数据量。

超节点通过内部高速总线互连，有效打破"通信墙"与"内存墙"瓶颈，成为大规模训练与推理的最优解。

在推理侧，AI Agent的兴起亦大幅拉升词元Token消耗。据国家数据局数据，2026年3月中国日均AI Token使用量已突破140万亿，为2025年底的近四倍。

报告援引数据指出，超节点Blackwell NVL72相比H200 8卡服务器，单瓦每秒生成Token数量更高，推理性价比显著领先。

超节点以量取胜，国产集群弯道超车

东方证券报告的核心论断之一，是超节点架构为国产芯片提供了绕过单卡性能短板的有效路径。

以华为CloudMatrix 384与英伟达GB200 NVL72为例：单颗昇腾910C芯片的BF16性能仅为GB200模组的约三分之一，但通过超节点集群方式，单个CloudMatrix 384集群的BF16总性能反而是NVL72的1.7倍，总内存容量为后者3.6倍，总内存带宽为后者2.1倍。

报告指出，通过Switch tray多芯片方案，国产交换芯片带宽代际相对落后的问题亦可得到有效弥补。

据玉渊谭天援引的数据，2025年国产AI芯片的国内市场份额已达到约41%。

模型端同样有新进展——DeepSeek-V4模型适配昇腾芯片后，实现了高吞吐、低时延的推理部署；智谱GLM-5宣布完成与7家主流国产芯片平台的深度适配。

东方证券指出，在互联协议层面，国产生态布局亦在提速：

华为于2025年9月发布并开放灵衢（UB）2.0技术规范，支持从机柜级向数据中心级的多维度扩展；

中国移动牵头、包括盛科通信等48家单位参与的OISA Gen2.0协议，支持AI芯片数量提升至1024张，带宽突破TB/s级别；

海光、阿里、字节跳动亦分别发布HSL、ALS、EthLink等自研互联协议，开放Scale up生态持续丰富。

五大变化趋势，产业链受益路径清晰

东方证券报告梳理出超节点时代的五大产业变化趋势。

首先是，交换芯片需求量价齐升。

超节点机柜内新增Scale up域，驱动交换机及交换芯片用量大幅增加。

以Rubin NVL72为例，相比Blackwell，随着GPU带宽翻倍，单机柜交换芯片用量从18颗提升至36颗。

报告还指出，伴随集群规模扩展、引入二级HBD域，交换芯片需求或将进一步倍增。

其次，液冷成为刚需，全液冷时代渐进。当单机柜总功耗达到50KW以上时，液冷成为必选方案。

GB200 NVL72单机柜功耗已达120KW，华为CloudMatrix 384和阿里磐久2.0均采用风液混合方案。

更新一代的Vera Rubin NVL72机柜将正式采用100%全液冷，交换机芯片、DPU、光模块等全面搭配液冷散热模组，机柜外侧CDU散热量将迈入MW级。

第三则是服务器ODM价值重估。

超节点服务器使厂商从过去L10级别的服务器组装交付，提升至L11整机柜级甚至L12多机柜级制造交付，参与环节从Computer tray延伸至Switch tray、网络互联、供电与制冷系统集成，准入门槛大幅提高。

华勤技术预计2026年全年超节点项目收入将超过百亿元；浪潮信息发布元脑SD200超节点，实现64路国产AI芯片高速统一互连；百度旗下昆仑芯256/512超节点将分别于2026年上下半年上市。

第四，光互连与PCB背板需求新增。

计算节点与交换节点之间的高速互联，在64或128 XPU规模内以铜缆为首选，综合成本约为光互联方案的二分之一。

超出128 XPU后，正交背板方案信号损耗更低、结构稳固，适合高密架构；更大规模超节点集群则需引入OCS（光电路交换）设备，进一步支持Dragonfly+或3D Torus等拓扑扩展。

最后是供电架构重构，PSU及HVDC需求提升。

超节点采用"机房级高压直供→机柜级母线传输→节点级精准降压"的三级集中供电架构，PSU逐步从3.3KW向5.5KW、18.3KW升级，对应Powershelf提升至33KW乃至110KW。

随着机柜功率迈入MW级，数据中心供电架构有望加速向高压直流（HVDC）和固态变压器（SST）转型。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。