DeepSeek V4“寄予厚望”!国产算力“进攻的矛”--超节点

DeepSeek明确背书昇腾950超节点,国产算力正从"能用"迈向"好用",而超节点技术成为关键突破口。华为CloudMatrix 384通过集群方式,总性能反超英伟达NVL72达1.7倍,印证"以量取胜"路径可行。东方证券认为今年将是国产超节点规模放量元年,交换芯片、液冷、服务器ODM、供电系统等全链条有望深度受益。

国产算力正从"能用"迈向"好用",超节点技术成为弥合差距的关键支点。

华尔街见闻提及,4月24日,DeepSeek V4预览版发布,公司披露受限于高端算力供给,V4 Pro版本服务吞吐十分有限,预计下半年随华为昇腾950超节点批量上市后,Pro版本价格将大幅下调。

高盛研报指出,这一表态具有双重意涵:一是DeepSeek的成本竞争力将进一步强化;二是在芯片管制持续收紧的背景下,中国顶尖AI模型向国产算力迁移的趋势得到头部玩家的背书。

此前,国家发改委亦于2025年底的新闻发布会上罕见正面回应,称"超节点等集群互联技术发展,为国产算力赶上国际领先水平提供了良好机遇"。

在此背景下,东方证券发布电子行业深度报告,以"超节点:国产算力进攻的'矛'"为题,系统梳理超节点的技术逻辑、产业格局与投资机会,认为2026年将是国产超节点规模放量元年,交换芯片、服务器ODM、液冷、供电等全链条有望深度受益。

AI算力需求跃升,超节点成必然选择

大模型参数规模的持续膨胀,正将算力基础设施推入超节点时代。

东方证券报告指出,随着MoE(混合专家)架构成为新趋势,模型参数以每年约10倍的速度增长,已迈入十万亿级阶段——Qwen3-Max模型总参数超过1T,文心5.0参数量达2.4T。

与此对应,算力集群规模不断提升,万卡集群已成训练大模型的最低标配,十万卡级集群成为主流趋势。

Scaling Law的适用范围亦从预训练扩展至后训练和推理全流程。

据OpenAI介绍,在开发o3时训练计算和推理时间均增加了一个数量级,验证了模型性能会随思考次数持续提升。

DeepSeek则表示,对模型后训练强化学习持续投入算力,V3.2在后训练投入超过预训练成本的10%,推理性能已与GPT-5-high相似。

在分布式训练架构中,张量并行(TP)和混合专家并行(EP)对带宽需求最为突出。

随着MoE模型中跨服务器的All-to-All通信量急剧增长,传统以太网已难以承受千亿级模型单次梯度同步产生的TB级数据量。

超节点通过内部高速总线互连,有效打破"通信墙"与"内存墙"瓶颈,成为大规模训练与推理的最优解。

在推理侧,AI Agent的兴起亦大幅拉升词元Token消耗。据国家数据局数据,2026年3月中国日均AI Token使用量已突破140万亿,为2025年底的近四倍。

报告援引数据指出,超节点Blackwell NVL72相比H200 8卡服务器,单瓦每秒生成Token数量更高,推理性价比显著领先。

超节点以量取胜,国产集群弯道超车

东方证券报告的核心论断之一,是超节点架构为国产芯片提供了绕过单卡性能短板的有效路径。

以华为CloudMatrix 384与英伟达GB200 NVL72为例:单颗昇腾910C芯片的BF16性能仅为GB200模组的约三分之一,但通过超节点集群方式单个CloudMatrix 384集群的BF16总性能反而是NVL72的1.7倍,总内存容量为后者3.6倍,总内存带宽为后者2.1倍

报告指出,通过Switch tray多芯片方案,国产交换芯片带宽代际相对落后的问题亦可得到有效弥补

据玉渊谭天援引的数据,2025年国产AI芯片的国内市场份额已达到约41%。

模型端同样有新进展——DeepSeek-V4模型适配昇腾芯片后,实现了高吞吐、低时延的推理部署;智谱GLM-5宣布完成与7家主流国产芯片平台的深度适配。

东方证券指出,在互联协议层面,国产生态布局亦在提速:

  • 华为于2025年9月发布并开放灵衢(UB)2.0技术规范,支持从机柜级向数据中心级的多维度扩展;
  • 中国移动牵头、包括盛科通信等48家单位参与的OISA Gen2.0协议,支持AI芯片数量提升至1024张,带宽突破TB/s级别;
  • 海光、阿里、字节跳动亦分别发布HSL、ALS、EthLink等自研互联协议,开放Scale up生态持续丰富。

五大变化趋势,产业链受益路径清晰

东方证券报告梳理出超节点时代的五大产业变化趋势。

首先是,交换芯片需求量价齐升。

超节点机柜内新增Scale up域,驱动交换机及交换芯片用量大幅增加。

以Rubin NVL72为例,相比Blackwell,随着GPU带宽翻倍,单机柜交换芯片用量从18颗提升至36颗。

报告还指出,伴随集群规模扩展、引入二级HBD域,交换芯片需求或将进一步倍增。

其次,液冷成为刚需,全液冷时代渐进当单机柜总功耗达到50KW以上时,液冷成为必选方案。

GB200 NVL72单机柜功耗已达120KW,华为CloudMatrix 384和阿里磐久2.0均采用风液混合方案。

更新一代的Vera Rubin NVL72机柜将正式采用100%全液冷,交换机芯片、DPU、光模块等全面搭配液冷散热模组,机柜外侧CDU散热量将迈入MW级。

第三则是服务器ODM价值重估

超节点服务器使厂商从过去L10级别的服务器组装交付,提升至L11整机柜级甚至L12多机柜级制造交付,参与环节从Computer tray延伸至Switch tray、网络互联、供电与制冷系统集成,准入门槛大幅提高。

华勤技术预计2026年全年超节点项目收入将超过百亿元;浪潮信息发布元脑SD200超节点,实现64路国产AI芯片高速统一互连;百度旗下昆仑芯256/512超节点将分别于2026年上下半年上市。

第四,光互连与PCB背板需求新增

计算节点与交换节点之间的高速互联,在64或128 XPU规模内以铜缆为首选,综合成本约为光互联方案的二分之一。

超出128 XPU后,正交背板方案信号损耗更低、结构稳固,适合高密架构;更大规模超节点集群则需引入OCS(光电路交换)设备,进一步支持Dragonfly+或3D Torus等拓扑扩展。

最后是供电架构重构,PSU及HVDC需求提升

超节点采用"机房级高压直供→机柜级母线传输→节点级精准降压"的三级集中供电架构,PSU逐步从3.3KW向5.5KW、18.3KW升级,对应Powershelf提升至33KW乃至110KW。

随着机柜功率迈入MW级,数据中心供电架构有望加速向高压直流(HVDC)和固态变压器(SST)转型。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章