2025OCP算力大会:超节点“Scale Up”是全场焦点

大摩认为,OCP算力大会上从AMD发布的超宽Helios机柜,到旨在颠覆供电格局的800V直流电源架构,再到谷歌的2兆瓦液冷单元,所有技术突破都围绕着一个共同目标——构建规模更大、功率更高、能效更优的吉瓦级AI数据中心。

本文作者:鲍奕龙

来源:硬AI

2025年OCP全球峰会传递出明确信号,“Scale Up”(规模化扩展)架构已成为AI数据中心基础设施建设的核心主题。

10月20日摩根士丹利亚太团队发表研报,指出为了满足AI对算力永无止境的需求,整个行业正全力冲向更大规模、更高密度的“Scale Up”(规模化扩展)架构。

研报指出,投资焦点需从通用服务器组件转向能够支持超节点架构的核心技术供应商。本次大会明确指出了四大技术趋势与关键受益者:

  • 更大机柜:AMD Helios超宽机柜架构亮相,推动机柜内组件升级,纬创(Wistron)和纬颖(Wiwynn)成为主要受益者。
  • 更高功率:800V直流(VDC)供电方案成为下一代标准,将颠覆数据中心供配电架构,台达电子(Delta)和贸联(BizLink)处于领先地位。
  • 更强冷却:2兆瓦级(2MW)液冷分配单元(CDU)成为焦点,其中谷歌的Deschutes方案备受瞩目。
  • 更快网络:为AI优化的以太网(ESUN)和CPO交换机技术崭露头角,智邦科技(Accton)等网络设备商将迎来升级机遇。

总而言之,整个行业都在为未来数年内即将到来的吉瓦级AI数据中心集群做准备,能够提供更高密度、更高效率解决方案的公司将在下一轮增长中占据核心位置。

双倍宽度机架开启Scale Up新时代

“Scale Up”(规模化扩展)是为实现更高密度的单节点算力,而这正让机柜形态发生革命性变化。

AMD联合Meta、纬颖等厂商共同推出了Helios机柜。其关键特征是采用了ORW(Open Rack Wide)规格,宽度是传统ORV3机柜(21英寸)的两倍。

当前高性能芯片的浮点运算性能(FLOPs)密度极高,为了在低延迟环境下连接更多计算核心,必须将它们置于同一扩展域(scale-up domain)内。

在当前铜线连接的技术限制下,这只能通过更大的背板或中板实现,从而催生了更大的机柜。

Meta认为未来必须实现解耦合,虽然短期内机架功率密度将继续增加,但最终会因光学技术的应用而下降,摆脱铜互连的限制。

Helios机架将于2026年下半年开始出货,主要客户包括Meta、甲骨文和OpenAI。

根据供应链调查,纬颖是Meta的主要ODM合作伙伴,而纬创是GPU模块、基板和交换机托盘的主要ODM合作伙伴,大多数PCB需要M9级CCL材料。

同时,这种超宽重型机柜对机箱、导轨等机械部件提出了更高要求,利好勤诚(Chenbro)和川湖(King Slide)等供应商。

800伏直流电源架构引领下一代高效千兆瓦AI工厂

随着机柜功率密度飙升,传统供电架构已难以为继。800V直流(VDC)供电方案成为全场焦点,它被视为驱动下一代吉瓦级AI工厂的关键技术。

与传统50V架构相比,800V直流方案能在同等规格的铜缆上传输超过150%的电力,并能将电源使用效率(PUE)提升约5%。

具体进展来看,台达电子已展出成熟的解决方案,包括1.2MW的固态变压器(SST,已量产,3MW以上正在设计中)、800V电子保险丝(eFuse)、90kW的DC-DC电源架和12kW的配电板

预计新方案将使每瓦功率的供电价值比当前设计翻倍以上。贸联(BizLink)等电源互连供应商也将因液冷母线等更严苛规格的需求而受益。

研报表示800V直流方案预计将于2027年下半年随英伟达的Rubin Ultra平台首次亮相。

大规模液冷系统成为焦点

散热是决定算力能否稳定输出的生命线。大会展示的技术路径十分清晰,从当前混合散热向全液冷演进。具体来看:

GB300现状: 已进入量产的GB300计算托盘采用的是混合散热方案(85%液冷/15%风冷),每个计算托盘仅有6组快换接头(QD)。良率已不再是市场担忧的重点。

VR200前瞻: 下一代VR200平台将是完全液冷,每个计算托盘的快换接头将增至14组。目前已进入机柜级生产和测试阶段,预计2026年第三季度末交付。

CDU大型化: 谷歌开源了其2兆瓦(MW)冷却液分配单元(CDU)设计,支持高达80 PSI的压力,为高阶冷板设计提供可能。BOYD、酷冷至尊、台达电子和英维克均展示了相关产品。

报告援引Promersion的预测,尽管冷板技术在2030年前仍将是市场主流,但浸没式液冷的拐点预计将在2028年出现。

网络技术持续优化以应对AI需求

除了在节点内部规模化扩展(Scale Up)的解决办法外,节点之间提升高速互联(Scale Out)也是发挥AI集群性能的关键。

研报指出为提升网络性能而推出的以太网解决方案(ESUN)以及CPO交换机,已被广泛应用于Al数据网络的优化中。

然而,这些产品的可靠性、可维护性以及成本问题,依然是影响其广泛应用的关键因素。具体进展来看:

  • 智邦和天弘均展示了基于博通Tomahawk 6 ASIC的最新1.6T网络交换机产品,预计将在2026年底或2027年初开始早期应用。智邦还展示了基于Tomahawk 6 ASIC和IRIS光波长交换机的CPO交换机概念验证。
  • Meta公布的研究结果显示,其51.2T CPO(共封装光学)交换机的年化链路故障率(ALFR)仅为0.34%,远优于可插拔光模块的1.58%,可靠性优势明显,但成本和可维护性仍是普及的关键。
  • 与此同时,有源电缆(AEC)作为一种高性价比的方案正在崛起,在扩展网络(Scale-out)中份额不断提升。Meta的GB300机柜就采用了AEC,这一趋势预计将持续利好贸联等供应商。

总而言之,2025年OCP全球峰会释放了一个极其明确的信号。AI基础设施的军备竞赛已进入“巨型化”阶段,规模化扩展成为贯穿全场的核心主题。

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章