深入探秘全球最大AI超级集群xAI Colossus

Andy730
这个总投资数亿美元、配备十万片NVIDIA H100 GPU的AI计算集群,不仅以其规模令业界瞩目,其建设速度更是创下记录——其团队仅用122天就完成了整个集群的部署。

xAI Colossus 数据中心概况

一、GPU计算系统

GPU:Colossus目前部署了10万个NVIDIA Hopper GPU,并计划扩展至20万个,其中包括5万个H100和5万个H200。所有GPU都集成在NVIDIA HGX H100平台上,每个平台包含8个GPU。

机架配置:每个机架可容纳64个GPU,8个机架组成一个阵列,共计512个GPU。Colossus共有超过1500个机架,接近200个阵列。

服务器:超微4U通用GPU液冷系统。服务器内部结构包括:

8-GPU NVIDIA HGX托盘:采用超微定制液冷模块,每个托盘包含8个NVIDIA H100或Hopper GPU以及NVIDIA NVLink交换机。

CPU托盘:配备两个x86 CPU液冷块和一个用于冷却四个Broadcom PCIe交换机的定制液冷块。

可维护性:超微系统采用可维护托盘设计,无需将整机从机架上移除即可进行维护。每个服务器配备了四个热插拔电源。

网络:每个服务器配备9个400GbE网络连接,总带宽达到3.6Tbps。其中8个NVIDIA BlueField-3 SuperNIC用于AI网络,另外1个Mellanox ConnectX-7网卡提供CPU端的其他网络功能。

二、CPU计算系统

服务器:超微1U服务器,每机架42台。

CPU:采用高速x86 CPU,具体型号未知。

网络:每个服务器配备一个400GbE网卡。

散热:CPU服务器采用风冷设计,通过机架后部的热交换器将热量传递到液冷回路中。

三、存储系统

规模:EB级存储。

介质:NVMe SSD。

服务器:超微1U服务器。

特点:为满足AI训练对存储容量的巨大需求,Colossus的存储主要通过网络交付,供所有GPU和CPU服务器访问。

四、网络系统

GPU网络:

技术:采用400GbE以太网,使用NVIDIA Spectrum-X网络解决方案,支持RDMA技术。

交换机:NVIDIA Spectrum-X SN5600以太网交换机,每个交换机拥有64个端口,支持高达800Gb/s的速度,并可分割成128个400GbE链路。

网卡:NVIDIA BlueField-3 SuperNIC,为每个GPU提供专用网络连接。

存储网络:采用400GbE以太网,使用64端口800GbE以太网交换机。

特点:Colossus的网络系统采用以太网而非InfiniBand等技术,这主要是因为以太网具有更好的可扩展性,能够满足Colossus庞大的规模需求。GPU网络和CPU网络分离,以确保高性能计算集群的最佳性能。

五、冷却系统

GPU服务器:

散热方式:液冷散热。

CDU:每个机架底部配备超微CDU和冗余泵系统。

冷却液循环:冷却液通过机架分配管道进入每个服务器的分配器,再流经服务器内部的8-GPU NVIDIA HGX托盘和CPU托盘的液冷块,最终回到CDU。

其他:机架中仍保留了风扇系统,用于冷却内存、电源单元、主板管理控制器、网卡等低功耗组件。

CPU服务器、网络设备和存储系统:风冷散热,通过机架后部的热交换器将热量传递到液冷回路中。热交换器类似于汽车散热器,通过风扇将热空气抽过散热片,并将热量传递给循环水。

机房:采用冷水循环系统,CDU将热量传递到循环水中,热水在设施外部冷却后循环利用。庞大的供水管道将冷水引入设施,并循环流经每个机架中的CDU,吸收热量后,热水被引导至设施外部的冷却设备。

六、电力系统

供电:采用三相电源,每个机架配备多个电源条。

储能:使用特斯拉Megapack电池组作为超级计算机和电网之间的能量缓冲器,每个Megapack可存储高达3.9MWh的电能。Megapack的引入是为了解决GPU服务器功耗波动对电网造成的压力。

七、其他

监控系统:每个机架的CDU都有独立的监控系统,可以监控流量、温度等参数。此外,机架后部配备LED指示灯,用于显示设备状态,蓝色代表正常运行,红色表示故障。

xAI Colossus数据中心计算大厅

通过对xAI Colossus超级计算机的深度探访,我们近距离感受到了xAI公司在田纳西州孟菲斯部署的大规模AI算力所带来的震撼。

这个总投资数亿美元、配备十万片NVIDIA H100 GPU的AI计算集群,不仅以其规模令业界瞩目,其建设速度更是创下记录——其团队仅用122天就完成了整个集群的部署。现在,让我们一起走进这座设施内部。

xAI的液冷机架技术

Colossus计算集群的核心构建单元是超微(Supermicro)的液冷机架系统。每个机架集成了八台4U服务器,单台服务器搭载八片NVIDIA H100 GPU,使单机架总GPU容量达到64片。一个完整的GPU计算机架由八台GPU服务器、一个超微冷却分配单元(Cooling Distribution Unit, CDU)及配套设备组成。

xAI Colossus数据中心超微液冷节点低角度

这些机架以八台为一组部署,每组可支持512片GPU,并配备网络互联设施,以便在更大规模系统中形成计算子集群。

xAI Colossus数据中心超微4U通用GPU液冷服务器

xAI采用的是超微的4U通用GPU系统,这是当前市面上最先进的AI计算服务器,其优势主要体现在两个方面:领先的液冷技术和卓越的可维护性。

xAI Colossus数据中心超微4U通用GPU液冷服务器

这些系统的原型首次亮相于2023年超级计算大会(SC23)。由于我们参观时系统正在执行训练任务,未能在孟菲斯现场开箱展示。值得一提的是,系统采用了可服务化托盘设计,无需将整机从机架移除即可进行维护。1U机架分配管道负责为每个系统输送冷却液并回收热液。快速断开接头使得液冷系统的拆装变得简便,去年我们就演示过单手操作这些接头的便利性。断开接头后,托盘可轻松抽出进行维护。

超微4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX 200(展示于SC23)

这些服务器原型的图片资料,可以展示系统内部结构。除了采用超微定制液冷模块的8-GPU NVIDIA HGX托盘外,CPU托盘的设计充分展现了行业领先的下一代工程理念。

超微4U通用GPU系统,用于液冷的NVIDIA HGX H100和HGX 200(展示于SC23)

SC23原型中的两个x86 CPU液冷块相当常见。独特之处在于右侧。超微的主板集成了四个Broadcom PCIe交换机,这些交换机几乎用于当今所有的HGX AI服务器,而不是将它们放在单独的板上。超微然后有一个定制的液冷块来冷却这四个PCIe交换机。行业中的其他AI服务器是先构建,然后将液冷添加到风冷设计中。超微的设计从一开始就是为液冷设计的,并且全部来自一个供应商。

超微SYS 821GE TNHR,NVIDIA H100和NVSwitch液冷模块

这可以类比汽车领域:有些电动车是在传统燃油车底盘上改装而成,而有些则是原生设计的纯电动车。超微的系统属于后者,而其他HGX H100系统则类似前者。我们实际测试过大多数公开的HGX H100/H200平台和一些超大规模设计,超微系统的优势相较其他系统(包括超微自己的其他液冷或风冷设计)显著可见。

机架后部设有400GbE光纤,用于GPU和CPU组件的互联,以及用于管理网络的铜缆。网络接口卡(Network Interface Card, NIC)采用独立托盘设计,可在不拆卸机箱的情况下快速更换,安装位置在机箱后部。每台服务器配备四个热插拔电源,由三相配电单元(PDU)供电。

xAI Colossus数据中心超微4U通用GPU液冷服务器后视图

机架底部安装有冷却分配单元(CDU),这些CDU实际上是大型热交换器。每个机架都有独立的流体循环系统,为所有GPU服务器提供冷却。这里使用"流体"而非"水",是因为循环系统需要根据液冷块、管道、分配器等硬件特性选用特定的冷却液。

xAI Colossus数据中心超微CDU位于机架底部

每个CDU配备冗余泵和电源,支持单泵故障时在不停机的情况下进行更换。

拆卸超微CDU泵

xAI的机架功能丰富,在2023年的相关视频中,我们详细展示了超微CDU的结构,包括机房水路和机架分配管道的进出水接口,以及每个CDU的热插拔冗余电源。

超微CDU 2023后视图

Colossus机架中的CDU被各种管线和线缆遮挡着。

xAI Colossus数据中心超微CDU后视图

机架两侧配备三相PDU和机架分配管道。前置的1U分配管道为4U通用GPU系统供液,该分配管道则由连接CDU的机架分配管道供给。所有组件采用红蓝配色标识,红色表示热流体回路,蓝色表示冷流体供给。

xAI Colossus数据中心超微机架分配器软管

机架中仍保留了风扇系统,用于冷却内存(DIMM)、电源单元、主板管理控制器(BMC)、网卡等低功耗组件。在Colossus中,每个机架需要保持冷却平衡,避免使用大功率空气处理设备。服务器风扇从前部吸入冷空气,从后部排出,随后经过后门热交换器处理。

xAI 数据中心参观后门热交换器

后门热交换器的原理类似汽车散热器,将机架排出的热空气通过带散热片的热交换器处理。热交换器中的流体可将热量转移至机房水路系统。空气通过设备后部的风扇抽入。这些设备具有LED指示功能,正常运行时显示蓝光,需要维护时会转为其他颜色(如红色)。

在施工现场参观时,虽然我没有开启几台机架,但看到这些热交换器在机架上线时呈现出不同的颜色变化,还是觉得非常有意思。

xAI 数据中心参观后门热交换器

这些后门热交换器在数据中心中扮演着双重角色:不仅处理超微液冷GPU服务器的余热,还可以处理存储系统、CPU计算集群和网络设备产生的热量。

xAI的存储系统

在典型的AI计算集群中,大型存储阵列是标配。在此项目中,虽然运行着来自不同厂商的存储软件,但绝大部分存储服务器硬件均由超微提供。这很好理解,因为超微是多家存储设备供应商的OEM。

xAI Colossus数据中心超微1U NVMe存储节点

实地考察时一个引人注目的细节是,部分存储服务器的外观与CPU计算服务器极为相似。

xAI Colossus数据中心超微1U NVMe存储节点

从我们的图片和视频记录可以看到大量2.5英寸NVMe硬盘托架。大规模AI计算集群正在经历从机械硬盘存储向闪存存储(SSD)的转型。闪存存储不仅能显著降低能耗,还能提供更高的性能和存储密度。虽然每PB闪存的初始投入较高,但从TCO角度来看,在此规模的集群中,闪存通常是更具经济效益的选择。

xAI的CPU计算系统

在大规模计算集群中,传统CPU计算节点依然占据重要位置。相比GPU,CPU在数据处理和操作任务方面仍具独特优势。此外,将GPU资源专注于AI训练或推理(Training/Inference)工作负载,而由CPU承担其他计算任务,是一种更为高效的资源分配策略。

xAI Colossus数据中心CPU计算机架

在项目现场,我们看到了整排的1U服务器。每台服务器的设计都在计算密度和散热需求之间达到了精妙的平衡。以机箱正面为例,约三分之一的面板用于冷空气进气,其余部分则布置了带有橙色标识的NVMe硬盘托架。

xAI Colossus数据中心CPU计算机架

这些1U计算服务器采用风冷设计,通过后门热交换器(Rear Door Heat Exchanger)将热量转移至机房水冷系统(Facility Water Loop)。这种设计使得xAI能够在同一数据中心基础设施中,同时兼容液冷和风冷设备的散热需求。

xAI的网络

网络是此项目最为引人关注的部分之一。虽然基础技术仍是以太网(Ethernet),与普通电脑使用的网络协议相同,但这里采用的是400GbE网络,其传输速率是常见1GbE网络的400倍。每个系统配备九个这样的连接,使单台GPU计算服务器的总带宽达到惊人的3.6Tbps。

xAI Colossus数据中心网卡(NIC)

GPU的数据传输主要依赖于RDMA网络。每个GPU都配备专用网卡,项目采用NVIDIA BlueField-3 SuperNIC和Spectrum-X网络解决方案。NVIDIA的网络技术栈具有独特优势,能确保数据在集群内高效精准地传输。

xAI Colossus数据中心交换机光纤

值得注意的是,与多数采用InfiniBand等技术的超级计算机不同,此项目选择了以太网。这一选择极具战略意义——以太网作为互联网的基础协议,具有卓越的可扩展性。当今规模庞大的AI集群已经超出了许多复杂专有技术的覆盖范围,xAI团队在这方面做出了富有远见的尝试。

除GPU的RDMA网络外,CPU系统也配备了独立的400GbE网络,使用完全不同的交换架构。这种GPU网络与普通集群网络分离的设计,是高性能计算(HPC)集群中的最佳实践。

xAI Colossus数据中心单模和多模光纤

为了直观理解400GbE的性能,单条链路的带宽就超过了2021年初发布的顶级Intel Xeon服务器处理器的全部PCIe通道总和,而每台服务器配备了九条这样的连接。

xAI Colossus数据中心交换机堆叠

如此密集的网络互联需要大量光纤布线。每条光纤都经过精确切割、端接处理和标识管理。

xAI Colossus数据中心光纤布线

我8月份遇到了一些从事这项工作的人员。他们的结构化布线总是做得非常整洁。

xAI Colossus数据中心光纤布线

除高速集群网络外,设施还部署了用于管理接口和环境设备的低速网络,这是大规模集群的必备组成部分。

在实地考察中,液冷网络交换机的需求显而易见。我们最近评测的64端口800GbE交换机,其性能与多数AI集群使用的51.2T级交换机相当。行业面临的挑战是如何同时解决交换芯片和光学组件的散热问题,后者在现代交换机中的功耗往往更高。这样规模的部署或许能推动协同封装光学(Co-packaged Optics)技术的发展,使交换机冷却能与液冷计算系统完美集成。我们此前见过液冷协同封装光学交换机的原型展示,期待本次部署能促进这些技术从实验走向量产。

xAI Colossus的机房设施

由于我们采用液冷的AI服务器机架,电力和设施用水对于安装至关重要。这里展示了庞大的供水管道,分为冷水和热水两组。冷水被引入设施,并循环流经每个机架中的冷却液分配单元(CDU)。热量从GPU和后门热交换器回路传递至CDU的设施用水回路。热水随后被引导至设施外部的冷却设备。值得注意的是,这些冷却设备并非用于制冰,而是旨在将水温降低至足以再次循环利用的程度。

xAI Colossus数据中心设施用水管道

电力系统同样引人注目。在我们孟菲斯之行中,目睹了团队将巨大的电缆搬入到位。

xAI Colossus数据中心的电气基础设施

在机房设施外,我们看到了装载特斯拉Megapack的集装箱。这是团队在建设这个庞大集群过程中的一项重要发现。AI服务器的电力消耗并非恒定,而是会随工作负载的波动而变化。由于现场部署了大量GPU,电力峰谷现象十分明显。团队发现,毫秒级的电力峰值和低谷对系统造成了显著压力,因此引入特斯拉Megapack以缓冲电力峰值,从而提高系统的稳定性。

准备在xAI Colossus安装的特斯拉Megapack

当然,这仅仅是设施建设的开始。尽管在我们访问时,四个25,000 GPU数据中心的初始集群已投入使用,能够支持约100,000个GPU,但集群的扩展工作正在快速推进。

在孟菲斯xAI Colossus数据中心的外部

这无疑是一个令人振奋的开端。

总结

在这个过程中,我深刻体会到,xAI团队在协调众多供应商方面付出了巨大努力。如此庞大的AI集群的建成,离不开各领域专家的通力合作,他们以令人难以置信的速度共同创造了一个奇迹。如果仅从我拍摄视频的那天所见,很难想象背后凝聚了如此多的心血。

AI社区普遍认为,随着计算能力的不断提升,大语言模型(LLMs)的潜力将远不止于聊天机器人。漫步在Colossus中,我深切感受到,只有当人们看到了数据驱动的巨大价值,才会投入如此巨大的资源进行建设。Grok和xAI团队的未来无疑将超越简单的聊天机器人。众多才智之士正倾注大量心血和财力,力争尽快实现这一愿景。

来源:Andy730,原文标题:《深入探秘全球最大AI超级集群xAI Colossus》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章