深入探秘全球最大AI超级集群xAI Colossus

Andy730

2024/11/02 09:47

这个总投资数亿美元、配备十万片NVIDIA H100 GPU的AI计算集群，不仅以其规模令业界瞩目，其建设速度更是创下记录——其团队仅用122天就完成了整个集群的部署。

xAI Colossus 数据中心概况

一、GPU计算系统

GPU：Colossus目前部署了10万个NVIDIA Hopper GPU，并计划扩展至20万个，其中包括5万个H100和5万个H200。所有GPU都集成在NVIDIA HGX H100平台上，每个平台包含8个GPU。

机架配置：每个机架可容纳64个GPU，8个机架组成一个阵列，共计512个GPU。Colossus共有超过1500个机架，接近200个阵列。

服务器：超微4U通用GPU液冷系统。服务器内部结构包括：

8-GPU NVIDIA HGX托盘：采用超微定制液冷模块，每个托盘包含8个NVIDIA H100或Hopper GPU以及NVIDIA NVLink交换机。

CPU托盘：配备两个x86 CPU液冷块和一个用于冷却四个Broadcom PCIe交换机的定制液冷块。

可维护性：超微系统采用可维护托盘设计，无需将整机从机架上移除即可进行维护。每个服务器配备了四个热插拔电源。

网络：每个服务器配备9个400GbE网络连接，总带宽达到3.6Tbps。其中8个NVIDIA BlueField-3 SuperNIC用于AI网络，另外1个Mellanox ConnectX-7网卡提供CPU端的其他网络功能。

二、CPU计算系统

服务器：超微1U服务器，每机架42台。

CPU：采用高速x86 CPU，具体型号未知。

网络：每个服务器配备一个400GbE网卡。

散热：CPU服务器采用风冷设计，通过机架后部的热交换器将热量传递到液冷回路中。

三、存储系统

规模：EB级存储。

介质：NVMe SSD。

服务器：超微1U服务器。

特点：为满足AI训练对存储容量的巨大需求，Colossus的存储主要通过网络交付，供所有GPU和CPU服务器访问。

四、网络系统

GPU网络：

技术：采用400GbE以太网，使用NVIDIA Spectrum-X网络解决方案，支持RDMA技术。

交换机：NVIDIA Spectrum-X SN5600以太网交换机，每个交换机拥有64个端口，支持高达800Gb/s的速度，并可分割成128个400GbE链路。

网卡：NVIDIA BlueField-3 SuperNIC，为每个GPU提供专用网络连接。

存储网络：采用400GbE以太网，使用64端口800GbE以太网交换机。

特点：Colossus的网络系统采用以太网而非InfiniBand等技术，这主要是因为以太网具有更好的可扩展性，能够满足Colossus庞大的规模需求。GPU网络和CPU网络分离，以确保高性能计算集群的最佳性能。

五、冷却系统

GPU服务器：

散热方式：液冷散热。

CDU：每个机架底部配备超微CDU和冗余泵系统。

冷却液循环：冷却液通过机架分配管道进入每个服务器的分配器，再流经服务器内部的8-GPU NVIDIA HGX托盘和CPU托盘的液冷块，最终回到CDU。

其他：机架中仍保留了风扇系统，用于冷却内存、电源单元、主板管理控制器、网卡等低功耗组件。

CPU服务器、网络设备和存储系统：风冷散热，通过机架后部的热交换器将热量传递到液冷回路中。热交换器类似于汽车散热器，通过风扇将热空气抽过散热片，并将热量传递给循环水。

机房：采用冷水循环系统，CDU将热量传递到循环水中，热水在设施外部冷却后循环利用。庞大的供水管道将冷水引入设施，并循环流经每个机架中的CDU，吸收热量后，热水被引导至设施外部的冷却设备。

六、电力系统

供电：采用三相电源，每个机架配备多个电源条。

储能：使用特斯拉Megapack电池组作为超级计算机和电网之间的能量缓冲器，每个Megapack可存储高达3.9MWh的电能。Megapack的引入是为了解决GPU服务器功耗波动对电网造成的压力。

七、其他

监控系统：每个机架的CDU都有独立的监控系统，可以监控流量、温度等参数。此外，机架后部配备LED指示灯，用于显示设备状态，蓝色代表正常运行，红色表示故障。

xAI Colossus数据中心计算大厅

通过对xAI Colossus超级计算机的深度探访，我们近距离感受到了xAI公司在田纳西州孟菲斯部署的大规模AI算力所带来的震撼。

这个总投资数亿美元、配备十万片NVIDIA H100 GPU的AI计算集群，不仅以其规模令业界瞩目，其建设速度更是创下记录——其团队仅用122天就完成了整个集群的部署。现在，让我们一起走进这座设施内部。

xAI的液冷机架技术

Colossus计算集群的核心构建单元是超微（Supermicro）的液冷机架系统。每个机架集成了八台4U服务器，单台服务器搭载八片NVIDIA H100 GPU，使单机架总GPU容量达到64片。一个完整的GPU计算机架由八台GPU服务器、一个超微冷却分配单元（Cooling Distribution Unit, CDU）及配套设备组成。

xAI Colossus数据中心超微液冷节点低角度

这些机架以八台为一组部署，每组可支持512片GPU，并配备网络互联设施，以便在更大规模系统中形成计算子集群。

xAI Colossus数据中心超微4U通用GPU液冷服务器

xAI采用的是超微的4U通用GPU系统，这是当前市面上最先进的AI计算服务器，其优势主要体现在两个方面：领先的液冷技术和卓越的可维护性。

xAI Colossus数据中心超微4U通用GPU液冷服务器

这些系统的原型首次亮相于2023年超级计算大会（SC23）。由于我们参观时系统正在执行训练任务，未能在孟菲斯现场开箱展示。值得一提的是，系统采用了可服务化托盘设计，无需将整机从机架移除即可进行维护。1U机架分配管道负责为每个系统输送冷却液并回收热液。快速断开接头使得液冷系统的拆装变得简便，去年我们就演示过单手操作这些接头的便利性。断开接头后，托盘可轻松抽出进行维护。

超微4U通用GPU系统，用于液冷的NVIDIA HGX H100和HGX 200（展示于SC23）

这些服务器原型的图片资料，可以展示系统内部结构。除了采用超微定制液冷模块的8-GPU NVIDIA HGX托盘外，CPU托盘的设计充分展现了行业领先的下一代工程理念。

超微4U通用GPU系统，用于液冷的NVIDIA HGX H100和HGX 200（展示于SC23）

SC23原型中的两个x86 CPU液冷块相当常见。独特之处在于右侧。超微的主板集成了四个Broadcom PCIe交换机，这些交换机几乎用于当今所有的HGX AI服务器，而不是将它们放在单独的板上。超微然后有一个定制的液冷块来冷却这四个PCIe交换机。行业中的其他AI服务器是先构建，然后将液冷添加到风冷设计中。超微的设计从一开始就是为液冷设计的，并且全部来自一个供应商。

超微SYS 821GE TNHR，NVIDIA H100和NVSwitch液冷模块

这可以类比汽车领域：有些电动车是在传统燃油车底盘上改装而成，而有些则是原生设计的纯电动车。超微的系统属于后者，而其他HGX H100系统则类似前者。我们实际测试过大多数公开的HGX H100/H200平台和一些超大规模设计，超微系统的优势相较其他系统（包括超微自己的其他液冷或风冷设计）显著可见。

机架后部设有400GbE光纤，用于GPU和CPU组件的互联，以及用于管理网络的铜缆。网络接口卡（Network Interface Card, NIC）采用独立托盘设计，可在不拆卸机箱的情况下快速更换，安装位置在机箱后部。每台服务器配备四个热插拔电源，由三相配电单元（PDU）供电。

xAI Colossus数据中心超微4U通用GPU液冷服务器后视图

机架底部安装有冷却分配单元（CDU），这些CDU实际上是大型热交换器。每个机架都有独立的流体循环系统，为所有GPU服务器提供冷却。这里使用"流体"而非"水"，是因为循环系统需要根据液冷块、管道、分配器等硬件特性选用特定的冷却液。

xAI Colossus数据中心超微CDU位于机架底部

每个CDU配备冗余泵和电源，支持单泵故障时在不停机的情况下进行更换。

拆卸超微CDU泵

xAI的机架功能丰富，在2023年的相关视频中，我们详细展示了超微CDU的结构，包括机房水路和机架分配管道的进出水接口，以及每个CDU的热插拔冗余电源。

超微CDU 2023后视图

Colossus机架中的CDU被各种管线和线缆遮挡着。

xAI Colossus数据中心超微CDU后视图

机架两侧配备三相PDU和机架分配管道。前置的1U分配管道为4U通用GPU系统供液，该分配管道则由连接CDU的机架分配管道供给。所有组件采用红蓝配色标识，红色表示热流体回路，蓝色表示冷流体供给。

xAI Colossus数据中心超微机架分配器软管

机架中仍保留了风扇系统，用于冷却内存（DIMM）、电源单元、主板管理控制器（BMC）、网卡等低功耗组件。在Colossus中，每个机架需要保持冷却平衡，避免使用大功率空气处理设备。服务器风扇从前部吸入冷空气，从后部排出，随后经过后门热交换器处理。

xAI 数据中心参观后门热交换器

后门热交换器的原理类似汽车散热器，将机架排出的热空气通过带散热片的热交换器处理。热交换器中的流体可将热量转移至机房水路系统。空气通过设备后部的风扇抽入。这些设备具有LED指示功能，正常运行时显示蓝光，需要维护时会转为其他颜色（如红色）。

在施工现场参观时，虽然我没有开启几台机架，但看到这些热交换器在机架上线时呈现出不同的颜色变化，还是觉得非常有意思。

xAI 数据中心参观后门热交换器

这些后门热交换器在数据中心中扮演着双重角色：不仅处理超微液冷GPU服务器的余热，还可以处理存储系统、CPU计算集群和网络设备产生的热量。

xAI的存储系统

在典型的AI计算集群中，大型存储阵列是标配。在此项目中，虽然运行着来自不同厂商的存储软件，但绝大部分存储服务器硬件均由超微提供。这很好理解，因为超微是多家存储设备供应商的OEM。

xAI Colossus数据中心超微1U NVMe存储节点

实地考察时一个引人注目的细节是，部分存储服务器的外观与CPU计算服务器极为相似。

xAI Colossus数据中心超微1U NVMe存储节点

从我们的图片和视频记录可以看到大量2.5英寸NVMe硬盘托架。大规模AI计算集群正在经历从机械硬盘存储向闪存存储（SSD）的转型。闪存存储不仅能显著降低能耗，还能提供更高的性能和存储密度。虽然每PB闪存的初始投入较高，但从TCO角度来看，在此规模的集群中，闪存通常是更具经济效益的选择。

xAI的CPU计算系统

在大规模计算集群中，传统CPU计算节点依然占据重要位置。相比GPU，CPU在数据处理和操作任务方面仍具独特优势。此外，将GPU资源专注于AI训练或推理（Training/Inference）工作负载，而由CPU承担其他计算任务，是一种更为高效的资源分配策略。

xAI Colossus数据中心CPU计算机架

在项目现场，我们看到了整排的1U服务器。每台服务器的设计都在计算密度和散热需求之间达到了精妙的平衡。以机箱正面为例，约三分之一的面板用于冷空气进气，其余部分则布置了带有橙色标识的NVMe硬盘托架。

xAI Colossus数据中心CPU计算机架

这些1U计算服务器采用风冷设计，通过后门热交换器（Rear Door Heat Exchanger）将热量转移至机房水冷系统（Facility Water Loop）。这种设计使得xAI能够在同一数据中心基础设施中，同时兼容液冷和风冷设备的散热需求。

xAI的网络

网络是此项目最为引人关注的部分之一。虽然基础技术仍是以太网（Ethernet），与普通电脑使用的网络协议相同，但这里采用的是400GbE网络，其传输速率是常见1GbE网络的400倍。每个系统配备九个这样的连接，使单台GPU计算服务器的总带宽达到惊人的3.6Tbps。

xAI Colossus数据中心网卡（NIC）

GPU的数据传输主要依赖于RDMA网络。每个GPU都配备专用网卡，项目采用NVIDIA BlueField-3 SuperNIC和Spectrum-X网络解决方案。NVIDIA的网络技术栈具有独特优势，能确保数据在集群内高效精准地传输。

xAI Colossus数据中心交换机光纤

值得注意的是，与多数采用InfiniBand等技术的超级计算机不同，此项目选择了以太网。这一选择极具战略意义——以太网作为互联网的基础协议，具有卓越的可扩展性。当今规模庞大的AI集群已经超出了许多复杂专有技术的覆盖范围，xAI团队在这方面做出了富有远见的尝试。

除GPU的RDMA网络外，CPU系统也配备了独立的400GbE网络，使用完全不同的交换架构。这种GPU网络与普通集群网络分离的设计，是高性能计算（HPC）集群中的最佳实践。

xAI Colossus数据中心单模和多模光纤

为了直观理解400GbE的性能，单条链路的带宽就超过了2021年初发布的顶级Intel Xeon服务器处理器的全部PCIe通道总和，而每台服务器配备了九条这样的连接。

xAI Colossus数据中心交换机堆叠

如此密集的网络互联需要大量光纤布线。每条光纤都经过精确切割、端接处理和标识管理。

xAI Colossus数据中心光纤布线

我8月份遇到了一些从事这项工作的人员。他们的结构化布线总是做得非常整洁。

xAI Colossus数据中心光纤布线

除高速集群网络外，设施还部署了用于管理接口和环境设备的低速网络，这是大规模集群的必备组成部分。

在实地考察中，液冷网络交换机的需求显而易见。我们最近评测的64端口800GbE交换机，其性能与多数AI集群使用的51.2T级交换机相当。行业面临的挑战是如何同时解决交换芯片和光学组件的散热问题，后者在现代交换机中的功耗往往更高。这样规模的部署或许能推动协同封装光学（Co-packaged Optics）技术的发展，使交换机冷却能与液冷计算系统完美集成。我们此前见过液冷协同封装光学交换机的原型展示，期待本次部署能促进这些技术从实验走向量产。

xAI Colossus的机房设施

由于我们采用液冷的AI服务器机架，电力和设施用水对于安装至关重要。这里展示了庞大的供水管道，分为冷水和热水两组。冷水被引入设施，并循环流经每个机架中的冷却液分配单元（CDU）。热量从GPU和后门热交换器回路传递至CDU的设施用水回路。热水随后被引导至设施外部的冷却设备。值得注意的是，这些冷却设备并非用于制冰，而是旨在将水温降低至足以再次循环利用的程度。

xAI Colossus数据中心设施用水管道

电力系统同样引人注目。在我们孟菲斯之行中，目睹了团队将巨大的电缆搬入到位。

xAI Colossus数据中心的电气基础设施

在机房设施外，我们看到了装载特斯拉Megapack的集装箱。这是团队在建设这个庞大集群过程中的一项重要发现。AI服务器的电力消耗并非恒定，而是会随工作负载的波动而变化。由于现场部署了大量GPU，电力峰谷现象十分明显。团队发现，毫秒级的电力峰值和低谷对系统造成了显著压力，因此引入特斯拉Megapack以缓冲电力峰值，从而提高系统的稳定性。

准备在xAI Colossus安装的特斯拉Megapack

当然，这仅仅是设施建设的开始。尽管在我们访问时，四个25,000 GPU数据中心的初始集群已投入使用，能够支持约100,000个GPU，但集群的扩展工作正在快速推进。

在孟菲斯xAI Colossus数据中心的外部

这无疑是一个令人振奋的开端。

总结

在这个过程中，我深刻体会到，xAI团队在协调众多供应商方面付出了巨大努力。如此庞大的AI集群的建成，离不开各领域专家的通力合作，他们以令人难以置信的速度共同创造了一个奇迹。如果仅从我拍摄视频的那天所见，很难想象背后凝聚了如此多的心血。

AI社区普遍认为，随着计算能力的不断提升，大语言模型（LLMs）的潜力将远不止于聊天机器人。漫步在Colossus中，我深切感受到，只有当人们看到了数据驱动的巨大价值，才会投入如此巨大的资源进行建设。Grok和xAI团队的未来无疑将超越简单的聊天机器人。众多才智之士正倾注大量心血和财力，力争尽快实现这一愿景。

来源：Andy730，原文标题：《深入探秘全球最大AI超级集群xAI Colossus》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

深入探秘全球最大AI超级集群xAI Colossus

一、GPU计算系统

二、CPU计算系统

三、存储系统

四、网络系统

五、冷却系统

六、电力系统

七、其他

SpaceX与Cursor最快本周三发布联合AI模型，剑指Opus 4.8及GPT-5.5

当Meta开始卖算力

马斯克买下“一束光”，硅谷巨头们也坐不住了

“AI教父”最新警告：马斯克的xAI已经“失败了”，AI行业或迎“泡沫大爆炸”

马斯克麾下最惨打工人：手滑删掉xAI三周训练数据