马斯克详解：xAI如何在122天内搭建上线10万张卡训练集群

瓦砾村夫

02/19 09:27

马斯克讲述自建数据中心、冷却等问题，为了缓冲电力波动还重新编程了特斯拉的Megapack。Jimmy Ba 谈 GPU 协同训练难点，Igor Babuschki 强调确保集群健康和训练细节正确的重要性。

昨天中午，埃隆·马斯克领衔主持了万众期待的“地表最强人工智能”——Grok 3的发布会。

他与xAI的首席工程师Igor Babuschkin、联合创始人Jimmy Ba、Yuhuai "Tony" Wu共同亮相，详细介绍了Grok 3的核心特点，包括其显著提升的推理能力、自然语言处理能力以及新推出的“Deep Search”（深度搜索）工具。这一工具被设计用来处理复杂的查询，能够整合网络搜索和X平台上的实时信息，为用户提供更精准、深入的回答。

在回答最后一个观众提问时，埃隆介绍了xAI团队如何创下另一个工程奇迹：克服重重困难，在短短122天内，搭建并上线了10万张卡的全球最大训练集群。

观众提问：

在这个项目（Grok 3）中，最困难的部分是什么？你对此感到兴奋的是什么？

Jimmy Ba：

回想起来，我认为最困难的部分是让整个模型在10万个H100 GPU上协调训练，这几乎就像在与宇宙的最终BOSS——熵——作斗争。因为在任何时候，都有可能射下来一根宇宙射线，翻转晶体管中的一个比特，如果梯度更新中有一个比特出错，整个梯度更新就会乱套。

而现在我们有10万个这样的GPU，每次我们都必须让它们协同工作，任何时候任何一个GPU都可能出问题。

Jimmy Ba，华人，多伦多大学助理教授，人工智能先驱杰弗里·辛顿（Geoffrey Hinton）的学生，xAI团队创始12员工之一

埃隆·马斯克：

是的，值得分解一下，我们是如何在122天内让世界上最强大的训练集群投入运行的。

一开始，我们其实并没有打算自己建数据中心。我们去找了数据中心提供商，问他们在一个地方协调运行10万个GPU需要多长时间。他们给出的时间范围是18到24个月。我们想，18到24个月，这意味着失败是必然的。

所以唯一的办法就是自己动手。

于是，我们分解了这个问题。比如我们需要一栋建筑，我们不能自己建，必须使用现有的建筑。所以我们基本上寻找了一些被废弃、但本身状况良好的工厂，比如因为某家公司破产了之类的。

我们在孟菲斯找到了一家伊莱克斯工厂。这就是为什么它在孟菲斯——猫王的故乡，也是古埃及的首都之一。

这其实是一座非常不错的工厂，我不知道伊莱克斯为什么离开了，但它为我们的计算机提供了庇护所。

然后，我们需要电力，最初至少需要120兆瓦，但建筑本身只有15兆瓦。而最终为了20万个GPU，我们需要0.25吉瓦的电力。

我们最初租了一大堆发电机。在建筑的一侧，我们有一排排的发电机，直到我们能够接入公用电力。

然后，我们还需要冷却。所以在建筑的另一侧，我们有一排排的冷却设备。我们租用了美国大约四分之一的移动冷却能力。

然后，我们需要安装所有的GPU，它们都是液冷的。为了实现必要的密度，这是一个液冷系统。所以我们必须为液冷系统安装所有的管道。没有人曾经大规模地搭建过液冷的数据中心。

这是一个非常才华横溢的团队付出了极大的努力才能实现的结果。

你可能会想，现在应该可以跑起来了吧？

不。问题是GPU集群的电力波动非常剧烈，这就像一场巨大的交响乐。想象一下，一场有10万或20万人参与的交响乐，整个乐团会在100毫秒内从安静变到响亮。这导致了巨大的电力波动，进而导致发电机失控，它们从没预料到这种情况。

为了缓冲电力，我们使用了特斯拉的Megapack来平滑电力。Megapack必须重新编程，于是xAI与特斯拉合作，我们重新编程了Megapack，让它能够应对这些剧烈的电力波动，平滑电力，以便计算机能够正常运行。

这个方法奏效了，虽然过程相当复杂。

运抵孟菲斯的特斯拉Megapack

但即使到了那个时候，我们仍然必须让所有计算机有效地通信，所有的网络问题都必须解决。我们调试了无数的网络电缆，凌晨四点钟还在调试网卡问题，我们大约在凌晨4点20分解决了问题。

我们发现有很多问题，其中之一是BIOS不匹配。

Igor Babuschki：

没错，BIOS没有正确设置。我们必须在两台不同的机器之间比较lspci命令（注：一个Linux命令，用于列出系统中所有PCI设备）的输出。一台工作正常，一台不正常。还有很多其他问题。

埃隆·马斯克：

是的，没错。如果我们真的列出所有问题，会需要很长的时间。但这很有趣，这并不是说，哦，我们神奇地做到了。

我们必须像Grok在推理时那样，将问题分解成各个组成部分，然后解决每个组成部分，以便在比其他人短得多的时间内完成一个协调的训练集群。

Igor Babuschki：

然后，一旦训练集群启动并运行，可以交付使用，我们就必须确保它在整个过程中保持健康，这本身就是一个巨大的挑战。

然后，我们必须确保训练的每一个细节都正确，才能得到一个Grok 3级别的模型，这其实非常非常困难。

我们不知道是否有其他模型具备Grok 3的能力，但任何训练出比Grok 3更好的模型的人，都必须在深度学习的科学和工程的各个方面都非常出色。

要做到这一点并不容易。

来源：瓦砾村夫，原文标题：《马斯克详解：xAI如何在122天内搭建上线10万张卡训练集群》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

马斯克详解：xAI如何在122天内搭建上线10万张卡训练集群

观众提问：

Jimmy Ba：

埃隆·马斯克：

Igor Babuschki：

埃隆·马斯克：

Igor Babuschki：

xAI联合创始人、总工程师宣布离职，称“奇点临近”

一文读懂GPT-5发布会｜价格屠夫、编程惊艳，新功能乏善可陈

汽车只是序章？马斯克勾勒特斯拉“终局”：机器人、AI、自动驾驶驱动30万亿美元帝国

马斯克“不惜一切砸芯片”！刚融完100亿，xAI又想让盟友再融120亿美元

马斯克推出AI虚拟男友“Valentine”，灵感来自《暮光之城》和《五十度灰》