马斯克详解:xAI如何在122天内搭建上线10万张卡训练集群

瓦砾村夫
马斯克讲述自建数据中心、冷却等问题,为了缓冲电力波动还重新编程了特斯拉的Megapack。Jimmy Ba 谈 GPU 协同训练难点,Igor Babuschki 强调确保集群健康和训练细节正确的重要性。

昨天中午,埃隆·马斯克领衔主持了万众期待的“地表最强人工智能”——Grok 3的发布会。

他与xAI的首席工程师Igor Babuschkin、联合创始人Jimmy Ba、Yuhuai "Tony" Wu共同亮相,详细介绍了Grok 3的核心特点,包括其显著提升的推理能力、自然语言处理能力以及新推出的“Deep Search”(深度搜索)工具。这一工具被设计用来处理复杂的查询,能够整合网络搜索和X平台上的实时信息,为用户提供更精准、深入的回答。

在回答最后一个观众提问时,埃隆介绍了xAI团队如何创下另一个工程奇迹:克服重重困难,在短短122天内,搭建并上线了10万张卡的全球最大训练集群。

观众提问:

在这个项目(Grok 3)中,最困难的部分是什么?你对此感到兴奋的是什么?

Jimmy Ba:

回想起来,我认为最困难的部分是让整个模型在10万个H100 GPU上协调训练,这几乎就像在与宇宙的最终BOSS——熵——作斗争。因为在任何时候,都有可能射下来一根宇宙射线,翻转晶体管中的一个比特,如果梯度更新中有一个比特出错,整个梯度更新就会乱套。

而现在我们有10万个这样的GPU,每次我们都必须让它们协同工作,任何时候任何一个GPU都可能出问题。

Jimmy Ba,华人,多伦多大学助理教授,人工智能先驱杰弗里·辛顿(Geoffrey Hinton)的学生,xAI团队创始12员工之一

埃隆·马斯克:

是的,值得分解一下,我们是如何在122天内让世界上最强大的训练集群投入运行的。

一开始,我们其实并没有打算自己建数据中心。我们去找了数据中心提供商,问他们在一个地方协调运行10万个GPU需要多长时间。他们给出的时间范围是18到24个月。我们想,18到24个月,这意味着失败是必然的。

所以唯一的办法就是自己动手。

于是,我们分解了这个问题。比如我们需要一栋建筑,我们不能自己建,必须使用现有的建筑。所以我们基本上寻找了一些被废弃、但本身状况良好的工厂,比如因为某家公司破产了之类的。

我们在孟菲斯找到了一家伊莱克斯工厂。这就是为什么它在孟菲斯——猫王的故乡,也是古埃及的首都之一。

这其实是一座非常不错的工厂,我不知道伊莱克斯为什么离开了,但它为我们的计算机提供了庇护所。

然后,我们需要电力,最初至少需要120兆瓦,但建筑本身只有15兆瓦。而最终为了20万个GPU,我们需要0.25吉瓦的电力。

我们最初租了一大堆发电机。在建筑的一侧,我们有一排排的发电机,直到我们能够接入公用电力。

然后,我们还需要冷却。所以在建筑的另一侧,我们有一排排的冷却设备。我们租用了美国大约四分之一的移动冷却能力。

然后,我们需要安装所有的GPU,它们都是液冷的。为了实现必要的密度,这是一个液冷系统。所以我们必须为液冷系统安装所有的管道。没有人曾经大规模地搭建过液冷的数据中心。

这是一个非常才华横溢的团队付出了极大的努力才能实现的结果。

你可能会想,现在应该可以跑起来了吧?

不。问题是GPU集群的电力波动非常剧烈,这就像一场巨大的交响乐。想象一下,一场有10万或20万人参与的交响乐,整个乐团会在100毫秒内从安静变到响亮。这导致了巨大的电力波动,进而导致发电机失控,它们从没预料到这种情况。

为了缓冲电力,我们使用了特斯拉的Megapack来平滑电力。Megapack必须重新编程,于是xAI与特斯拉合作,我们重新编程了Megapack,让它能够应对这些剧烈的电力波动,平滑电力,以便计算机能够正常运行。

这个方法奏效了,虽然过程相当复杂。

运抵孟菲斯的特斯拉Megapack

但即使到了那个时候,我们仍然必须让所有计算机有效地通信,所有的网络问题都必须解决。我们调试了无数的网络电缆,凌晨四点钟还在调试网卡问题,我们大约在凌晨4点20分解决了问题。

我们发现有很多问题,其中之一是BIOS不匹配。

Igor Babuschki:

没错,BIOS没有正确设置。我们必须在两台不同的机器之间比较lspci命令(注:一个Linux命令,用于列出系统中所有PCI设备)的输出。一台工作正常,一台不正常。还有很多其他问题。

埃隆·马斯克:

是的,没错。如果我们真的列出所有问题,会需要很长的时间。但这很有趣,这并不是说,哦,我们神奇地做到了。

我们必须像Grok在推理时那样,将问题分解成各个组成部分,然后解决每个组成部分,以便在比其他人短得多的时间内完成一个协调的训练集群。

Igor Babuschki:

然后,一旦训练集群启动并运行,可以交付使用,我们就必须确保它在整个过程中保持健康,这本身就是一个巨大的挑战。

然后,我们必须确保训练的每一个细节都正确,才能得到一个Grok 3级别的模型,这其实非常非常困难。

我们不知道是否有其他模型具备Grok 3的能力,但任何训练出比Grok 3更好的模型的人,都必须在深度学习的科学和工程的各个方面都非常出色。

要做到这一点并不容易。

 

来源:瓦砾村夫,原文标题:《马斯克详解:xAI如何在122天内搭建上线10万张卡训练集群》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章