马斯克表示,特斯拉Dojo AI训练计算机正在取得进展。
当地时间6月5日,马斯克在社交媒体上转发特斯拉AI帖子时回复称,特斯拉Dojo AI训练计算机正在取得进展,将于今年晚些时候上线Dojo 2。同时强调:
一项新技术需要经历三次重大迭代才能走向卓越。Dojo 2已经很好了,但Dojo 3一定会更出色。
特斯拉AI官方发文的内容是其最新的Dojo技术报告。特斯拉AI表示Dojo超级计算机正面临制造缺陷和老化导致的静默数据损坏(SDC)问题。与传统的系统崩溃不同,这些缺陷不会立即暴露,而是在训练过程中悄无声息地破坏数据完整性。
一个有缺陷的节点可能导致耗时数周的AI模型训练产生错误结果,或使收敛速度显著放缓。更致命的是,这些问题在模型训练完成后几乎无法检测——企业可能在不知情的情况下部署了基于损坏数据训练的AI系统。
此前华尔街见闻曾报道,Dojo是特斯拉设计的超级计算机系统,用作人工智能,特别是FSD的训练场。这个名字是对武术练习道场的致敬。
超级计算机由数千台称为节点的小型计算机组成。这些节点各自拥有自己的CPU(中央处理单元)和GPU(图形处理单元)。前者负责节点的总体管理,后者则处理复杂的事情,比如将任务分割成多个部分并同时进行处理。
8850个节点的监控挑战
Dojo的硬件架构复杂程度令人咋舌。
每个D1芯片包含354个以2D网格连接的节点,25个芯片组成5×5网格结构的训练瓦片(Training Tile),单个瓦片总计8850个节点。
每个节点配备1.25MB SRAM存储数据和代码,节点间无法直接访问彼此数据,必须通过远程加载指令和信号量等待机制通信。
这种架构设计虽然提供了强大的并行计算能力,但也为缺陷检测带来了前所未有的挑战——一旦模型训练完成,几乎不可能追溯发现问题所在。
这意味着特斯拉的工程师们必须在训练过程中实时监控每一个计算节点,任何疏漏都可能导致巨额投资打水漂。
传统的测试方法在如此大规模的节点网络中效率极低,迫使特斯拉开发了名为"Stress"的差分模糊测试工具。
差分模糊测试:在速度与准确性间博弈
面对制造缺陷和老化导致的静默数据损坏(SDC)的问题,特斯拉的解决方案经历了多次迭代优化。
初始版本采用单一随机指令序列分发给所有节点执行,整个过程耗时不到一秒,但每个节点仅执行约1MB代码,效率比理论峰值慢1000倍,大部分时间消耗在主机与瓦片间的通信上。
关键突破来自于算法的重新设计:创建8850个不同的负载程序,每个包含0.5MB指令,上传到对应节点。随后每个节点依次下载并执行来自其他所有节点的负载程序。
这种方法将大部分数据传输限制在瓦片内部,避开了主机-瓦片带宽瓶颈,使单次测试的指令执行量达到4.4GB。
为提高对已知缺陷的敏感性,特斯拉工程师发现了一个关键问题:如果缺陷指令的结果未被后续指令使用,测试将无法发现问题。
解决方案是每执行几百条指令就将寄存器状态异或到专用SRAM位置,这一改进将检测率提升了10倍,而性能影响微乎其微。
Stress工具目前已在特斯拉Dojo集群中部署用于常规现场监控。
测试数据显示,大多数缺陷需要执行1GB到100GB的载荷指令才能被首次发现,耗时仅需几秒到几分钟,但部分顽固缺陷可能需要1000GB以上的指令执行量,检测时间长达数小时。
特斯拉透露,其检测到的缺陷芯片比率与谷歌和Meta报告的数据相近,这暗示着整个行业都面临着类似的硬件可靠性挑战。