Dojo--马斯克的“无人驾驶”豪赌

硬AI
科技媒体TechCrunch报道称,Dojo计划的核心是特斯拉的专有D1芯片,这意味着特斯拉将来可能不必依赖英伟达的芯片,低成本就可以获取大量算力。预计今年年底前,Dojo1将实现与约8000块H100等效的在线训练。

本文作者:李笑寅

来源:硬AI

Dojo超级计算机对特斯拉的重要性正在与日俱增。

对于马斯克来说,Dojo不仅仅是特斯拉用来在云端训练自动驾驶模型的超级计算机,实际上,它已经成为马斯克商业帝国下AI业务的基石。

大摩此前甚至将Dojo比喻为“特斯拉的AWS”,认为其将成为特斯拉未来最大的价值驱动因素。

在马斯克宏伟的AI蓝图中,Dojo到底起到怎样的作用?当地时间周六上午,科技媒体TechCrunch记者Rebecca Bellan发布深度报道《Tesla Dojo: Elon Musk’s big plan to build an AI supercomputer, explained》,以Dojo为出发点,详细解释了马斯克的AI计划。

以下是文章亮点:

1、特斯拉的纯视觉路径(仅依靠摄像头而非传感器来捕捉数据)是其需要超级计算机的主要原因。

2、特斯拉的目标是在接下来的大约18个月内实现“半特斯拉AI硬件,半英伟达/其他”,“其他”可能是AMD芯片。

3、Dojo计划的核心是特斯拉的专有D1芯片,这意味着特斯拉将来可能不必依赖英伟达的芯片,低成本就可以获取大量算力。

4、Dojo芯片是特斯拉的保险单,可能会带来红利。

5、预计到今年10月,Dojo的总算力将达到100 exaflops,约等于320500块英伟达 A100 GPU的算力水平;预计今年年底前,Dojo1将实现与约8000块H100等效的在线训练。

文章全文如下:

多年来,埃隆·马斯克一直在谈论Dojo——这是将成为特斯拉人工智能雄心基石的人工智能超级计算机。这个项目对马斯克来说非常重要,他最近表示,随着特斯拉准备在10月公布其robotaxi,公司的人工智能团队将“加倍发力”推进Dojo项目。

但Dojo究竟是什么?它对特斯拉的长期战略为何如此关键?

简而言之:Dojo是特斯拉定制构建的超级计算机,旨在训练其“全自动驾驶”的神经网络。提升Dojo与特斯拉实现全自动驾驶并将robotaxi推向市场的目标密切相关。FSD目前在大约200万辆特斯拉汽车上,可以执行一些自动化驾驶任务,但仍然需要人类在驾驶座保持注意力。

特斯拉将原定于8月公布其robotaxi的时间推迟到了10月,但无论是马斯克的公开言论还是特斯拉内部的消息源都告诉我们,自动驾驶的目标并未消失。

特斯拉似乎正准备在人工智能和Dojo上投入巨资以实现这一壮举。

特斯拉Dojo背后的故事

马斯克不希望特斯拉仅仅是一家汽车制造商,或不仅仅是太阳能电池板和能源存储系统的提供商。相反,他希望特斯拉成为一家人工智能公司,一家通过模仿人类感知来破解自动驾驶汽车代码的公司。

大多数其他开发自动驾驶汽车技术的公司都依赖传感器的组合来感知世界(比如激光雷达、雷达和摄像头)以及高清晰度地图来定位车辆。特斯拉相信,它可以仅依靠摄像头来捕捉视觉数据,然后使用先进的神经网络来处理这些数据,并快速决定汽车应该如何表现。

正如特斯拉前人工智能主管Andrej Karpathy在2021年该公司的首次AI Day上所说,公司基本上正在尝试“从头开始构建一个合成生物”。(马斯克自2019年以来一直在预告Dojo,但特斯拉在AI Day正式宣布了它。)

像Alphabet的Waymo这样的公司,已经通过更传统的传感器和机器学习方法,实现了4级自动驾驶汽车的商业化——SAE将其定义为在特定条件下无需人类干预即可自行驾驶的系统。而特斯拉至今还未生产出一个不需要人类参与的自动驾驶系统。

大约有180万人为特斯拉的FSD支付了高昂的订阅费,目前其价格为8000美元,最高时定价为15000美元。推销的点是,经过Dojo训练的人工智能软件最终将通过隔空更新推送给特斯拉客户。FSD的规模也意味着特斯拉已经能够收集到数百万英里的视频片段,用于训练FSD。这意味着,特斯拉能够收集的数据越多,这家汽车制造商就越接近实现真正的全自动驾驶。

然而,一些行业专家表示,简单地向模型投入更多数据并期望它变得更聪明的方法可能存在局限性。

“首先,存在经济限制,这样做很快就会变得成本过高,”普渡大学硅谷电子与计算机工程教授Anand Raghunathan对TechCrunch表示。他进一步说,“有声音说我们实际上可能会耗尽有意义数据来训练模型。更多的数据并不一定意味着更多的信息,所以这取决于那些数据是否包含有用信息来创建一个更好的模型,以及训练过程是否能够真正将这些信息提炼成更好的模型。”

Raghunathan说,尽管有这些疑虑,但至少在短期内,数据似乎会更多。更多的数据意味着需要更多的算力来存储和处理,以训练特斯拉的AI模型。这就是超级计算机Dojo的用武之地。

什么是超级计算机?

Dojo是特斯拉设计的超级计算机系统,用作人工智能,特别是FSD的训练场。这个名字是对武术练习道场的致敬。

超级计算机由数千台称为节点的小型计算机组成。这些节点各自拥有自己的CPU(中央处理单元)和GPU(图形处理单元)。前者负责节点的总体管理,后者则处理复杂的事情,比如将任务分割成多个部分并同时进行处理。GPU对机器学习操作至关重要,就像它们支持FSD训练模拟一样。它们还支持大型语言模型,这就是为什么生成式AI的崛起使得英伟达成为地球上最有价值的公司。

甚至特斯拉也购买英伟达的GPU来训练其人工智能(这是后话)。

为什么特斯拉需要超级计算机?

特斯拉的纯视觉路径是其需要超级计算机的主要原因。FSD背后的神经网络是在大量驾驶数据上训练的,以识别和分类车辆周围的物体,然后做出驾驶决策。这意味着当FSD启动时,神经网络必须连续不断地收集和处理视觉数据,速度要与人类深度和速度识别能力相匹配。

换句话说,特斯拉想要创造一个数字版的人类视觉皮层和大脑功能。

为了达到这个目标,特斯拉需要存储和处理从世界各地的汽车收集的所有视频数据,并运行数百万次模拟来训练其模型上的数据。

特斯拉似乎依赖英伟达为其当前Dojo训练计算机提供动力,但它不想把所有鸡蛋放在一个篮子里——尤其是因为英伟达芯片价格昂贵。特斯拉还希望制造出更好的东西,增加带宽并减少延迟。这就是为什么这家汽车制造商的AI部门决定提出自己的定制硬件计划,该计划旨在比传统系统更有效地训练AI模型。

该计划的核心是特斯拉的专有D1芯片,该公司表示这些芯片已针对AI工作负载进行了优化。

更多关于这些芯片的信息

特斯拉与苹果持有类似的观点,即认为硬件和软件应该被设计为一起工作。这就是为什么特斯拉正在努力摆脱标准GPU硬件、设计自己的芯片来驱动Dojo。

特斯拉在2021年的AI Day上展示了其D1芯片,这是一个手掌大小的硅方块。截至今年5月,D1芯片已经投入生产。中国台湾半导体制造公司台积电正在使用7纳米制程工艺制造这些芯片。根据特斯拉的说法,D1拥有500亿个晶体管和一个645平方毫米的大尺寸,这一切都在说D1承诺将非常强大和高效,并能够快速处理复杂任务。

“我们可以同时进行计算和数据传输,我们的定制ISA(指令集架构)完全针对机器学习工作负载进行了优化,”特斯拉前自动驾驶硬件高级总监甘尼什·文卡塔拉曼在2021年特斯拉AI Day上说。“这是一个纯粹的机器学习机器。”

尽管如此,D1芯片仍然不如英伟达的A100芯片强大,后者也是由台积电使用7纳米工艺制造的。A100拥有540亿个晶体管,尺寸为826平方毫米,所以在性能上略胜于特斯拉的D1。

为了获得更高的带宽和计算能力,特斯拉的AI团队将25个D1芯片融合在一起形成一个区块,作为一个统一的计算机系统。每个区块具有9 petaflops的计算能力和每秒36 TB的带宽,并包含电源、冷却和数据传输所需的所有硬件。你可以将这个区块想象成一个由25台小型计算机组成的自给自足的计算机。六个这样的区块组成一个机架,两个机架组成一个机柜。十个机柜组成一个ExaPOD。在2022年的AI Day上,特斯拉表示Dojo将通过部署多个ExaPODs来扩展。所有这些加在一起构成了超级计算机。

特斯拉还在开发下一代D2芯片,旨在解决信息流瓶颈问题。D2不是连接各个芯片,而是将整个Dojo块放置在单个硅片上。

特斯拉尚未确认它已订购或预计收货多少D1芯片,也还没有提供将Dojo超级计算机在D1芯片上运行所需的时间表。

6月在X上的一篇帖子称:“埃隆正在德克萨斯州建造一个巨大的GPU冷却器”,对此,马斯克回复说,特斯拉的目标是在接下来的大约18个月内实现“半特斯拉AI硬件,半英伟达/其他”。根据马斯克1月的评论,“其他”可能是AMD芯片

Dojo对特斯拉意味着什么?

控制自己的芯片生产意味着特斯拉有一天可能能够以低成本快速为人工智能培训项目添加大量计算能力,特别是在特斯拉和台积电扩大芯片生产规模的情况下。

这也意味着特斯拉将来可能不必依赖英伟达的芯片,这些芯片的价格越来越高,也越来越难以确保。

在特斯拉第二季度财报电话会议上,马斯克表示,对英伟达硬件的需求“如此之高,以至于通常很难获得GPU。”他说,他对能够稳定地在需要时获得GPU“相当担忧”,“因此我认为这需要我们在Dojo上投入更多的努力,以确保我们拥有所需的培训能力。”

话虽如此,特斯拉今天仍在购买英伟达芯片来训练其AI。6月,马斯克在X上发帖说:

“在我所说的特斯拉今年将进行的大约100亿美元与AI相关的支出中,大约一半是内部的,主要是特斯拉设计的AI推理计算机和我们所有汽车中存在的传感器,加上Dojo。对于构建AI培训超级集群,英伟达硬件大约占到成本的2/3。我目前对特斯拉今年购买英伟达的最佳猜测是30亿到40亿美元。”

推理计算指的是特斯拉汽车实时执行的AI计算,与Dojo负责的训练计算是分开的。

Dojo是一个冒险的赌注,马斯克通过多次表示特斯拉可能不会成功,以此来对冲这一赌注。

从长远来看,特斯拉理论上可以基于其AI部门创建一种新的商业模式。马斯克曾表示,Dojo的第一个版本将专门为特斯拉计算机视觉标记和培训量身定制,这对FSD和培训Optimus(特斯拉的仿人机器人)非常有利,但对其他事情没什么用处。

马斯克曾表示,Dojo的后续版本将更倾向于通用AI培训。与此相关的一个潜在问题是,几乎所有现有的AI软件都是为GPU编写的。使用Dojo来训练通用AI模型将需要重写软件。

除非特斯拉出租其算力,类似于AWS和Azure出租云计算能力的方式。马斯克在第二季度收益电话会议上还指出,他看到“通过Dojo与英伟达竞争的一条路”。

摩根士丹利在2023年9月的一份报告中预测,Dojo可以通过解锁robotaxi和软件服务的新收入流,为特斯拉市值增加5000亿美元。

简而言之,Dojo的芯片是这家汽车制造商的保险单,可能会带来红利。

Dojo进展如何?

路透社去年报道称,特斯拉于2023年7月开始生产Dojo,但马斯克在2023年6月的一篇文章中暗示,Dojo已经“在线并运行有用的任务几个月了。”

大约在同一时间,特斯拉表示,预计到2024年2月,Dojo将成为最强大的五台超级计算机之一——这一壮举尚未公开披露,让我们怀疑它是否已经发生。

该公司还预计,到2024年10月,Dojo的总算力将达到100 exaflops。(1 exaflop等于每秒1千万亿次计算机操作。要达到100 exaflops,假设一块D1能达到362 teraflops,特斯拉将需要超过276,000块D1,或大约320,500块英伟达 A100 GPU。)

特斯拉还在2024年1月承诺投资5亿美元,在纽约州布法罗的超级工厂建造一台Dojo超级计算机。

2024年5月,马斯克指出,特斯拉奥斯汀超级工厂的后部将保留用于“超密集的水冷超级计算机集群”。

就在特斯拉二季度财报电话会议后,马斯克在X上发帖称,这家汽车制造商的AI团队正在使用特斯拉HW4 AI计算机(更名为AI4),这是特斯拉汽车中的硬件,存在于英伟达GPU的训练循环中。他指出,细分大约是90,000个英伟达的H100加上40,000台AI4计算机。

他继续说:“Dojo1将在今年年底前实现与约8,000块H100等效的在线训练。不是很多,但也不少。”

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章