特斯拉AI负责人首次揭秘FSD自动驾驶方法论:为什么我们选择端到端?

特斯拉正在用「端到端」的神经网络,把自动驾驶这件事变成一个纯粹的AI问题,而不是一个需要无数工程师写规则的工程学问题。他们认为,行业主流的把感知、预测、规划拆开做的「模块化」老路子不仅笨重,而且天花板明显,端到端AI模型才是自动驾驶正解。

10月25日,特斯拉AI负责人阿肖克·埃卢斯瓦米(Ashok Elluswamy)在X上发布长文,揭秘了特斯拉FSD的技术方法论,信息量非常大。

简单来说,特斯拉正在用「端到端」的神经网络,把自动驾驶这件事变成一个纯粹的AI问题,而不是一个需要无数工程师写规则的工程学问题。

他们认为,行业主流的把感知、预测、规划拆开做的「模块化」老路子不仅笨重,而且天花板明显,端到端AI模型才是自动驾驶正解。

稿件重点如下:

  • 核心路线之争:为什么必须是「端到端」?
    行业主流方案是“感知、预测、规划”三件套,各模块独立工作再拼起来,特斯拉认为斯拉认为这种方式接口复杂、难以优化。而「端到端」AI模型直接“看”到像素,“吐出”驾驶指令,一步到位,整个系统可以被整体优化。这不仅是为了解决驾驶问题,更是为了在AI的「苦涩教训」面前,站在可规模化扩展的正确一侧。

  • AI如何处理“人性”难题?
    现实驾驶充满了“是碾过水坑,还是借道逆行”这样的「迷你电车难题」。这种需要权衡利弊的微妙决策,很难用代码写死,但通过学习海量的人类驾驶数据,AI能潜移默化地学会符合人类价值观的驾驶策略。

  • AI能读懂“弦外之音”
    FSD能分清「一群想要过马路的鸡」和「一群只想在路边闲逛的鹅」,从而做出不同决策。这种对“潜在意图”的理解,在模块化系统里很难传递,但端到端模型可以在其“潜在空间”里轻松理解和处理。

  • 数据洪流淹没「维度诅咒」
    FSD每秒要处理来自摄像头、地图、音频等高达20亿个输入信息,并瞬间决策,压缩成2个指令(转向和加速)。解决这个难题的唯一武器,就是特斯拉车队每天产生的、相当于500年驾驶时长的「数据尼亚加拉大瀑布」,通过智能筛选,用最精华的数据喂养AI。

  • “大力出奇迹”的效果:预判你的预判
    海量数据训练出了惊人的泛化能力。在一个雨天路滑的案例中,FSD在事故发生前5秒就开始减速,因为它预判到前车失控后会「撞墙反弹」回到自己车道。这种对「二阶效应」的提前预判,是传统方案难以企及的。

  • 打开AI“黑箱”的两把钥匙
    为了解决端到端模型难以调试和解释的问题,特斯拉让模型在输出驾驶指令的同时,也输出可供理解的“中间结果”。文中提到了两招:

    1. 视觉重建:利用「生成式高斯泼溅」技术,在220毫秒内,根据摄像头视频实时生成周围环境的动态3D模型,让工程师能“看见”AI眼中的世界。

    2. 语言解释:训练AI用自然语言来解释自己的行为。一个小型化的语言推理模型,其实已经在FSD v14.x版本中运行了。

  • 最难的挑战是“评估”
    模型跑分再高也没用,真实世界的评测才是最难的。为此,特斯拉开发了一个「神经世界模拟器」。这个模拟器本身也是一个强大的AI,能实时生成以假乱真的虚拟世界。它不仅能复现历史数据,还能创造各种极端的事故场景,对FSD进行“地狱模式”的压力测试。本质上,特斯拉为FSD造了一个超现实的“驾驶游戏”,让它在里面7x24小时不间断地“打怪升级”。

  • 这套技术栈的终极目标:一套AI,通吃所有
    这套方法论不仅适用于汽车,还能无缝迁移到特斯拉的「擎天柱」人形机器人上。文章展示了模拟器已经可以生成擎天柱在工厂里导航的画面,证明了其技术的通用性,最终目标是解决现实世界的通用人工智能问题。

附注:Ashok Elluswamy是特斯拉的AI软件副总裁,负责特斯拉的人工智能业务。他于2024年晋升至现职,此前曾任自动驾驶软件总监。自2022年起,他直接向马斯克汇报工作,曾参与特斯拉自动驾驶系统的早期开发。

原文如下:

【特斯拉的自动驾驶方法】

本周,我有幸在国际计算机视觉大会(International Conference of Computer Vision)上,代表@Tesla_AI团队展示了我们近期的部分工作成果。在这篇演讲的精简版中,我们将探讨特斯拉解决自动驾驶问题所采用方法的一些核心要点。

如许多人所知,特斯拉利用一个端到端(end-to-end)的神经网络来实现自动驾驶。这个端到端神经网络接收来自多个摄像头的像素信息、车辆的运动学信号(如车速)、音频、地图和导航信息,并最终输出驱动汽车的控制指令。

为什么是端到端?

尽管特斯拉坚信端到端神经网络的路线,但这绝非实现自动驾驶的业界共识。大多数其他研发自动驾驶的实体采用的是一种依赖大量传感器、模块化的方法。虽然这类系统在初期可能更易于开发和调试,但其系统本身存在诸多复杂性。与这个基线相比,端到端方法具备多项优势,仅举几例:

  • 将人类价值观进行编码是极其困难的。 从数据中学习这些价值观则要容易得多。

  • 感知、预测和规划之间的接口定义不清。 在端到端网络中,梯度可以从控制端一直流向传感器输入端,从而对整个网络进行整体优化。

  • 可轻松扩展,以处理现实世界机器人技术中的胖尾和长尾问题。

  • 具有确定性延迟的同构计算。

  • 总体而言,在扩展方面,这遵循了“惨痛教训”(the bitter lesson)的正确指引。

以下几个例子可以说明这一点。

示例 1:

在下面的例子中,AI需要决策是碾过一个大水坑,还是驶入对向车道。通常情况下,驶入对向车道会非常糟糕,并具有潜在危险。然而,在这种情况下,车辆有足够的视野可以判断,在可预见的未来不会有对向来车。其次,那个水坑相当大,最好是避开。这样的权衡取舍很难用传统的编程逻辑写下来,而对于一个观察该场景的人类来说,这却相当直接。

经典的“电车难题”(trolley problem)通常被认为是一个自动驾驶汽车极少会遇到的罕见问题。然而,事实恰恰相反。自动驾驶汽车时刻都在面临如上所示的“微型电车难题”。通过对人类数据的训练,机器人能够学习到与人类价值观相符的价值观。

示例 2:

在“感知”和“规划”这两个模块化单元之间,很难建立一个清晰的接口。在下面两个片段中,一个场景里鸡群想要过马路,而另一个场景里鹅群只是想待在原地。要在这些模块化单元之间为此创建一个本体论(ontology)是相当困难的。这种“柔性意图”最好是以一种端到端的、潜在的方式(latent fashion)来传递。

基于所有这些以及更多的原因,特斯拉采用了端到端的架构来实现自动驾驶。话虽如此,要构建这样一个系统,仍有许多挑战需要克服。接下来我们将讨论其中的几个挑战。

1. 维度诅咒(Curse of dimensionality)

要在真实世界中安全运行,需要处理高帧率、高分辨率、长上下文的输入。如果我们对“输入令牌(input token)”的大小做一个合理的假设,比如一个5x5像素的图像块,我们最终将得到如下数量的令牌:

  • 7个摄像头 x 36 FPS x 500万像素 x 30秒历史数据 / (5x5像素图像块)

  • 未来几英里的导航地图和路线

  • 100赫兹的运动学数据,如速度、惯性测量单元(IMU)、里程计等

  • 48千赫兹的音频数据

这相当于大约20亿个输入令牌。神经网络需要学习正确的因果映射,将这20亿个令牌减少到2个令牌——即车辆的下一个转向和加速指令。要从中学习到正确的因果关系,而不学习到虚假相关性,是一个极其棘手的问题。

幸运的是,特斯拉凭借其庞大的车队,拥有如尼亚加拉大瀑布般的海量数据。整个车队每天总共能产生相当于500年驾驶时长的里程数据。并非所有数据都有价值,也不可能接收所有数据。因此,特斯拉使用复杂的数据引擎流水线来筛选最有趣、最多样化和最高质量的数据样本。下面是这类数据的一小部分示例。

如果你用这样的数据进行训练,你将获得对极端案例(corner cases)极强的泛化能力,而这是用其他方法难以实现的。这里有一个例子,展示了AI模型如何学会主动规避一次潜在的碰撞。视频中令人印象深刻的是,AI在第5秒左右就做出了反应,而那时情况还远未明朗到会升级为碰撞。AI需要理解到:外面在下毛毛雨,前车可能正在失控打滑,它可能会撞上护栏然后反弹回自车的行驶路径上,因此现在就应该谨慎刹车。只有一个能力极强的AI系统,才能如此提前地预测到这类二阶效应(second order effects)。

2. 可解释性与安全保证(Interpretability and safety guarantees)

当车辆行为不符合预期时,调试这样一个端到端系统可能会很困难。在实践中,这并不是一个大问题,因为模型同样可以产生可解释的中间令牌(intermediate tokens)。根据情况,这些中间令牌也可用作推理令牌(reasoning tokens)。

其中一项任务就是特斯拉的“生成式高斯溅射”(Generative Gaussian Splatting)。虽然3D高斯溅射技术近年来在计算机视觉领域取得了长足的进步,但它依赖于大基线(large baseline)的相机视角才能获得良好性能。不幸的是,典型的车辆运动轨迹是相当线性的,运行传统的高斯溅射会导致重建质量很差,尤其是在新颖视角(novel viewpoints)下。这些3D高斯溅射也需要来自其他流水线的良好初始化,并且总优化时间可能长达数十分钟。

相比之下,特斯拉的生成式高斯溅射具有出色的泛化能力,运行时间约220毫秒,不需要初始化,可以为动态物体建模,并且可以与端到端AI模型进行联合训练。值得注意的是,所有这些高斯函数(gaussians)都是基于量产车配置的摄像头生成的。

除了3D几何结构,系统还可以结合视频溯源(video grounding),用自然语言进行推理。一个小型版本的推理模型已经在FSD v14.x版本中运行。

3. 评估(Evaluation)

最后一个也是最困难的挑战是评估。即使拥有高质量的数据集,开环预测(open-loop predictions)的损失(loss)也可能与真实世界中的优异表现并不相关。评估过程需要多样化且具备模式覆盖(mode covering),以便实现快速的开发迭代。这项工作是繁琐的,需要投入巨大的努力才能在评估指标中获得高信噪比(signal-to-noise ratio)。

正因如此,在特斯拉,我们开发了一个神经世界模拟器(neural world simulator)。这个模拟器使用我们筛选出的同样的海量数据集进行训练。然而,它并非预测给定状态下的行动,而是根据当前状态和下一步行动来合成(synthesizes)未来状态。然后,这可以与智能体(agent)或策略AI模型连接起来,以闭环方式(closed-loop fashion)运行,从而评估性能。

这个世界模拟器完全由特斯拉训练,用于生成车辆的所有摄像头和其他传感器数据。它是因果的(causal),并能响应驾驶策略模型的指令。它运行速度快,同时能够合成高分辨率、高帧率和高质量的传感器数据。

这里是一个该神经模拟器模型长达一分钟的推演(rollout)示例。

【视频内容描述:完全由AI生成的模拟驾驶视频,持续一分多钟。顶部是前置摄像头视角,中间是侧视,底部是后视。画面逼真,光影、车辆动态和环境细节都高度模拟了真实世界。】

这种模拟可用于对照历史数据来验证新的驾驶模型。

【视频内容-描述:从同一个真实视频片段(绿色小方框标出)开始,模拟器根据新模型输出的一系列不同动作,推演出两条完全不同但都符合物理逻辑的未来轨迹。】

此外,我们还可以人工合成新的对抗性场景(adversarial scenarios),以测试额外的极端情况。

【视频内容描述:从同一个初始视频开始,模拟器中的一辆背景车被设定为以对抗性的方式行事(例如突然切入),以测试FSD模型的应对能力。】

通过调整测试时计算资源(test-time compute)的用量,同一个模型可以实时模拟世界。下面是一个例子,一个人能够驾驶超过6分钟,期间所有8个摄像头的画面(每秒24帧)完全由一个神经网络实时合成。你可以注意到,即使在如此长的生成时间内,细节也相当逼真。

【视频内容描述:一个类似驾驶游戏的演示。】

关于以上所有要点,最棒的一点是,它们不仅解决了车辆的自动驾驶问题,还能无缝迁移到特斯拉的人形机器人——擎天柱(Optimus)上。这里是一个迁移的例子。

同样的视频生成模型也适用于在特斯拉超级工厂中导航的擎天柱机器人。

【视频内容描述1:展示了在神经世界模拟器中,一个擎天柱机器人在虚拟的特斯拉工厂环境中行走和执行任务。】

【视频内容描述2:擎天柱的不同动作能够被准确地反映在世界模拟器中,展示了模拟器对机器人行为的精确响应。】

显然,以上所有的视频生成技术不仅限于评估。它可以被用来进行大规模的闭环强化学习(reinforcement learning),以达到超越人类的表现(superhuman performance)。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章