Jim Fan解读机器人“终局之战”：人类将在2040年彻底解锁“机器人技术树”

05/06 14:11

英伟达机器人负责人表示，机器人正在复制大语言模型的成功路径。他预言未来一两年内，低效的“遥操作”将被淘汰——只需2万小时人类视频加4小时真实数据，就能训练出高灵巧机器人。他95%确信，到2040年，机器人能通过物理图灵测试、自我迭代，彻底解锁“机器人技术树”。

英伟达具身自主研究团队负责人Jim Fan宣告，机器人领域正在复制大语言模型的成功路径，终局之战已经开始，而他以95%的置信度押注：2040年，机器人技术树将彻底解锁。机器人技术树即机器人从“身体”到“大脑”所需的关键技术，包括底层硬件、中层感知、上层决策等。

在近日举行的AI Ascent大会上，英伟达具身自主研究团队负责人Jim Fan发表了一场题为"机器人学：终局之战"的主题演讲。他系统阐述了一套完整的机器人技术发展路线图——从模型范式革命到数据策略颠覆，并以"伟大的类比"为核心论点：机器人领域将严格复制LLM的成功路径，从预训练到推理，再到自动化研究，"这是对大语言模型成功路径的全面复制。"

Fan开场即直接点出他对大语言模型团队的羡慕："LLM团队正在享受他们人生中最辉煌的时刻……那么，机器人领域为什么不能也沾沾光呢？"

机器人“大脑”换新方案：旧模型偏“嘴皮子”，新模型长“手脚”

过去三年，机器人行业流行一种叫VLA的训练方法（中文叫“视觉-语言-动作模型”）。英伟达自己的Groot和另一家明星公司Pi都用的这套。

但Fan直接开怼：这套方法说白了就是“语言-视觉-动作模型”——大部分算力都喂给了语言模块，语言是老大，视觉和动作只能排后面。结果是，机器人学了一堆知识和名词，但物理操作和“动词”能力明显不行。

英伟达的新方案是：先看世界怎么动，再学自己怎么动。

Fan团队推出了新模型，叫“世界行动模型”。逻辑很简单：第一步，用海量视频训练机器人预测“接下来世界会发生什么”（比如杯子倒了水会洒）；第二步，用少量操作数据微调，让机器人把注意力放到真实任务上；最后用强化学习收尾。

具体产品叫Dream Zero。它能一边预测画面一边输出动作——画面预测对了，动作就执行；画面预测错了，动作就失败。实验显示，它甚至能零样本执行从没见过的软体操作任务。

遥操作之死：人类视频成为机器人数据主粮

数据策略上，Fan指出遥操作同样走到了终点。问题的本质是物理极限：

"每台机器人每天的有效工作时间更像是3小时——而且还是在机器人状态良好、不闹脾气的情况下。"

他提出的替代路径是"类FSD方案"——让数据采集无感化、背景化，就像特斯拉FSD悄悄上传驾驶数据一样。英伟达团队开发了MANUS系统（与五指机械手实现1:1映射的轴骨架），并用Ego Scale方案证明了以人为中心视频的颠覆性潜力。关键数字如下：

使用20,000小时真实场景人类手部视频预训练
零机器人数据参与预训练
微调阶段仅需50小时模拟数据 + 4小时真实数据（占总训练数据不足0.1%）

最终模型能够泛化到卡片分类、操作注射器、液体转移等高灵巧度任务，"也许有一天我们会拥有家庭机器人护士。"

更值得关注的发现是：Fan团队发现了机器人灵巧操作的神经缩放定律——"在最初针对语言模型的神经缩放定律提出六年之后，我们发现了一个简洁的对数线性数学方程，同样适用于机器人灵巧操作。"预训练时长与最优验证损失之间存在非常清晰的数学关系。

他明确预测：未来一两年内，遥操作数据需求将下降至几乎可以忽略不计，以自我中心视频为核心的数据范式将全面接管。

"计算量=环境=数据"：模拟器革命

强化学习训练环境的规模化，是机器人领域的另一大瓶颈——"我们目前还无法实现100万个并行训练环境的目标，如果用传统方法，那需要100万个真实机器人。"

英伟达的解法分两步：

Real2Sim2Real：用iPhone拍照→3D扫描提取物体→在物理模拟器中自动重新合成，"iPhone基本上就变成了一个口袋世界扫描仪。"

Dream Dojo：基于视频世界模型构建的神经模拟器，实时输出RGB图像和传感器状态，"不涉及任何物理方程，也不涉及任何图形引擎。"

这使得一个等式成立："计算量 = 环境，环境 = 数据。" Fan随即引用了黄仁勋的话作为注脚——"买得越多，省得越多。"

三大成就与2040年终局

Fan将机器人技术的终局拆解为文明游戏式的"三大成就"：

第一成就——物理图灵测试：让人无法分辨是机器人还是人类在完成任务。Fan判断："大约还需要两到三年时间。"

第二成就——物理API：机器人像软件一样通过API和命令行调度，支撑"灯塔工厂"（原子打印机：输入Markdown设计文件，输出完整组装产品）或湿实验室中化学、生物、医学领域的科学发现自动化。

第三成就——物理自动化研究的顶峰：机器人能够设计、改进和构建下一代自身，"其能力将远远超出人类的范畴。"

时间线上，Fan援引了一个精确类比：AI领域从2012年AlexNet到如今逼真视频生成模型，历时14年。"2026年正好介于2012年和2040年之间。而且技术发展并非线性，而是呈指数级增长。"

以下是演讲原文：

主持人 00:02

首先，我很高兴向大家介绍我的朋友 Jim Fan。Jim 领导着英伟达的具身自主研究团队，也就是英伟达机器人团队。我认为机器人是未来最激动人心的发明之一。汽车本质上就是一个大型机器人，但我更期待机器人能够帮我们排便、搬运东西。Jim 在去年的 AI 大会上表现出色，我们非常高兴他能再次参加。

Jim Fan 00:27

那是 2016 年的一个夏日，就在我们现在坐的这间办公室里。一个穿着锃亮皮夹克、肌肉发达的家伙，把一个大金属托盘扔了进来。托盘上写着："致埃隆·马斯克和 OpenAI 团队，致计算机和人类的未来：我向你们展示世界上第一台 DGX-1。"那是我第一次见到黄仁勋（Jensen）。像任何一个优秀的实习生一样，我赶紧排队在上面签名。你们能找到吗？我的名字就在这里。还能找到另一个吗？那是安德烈（Andrej）。安德烈，我们要去计算机历史博物馆了。我感觉自己像个恐龙。那时候我根本不知道自己即将加入的是什么。接下来发生的事，恐怕没有人比伊利亚（Ilya）本人更能描述清楚了。如果你相信深度学习，他们也会相信你。他们对我们所有人的深度学习信念，真是无比坚定。

Jim Fan 01:36

三个阶段，六年时间，这就是我们走到今天的全部历程。

首先是 GPT-3，无监督预训练。接下来是词元预测——它实际上是在学习语法规则，语言结构则是在模拟思想、代码以及各种信息序列应当如何折叠。2022 年，我们引导 GPT 进行监督微调，使模型能够完成有用的工作，或者使用强化学习进行推理，以超越模仿学习。最后是自动化研究，将整个循环加速到人类能力的极限。正如 Andrej 所说，所有的努力都是为了最终决战。对于大语言模型（LLM）团队来说，他们已经进入了游戏的最后阶段。说实话，我非常羡慕。看看 Andrej 有多开心，脸上挂着灿烂的笑容。

Jim Fan 02:33

LLM 团队正在享受他们人生中最辉煌的时刻。他们用名为"Missile"的神秘利器，以极速推进通用人工智能（AGI）。那么，机器人领域为什么不能也沾沾光呢？于是，就像任何一个自尊自重的科学家都会做的那样，我照搬了这套方法，并给它起了个新名字，称之为"伟大的类比"。

与其预测 token 序列，我们能否预测下一个物理世界状态？然后，通过动作微调，将机器人与模拟中对真实机器人至关重要的关键区域进行对齐。最后，让强化学习完成最后的冲刺。就是这样。这是对大语言模型成功路径的全面复制。

Jim Fan 03:18

既然无法战胜他们，那就加入他们。请收看新一期节目——机器人学：终局之战。

香蕉真是太美味了，谢谢，Dennis。

那么，我们该如何打这场终局之战呢？归根结底，就是两件事：模型策略和数据策略。

我们先来看模型。过去三年，视觉-语言-动作模型（VLA）占据了主导地位，Pi 和 Groot 这样的模型也属于这一范畴。我们假设预训练由视觉语言模型完成，然后在其上附加一个动作头。但如果仔细想想，这些模型其实更应该叫做语言-视觉-动作模型（VLA），因为大部分参数都分配给了语言模块。语言是第一等公民，视觉和动作居其次。根据设计，VLA 更擅长编码知识和名词，但在物理和动词方面则略显不足——在某些方面有点用力过猛。

这是我最喜欢的 VLA 原始论文中的例子：把可乐罐移动到泰勒·斯威夫特的图片上。是的，模型之前从未见过泰勒·斯威夫特，它确实具备泛化能力，但这并非我们所追求的预训练方向。

那么，第二种预训练范式是什么？我们原本以为它会非常出色。可惜结果发现，它不过是"AI 视频老虎机"——就是那种"我可以整天看监控录像里的猫弹班卓琴"的玩意儿，简直是互联网的巅峰之作。但说真的，除非我们意识到这些视频模型正在学习内部模拟下一个世界状态，否则没人会认真对待它。

这里展示了 Veo 3 中的一些片段。你可以看到，这些模型能够自主地捕捉重力、浮力、光照、反射和折射等效果——所有这些都不是预先编码的。物理特性是通过大规模预测下一个像素块而涌现出来的，甚至视觉规划也是如此。

Jim Fan 05:23

看看 Veo 是如何解决这些物理推理问题的——它通过在像素空间中向前运行模拟来解决。注意右下角，这是我最喜欢的例子。如果你眨一下眼，就会错过 Veo 3 是如何解决这个问题的——它非常智能。你知道，如果不仔细看，几何关系就显得多余了。我把这称为"物理槽"。

Jim Fan 05:53

那么，我们如何才能让这些世界模型真正发挥作用？答案是：进行动作微调。我们将所有可能的未来状态叠加起来，并将其压缩到对真实机器人至关重要的那一薄层上。

Jim Fan 06:09

隆重推出 Dream Zero。这是一种新型策略模型，它能够预测几秒钟后的未来，并据此采取行动。运动动作是高维连续信号，看起来就像像素一样，因此我们可以在渲染视频的同时渲染动作。Dream Zero 可以联合解码下一个世界状态和下一个动作。由此，它能够零样本执行从未见过的软体任务和动作。

当机器人执行动作时，我们可以可视化正在传输的内容，相关性非常高：如果视频预测正确，动作就会执行；如果视频出现错误，动作就会失败。视觉和动作再次成为重中之重。

我们用 Dream Zero 做了很多有趣的实验——只需在实验室里让机器人滚动，然后在提示框中输入一些随机内容。当然，Dream Zero 无法 100% 保证所有任务的鲁棒性，但它就像 GPU 一样，力求在每种情况下都正确捕捉运动轨迹。

Jim Fan 07:19

Dream Zero 是我们迈向机器人开放式、开放词汇提示的第一步。我们将这种新型模型称为世界行动模型（World Action Model）。

让我们为我们的老朋友 VLA 默哀片刻。它为我们做出了巨大贡献。安息吧，一路走好。

接下来是数据策略。这位是英伟达首席科学家 Bill Dally，他正在我们实验室进行远程操作。考虑到他的薪水，我认为这绝对是我们数据集中收集到的最昂贵的轨迹。

过去三年，远程操作占据了主导地位——这是黄金时代：VR 头显、极致优化的流媒体延迟，以及这些看起来像中世纪酷刑装置的复杂绑带系统。

Jim Fan 08:17

工业领域投入了那么多资金，付出了那么多痛苦和磨难，然而每台机器人每天的工作时间上限只有 24 小时，这是基本的物理极限。实际上，更准确地说，每台机器人每天的有效工作时间更像是 3 小时——而且还是在机器人状态良好、不闹脾气的情况下。

Jim Fan 08:37

那么我们该如何做得更好呢？不如试试这个——你只需把机械手戴在自己的手上。这叫做 UMI（通用操作接口，Universal Manipulation Interface），是一个看似简单却意义深远的想法：戴上机器人末端执行器，用手操作，像人类一样直接收集数据，而机器人的其他部分则无需参与。

我认为 UMI 或许是机器人数据领域最重要的论文之一，它催生了两家独角兽初创公司。左边是 Physical Intelligence（π）对这个设计进行的改进；右边是 Sunday 制作的三指数据手套。

去年，我们更进一步，设计了一个轴骨架，与五指 Dexterous 机器人手实现了 1:1 的映射，我们称之为 MANUS（纯文本操作数据采集系统）。

来看一下对比：左边是人直接收集数据，速度最快；右边，操作员是我们技术最精湛的博士之一，他必须非常仔细地进行对准，速度非常慢，成功率也很低；而中间方案，只需穿戴这个轴骨架，就能直接采集高质量数据。我们用这些数据训练机器人策略。现在看到的是完全自主的策略部署，该策略基于零机器人操作数据训练而成。如此一来，我们打破了每个机器人每天 24 小时运行的限制——看看这些机器人有多开心，因为它们不再需要参与数据采集了。

Jim Fan 10:16

所以这就是答案吗？我们解决了机器人技术的规模化问题吗？

这里有人开特斯拉或 Waymo 吗？你知道，当你开车的时候，你实际上参与了迄今规模最大的物理数据采集。妙处在于，在 FSD（全自动驾驶）模式下，你甚至感觉不到它的存在，因为数据上传是一个无声的过程。然而，佩戴 UMI 或 MANUS 这类数据可穿戴设备仍然很麻烦——它很突兀，不像开车上班那样无缝。

所以我们需要一套类似 FSD 的方案。数据收集需要变得更加轻量、融入背景，这样我们才能充分捕捉人类在各行各业、所有经济价值劳动中展现的灵巧技能。

Jim Fan 11:06

因此，我们全力投入到以人类为中心的视频中，这些视频配有详细标注，包括手部位置追踪、密集语言标注，并引入了自我尺度（Ego Scale）的概念。其中，99.9% 的训练数据都基于以人类为中心的视频。最终，我们获得了一种端到端的策略，可以直接将摄像头像素映射到具有 22 个自由度的高灵巧度机器人手上。

Jim Fan 11:35

您现在看到的是完全自主运行的结果。我们使用 20,000 小时的真实场景下以人为中心的人类视频数据对 Ego Scale 进行预训练，完全不使用任何机器人数据。在预训练过程中，我们预测手部关节位置和腕部姿态。在动作微调阶段，我们仅收集了 50 小时的高精度模拟数据，以及 4 小时的真实训练数据——这 4 小时的数据不到我们总训练数据的 0.1%。

凭借这些数据，Ego Scale 能够泛化到一些非常灵巧的任务，例如卡片分类、操作注射器以及液体转移。也许有一天我们会拥有家庭机器人护士。对于这些任务，只需在测试时进行一次演示，模型就能学习不同的衬衫折叠策略。

Jim Fan 12:33

这篇论文中最引人入胜的发现，是我们发现了灵巧性相关的神经缩放定律——预训练时长与最优验证损失之间存在非常清晰的关系。在最初针对语言模型的神经缩放定律提出六年之后，我们发现了一个简洁的对数线性数学方程，同样适用于机器人灵巧操作。

如果我们把所有数据策略都放在一张图表上，X 轴代表与机器人硬件的耦合程度，Y 轴代表可扩展性，图表大致如下：可扩展性最差的数据可穿戴设备，其数据量也不过数十万小时。而对于自我中心（Egocentric）视频，如果能充分发挥类 FSD 的优势，下一阶段的数据量很容易突破数千万小时。此外，如果我们在图表上画一条分界线，线左侧的所有方法都代表了新的数据范式——人体传感器数据。

Jim Fan 13:29

让我做几个预测。

未来一两年内，我们会看到机器人遥操作数据的需求持续下降，直至几乎可以忽略不计。届时，将会出现一系列针对不同硬件和应用场景定制的数据变体。最终，机器人领域的主要数据来源将是自我中心视频。

让我们为我们的老朋友遥操作默哀片刻。你为我们做出了卓越的贡献。安息吧。

那么，数据策略完成了吗？大家注意到我在数据策略上标了两个环吗？外环是什么？所有前沿 AI 领域都投入了大量资源来构建数百万个编码环境，用于强化学习训练。机器人领域同样如此，我们迫切需要扩展训练环境的数量。当然，你也可以直接在真实机器人上进行强化学习。在我们的实验室里，我们通过 RL 将某些任务的成功率提升到接近 100%，让机器人连续执行数小时。

Jim Fan 14:35

看着这些机器人自主组装 GPU，感觉确实挺有意思的。用我老板的话说就是：干得好，这项任务已经得到批准了。然而，我们目前还无法实现 100 万个并行训练环境的目标——如果用传统方法，那需要 100 万个真实机器人。

所以我们需要一种更好的方法。假设你用 iPhone 拍张照片，通过 3D 扫描流程提取场景中所有物体，再在经典物理模拟器中自动重新合成它们。扫描完成后，所有这些物体都具有交互性，你可以在模拟中无限扩展，添加我们称之为"数字表亲"的各种变体。在这个我们称之为**"实物到仿真再回到实物（Real2Sim2Real）"**的流程中，iPhone 基本上就变成了一个口袋世界扫描仪。通过这种方式，我们拥有了一种可扩展的方法，可以将物理世界移植到数字世界。但这种方法仍然依赖于经典的图形渲染引擎。

我们能否做得更好？Dream Dojo 的出现让我们能够更好地利用视频世界模型，并将其转化为功能齐全的神经模拟器。Dream Dojo 接收连续的动作信号作为输入，并实时输出下一帧 RGB 图像以及传感器状态。您现在看到的每一个像素都不是真实的。Dream Dojo 能够通过纯数据驱动的方法，捕捉并学习不同机器人的运行机制。

Jim Fan 16:10

这个过程不涉及任何物理方程，也不涉及任何图形引擎。因此，机器人训练的新范式是：一套大规模并行的强化学习系统，运行在少数几个真实机器人工作站上，配备大量 GPU 来执行世界扫描和强化学习计算，同时运行世界模型。

正如这个等式所描述的：计算量 = 环境，环境 = 数据。用我老板的话说：买得越多，省得越多。

好了，整理一下。机器人技术的发展将遵循一个宏大的平行规律，而且它正在发生——我们正处于最终阶段的起点。

大家都玩过《文明》这款游戏吧，它至今仍是我的最爱。我喜欢把自己的研究比作在文明科技树上解锁成就。机器人技术还有三个成就需要解锁。

Jim Fan17:16

解锁之后，我就大功告成，可以退休了。

第一个成就，是让机器人通过涵盖各种活动的物理图灵测试——让你根本分辨不出是人类还是机器人在完成某项任务（也许喝醉的人类除外）。物理图灵测试关注的是单位能量输入与单位劳动输出的比值。光看现在机器人的姿态，我觉得我们还有很多工作要做。大约还需要两到三年时间。

第二个成就是物理 API——届时我们将拥有一整支机器人队伍，它们可以像任何软件一样，通过 API 和命令行进行配置与调度，并最终由 Opus 9.0 这样的 AI 进行协调。

有了物理 API，我们将能够实现灯塔工厂（Lighthouse Factory）。这些工厂本质上是原子打印机：接收以 Markdown 文件形式输入的设计，输出完全组装好的产品，全程自主运行。或者应用于湿实验室，实现化学、生物学和医学领域的科学发现自动化。

第三个成就是物理自动化研究的顶峰——届时机器人将能够设计、改进和构建下一代自身，其能力将远远超出人类的范畴。

Jim Fan 18:40

你可能会问：这难道不是科幻小说吗？我们这辈子能看到吗？

人工智能领域花了整整 14 年，才从 2012 年 AlexNet 的第一次前向传播，发展到如今能够生成逼真视频的模型。AlexNet 最初只能勉强区分猫和狗。

2026 年——好吧，我们聊的是实体智能，那就再加 14 年——2040 年。2026 年正好介于 2012 年和 2040 年之间。而且技术发展并非线性，而是呈指数级增长。

所以我可以 95% 确定地说，到 2040 年，我们将完成机器人技术树的最终阶段。而我们那时依然年轻。

如果你相信机器人技术，机器人技术也会相信你。

对于在座的各位——我们这一代人，生不逢时，错过了探索地球的最佳时机；生不逢时，错过了探索星辰的最佳时机。但我们生逢其时，正值攻克机器人技术难题的最佳时机。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

Jim Fan解读机器人“终局之战”：人类将在2040年彻底解锁“机器人技术树”

机器人“大脑”换新方案：旧模型偏“嘴皮子”，新模型长“手脚”

遥操作之死：人类视频成为机器人数据主粮

"计算量=环境=数据"：模拟器革命

三大成就与2040年终局

拆解菜鸟ZeeBot：一款"攀爬机器人"背后的物流科技账本

人形机器人的十年，为什么属于中国？

芯片熄火，机器人暴走，AI交易开始切至“物理AI”？

借鉴车市经验，未来“修机器人"可能比"造机器人"更赚钱

中国领跑，美国追赶，人形机器人"奇点时刻"已至！