Jim Fan解读机器人“终局之战”:人类将在2040年彻底解锁“机器人技术树”

英伟达机器人负责人表示,机器人正在复制大语言模型的成功路径。他预言未来一两年内,低效的“遥操作”将被淘汰——只需2万小时人类视频加4小时真实数据,就能训练出高灵巧机器人。他95%确信,到2040年,机器人能通过物理图灵测试、自我迭代,彻底解锁“机器人技术树”。

英伟达具身自主研究团队负责人Jim Fan宣告,机器人领域正在复制大语言模型的成功路径,终局之战已经开始,而他以95%的置信度押注:2040年,机器人技术树将彻底解锁。机器人技术树即机器人从“身体”到“大脑”所需的关键技术,包括底层硬件、中层感知、上层决策等。

在近日举行的AI Ascent大会上,英伟达具身自主研究团队负责人Jim Fan发表了一场题为"机器人学:终局之战"的主题演讲。他系统阐述了一套完整的机器人技术发展路线图——从模型范式革命到数据策略颠覆,并以"伟大的类比"为核心论点:机器人领域将严格复制LLM的成功路径,从预训练到推理,再到自动化研究,"这是对大语言模型成功路径的全面复制。"

Fan开场即直接点出他对大语言模型团队的羡慕:"LLM团队正在享受他们人生中最辉煌的时刻……那么,机器人领域为什么不能也沾沾光呢?"

机器人“大脑”换新方案:旧模型偏“嘴皮子”,新模型长“手脚”

过去三年,机器人行业流行一种叫VLA的训练方法(中文叫“视觉-语言-动作模型”)。英伟达自己的Groot和另一家明星公司Pi都用的这套。

但Fan直接开怼:这套方法说白了就是“语言-视觉-动作模型”——大部分算力都喂给了语言模块,语言是老大,视觉和动作只能排后面。结果是,机器人学了一堆知识和名词,但物理操作和“动词”能力明显不行。

英伟达的新方案是:先看世界怎么动,再学自己怎么动。

Fan团队推出了新模型,叫“世界行动模型”。逻辑很简单:第一步,用海量视频训练机器人预测“接下来世界会发生什么”(比如杯子倒了水会洒);第二步,用少量操作数据微调,让机器人把注意力放到真实任务上;最后用强化学习收尾。

具体产品叫Dream Zero。它能一边预测画面一边输出动作——画面预测对了,动作就执行;画面预测错了,动作就失败。实验显示,它甚至能零样本执行从没见过的软体操作任务。

遥操作之死:人类视频成为机器人数据主粮

数据策略上,Fan指出遥操作同样走到了终点。问题的本质是物理极限:

"每台机器人每天的有效工作时间更像是3小时——而且还是在机器人状态良好、不闹脾气的情况下。"

他提出的替代路径是"类FSD方案"——让数据采集无感化、背景化,就像特斯拉FSD悄悄上传驾驶数据一样。英伟达团队开发了MANUS系统(与五指机械手实现1:1映射的轴骨架),并用Ego Scale方案证明了以人为中心视频的颠覆性潜力。关键数字如下:

  • 使用20,000小时真实场景人类手部视频预训练
  • 零机器人数据参与预训练
  • 微调阶段仅需50小时模拟数据 + 4小时真实数据(占总训练数据不足0.1%)

最终模型能够泛化到卡片分类、操作注射器、液体转移等高灵巧度任务,"也许有一天我们会拥有家庭机器人护士。"

更值得关注的发现是:Fan团队发现了机器人灵巧操作的神经缩放定律——"在最初针对语言模型的神经缩放定律提出六年之后,我们发现了一个简洁的对数线性数学方程,同样适用于机器人灵巧操作。"预训练时长与最优验证损失之间存在非常清晰的数学关系。

他明确预测:未来一两年内,遥操作数据需求将下降至几乎可以忽略不计,以自我中心视频为核心的数据范式将全面接管。

"计算量=环境=数据":模拟器革命

强化学习训练环境的规模化,是机器人领域的另一大瓶颈——"我们目前还无法实现100万个并行训练环境的目标,如果用传统方法,那需要100万个真实机器人。"

英伟达的解法分两步:

Real2Sim2Real:用iPhone拍照→3D扫描提取物体→在物理模拟器中自动重新合成,"iPhone基本上就变成了一个口袋世界扫描仪。"

Dream Dojo:基于视频世界模型构建的神经模拟器,实时输出RGB图像和传感器状态,"不涉及任何物理方程,也不涉及任何图形引擎。"

这使得一个等式成立:"计算量 = 环境,环境 = 数据。" Fan随即引用了黄仁勋的话作为注脚——"买得越多,省得越多。"

三大成就与2040年终局

Fan将机器人技术的终局拆解为文明游戏式的"三大成就":

第一成就——物理图灵测试:让人无法分辨是机器人还是人类在完成任务。Fan判断:"大约还需要两到三年时间。"

第二成就——物理API:机器人像软件一样通过API和命令行调度,支撑"灯塔工厂"(原子打印机:输入Markdown设计文件,输出完整组装产品)或湿实验室中化学、生物、医学领域的科学发现自动化。

第三成就——物理自动化研究的顶峰:机器人能够设计、改进和构建下一代自身,"其能力将远远超出人类的范畴。"

时间线上,Fan援引了一个精确类比:AI领域从2012年AlexNet到如今逼真视频生成模型,历时14年。"2026年正好介于2012年和2040年之间。而且技术发展并非线性,而是呈指数级增长。"

以下是演讲原文:

主持人 00:02

首先,我很高兴向大家介绍我的朋友 Jim Fan。Jim 领导着英伟达的具身自主研究团队,也就是英伟达机器人团队。我认为机器人是未来最激动人心的发明之一。汽车本质上就是一个大型机器人,但我更期待机器人能够帮我们排便、搬运东西。Jim 在去年的 AI 大会上表现出色,我们非常高兴他能再次参加。

Jim Fan 00:27

那是 2016 年的一个夏日,就在我们现在坐的这间办公室里。一个穿着锃亮皮夹克、肌肉发达的家伙,把一个大金属托盘扔了进来。托盘上写着:"致埃隆·马斯克和 OpenAI 团队,致计算机和人类的未来:我向你们展示世界上第一台 DGX-1。"那是我第一次见到黄仁勋(Jensen)。像任何一个优秀的实习生一样,我赶紧排队在上面签名。你们能找到吗?我的名字就在这里。还能找到另一个吗?那是安德烈(Andrej)。安德烈,我们要去计算机历史博物馆了。我感觉自己像个恐龙。那时候我根本不知道自己即将加入的是什么。接下来发生的事,恐怕没有人比伊利亚(Ilya)本人更能描述清楚了。如果你相信深度学习,他们也会相信你。他们对我们所有人的深度学习信念,真是无比坚定。

Jim Fan 01:36

三个阶段,六年时间,这就是我们走到今天的全部历程。

首先是 GPT-3,无监督预训练。接下来是词元预测——它实际上是在学习语法规则,语言结构则是在模拟思想、代码以及各种信息序列应当如何折叠。2022 年,我们引导 GPT 进行监督微调,使模型能够完成有用的工作,或者使用强化学习进行推理,以超越模仿学习。最后是自动化研究,将整个循环加速到人类能力的极限。正如 Andrej 所说,所有的努力都是为了最终决战。对于大语言模型(LLM)团队来说,他们已经进入了游戏的最后阶段。说实话,我非常羡慕。看看 Andrej 有多开心,脸上挂着灿烂的笑容。

Jim Fan 02:33

LLM 团队正在享受他们人生中最辉煌的时刻。他们用名为"Missile"的神秘利器,以极速推进通用人工智能(AGI)。那么,机器人领域为什么不能也沾沾光呢?于是,就像任何一个自尊自重的科学家都会做的那样,我照搬了这套方法,并给它起了个新名字,称之为"伟大的类比"。

与其预测 token 序列,我们能否预测下一个物理世界状态?然后,通过动作微调,将机器人与模拟中对真实机器人至关重要的关键区域进行对齐。最后,让强化学习完成最后的冲刺。就是这样。这是对大语言模型成功路径的全面复制。

Jim Fan 03:18

既然无法战胜他们,那就加入他们。请收看新一期节目——机器人学:终局之战。

香蕉真是太美味了,谢谢,Dennis。

那么,我们该如何打这场终局之战呢?归根结底,就是两件事:模型策略和数据策略。

我们先来看模型。过去三年,视觉-语言-动作模型(VLA)占据了主导地位,Pi 和 Groot 这样的模型也属于这一范畴。我们假设预训练由视觉语言模型完成,然后在其上附加一个动作头。但如果仔细想想,这些模型其实更应该叫做语言-视觉-动作模型(VLA),因为大部分参数都分配给了语言模块。语言是第一等公民,视觉和动作居其次。根据设计,VLA 更擅长编码知识和名词,但在物理和动词方面则略显不足——在某些方面有点用力过猛。

这是我最喜欢的 VLA 原始论文中的例子:把可乐罐移动到泰勒·斯威夫特的图片上。是的,模型之前从未见过泰勒·斯威夫特,它确实具备泛化能力,但这并非我们所追求的预训练方向。

那么,第二种预训练范式是什么?我们原本以为它会非常出色。可惜结果发现,它不过是"AI 视频老虎机"——就是那种"我可以整天看监控录像里的猫弹班卓琴"的玩意儿,简直是互联网的巅峰之作。但说真的,除非我们意识到这些视频模型正在学习内部模拟下一个世界状态,否则没人会认真对待它。

这里展示了 Veo 3 中的一些片段。你可以看到,这些模型能够自主地捕捉重力、浮力、光照、反射和折射等效果——所有这些都不是预先编码的。物理特性是通过大规模预测下一个像素块而涌现出来的,甚至视觉规划也是如此。

Jim Fan 05:23

看看 Veo 是如何解决这些物理推理问题的——它通过在像素空间中向前运行模拟来解决。注意右下角,这是我最喜欢的例子。如果你眨一下眼,就会错过 Veo 3 是如何解决这个问题的——它非常智能。你知道,如果不仔细看,几何关系就显得多余了。我把这称为"物理槽"。

Jim Fan 05:53

那么,我们如何才能让这些世界模型真正发挥作用?答案是:进行动作微调。我们将所有可能的未来状态叠加起来,并将其压缩到对真实机器人至关重要的那一薄层上。

Jim Fan 06:09

隆重推出 Dream Zero。这是一种新型策略模型,它能够预测几秒钟后的未来,并据此采取行动。运动动作是高维连续信号,看起来就像像素一样,因此我们可以在渲染视频的同时渲染动作。Dream Zero 可以联合解码下一个世界状态和下一个动作。由此,它能够零样本执行从未见过的软体任务和动作。

当机器人执行动作时,我们可以可视化正在传输的内容,相关性非常高:如果视频预测正确,动作就会执行;如果视频出现错误,动作就会失败。视觉和动作再次成为重中之重。

我们用 Dream Zero 做了很多有趣的实验——只需在实验室里让机器人滚动,然后在提示框中输入一些随机内容。当然,Dream Zero 无法 100% 保证所有任务的鲁棒性,但它就像 GPU 一样,力求在每种情况下都正确捕捉运动轨迹。

Jim Fan 07:19

Dream Zero 是我们迈向机器人开放式、开放词汇提示的第一步。我们将这种新型模型称为世界行动模型(World Action Model)。

让我们为我们的老朋友 VLA 默哀片刻。它为我们做出了巨大贡献。安息吧,一路走好。

接下来是数据策略。这位是英伟达首席科学家 Bill Dally,他正在我们实验室进行远程操作。考虑到他的薪水,我认为这绝对是我们数据集中收集到的最昂贵的轨迹。

过去三年,远程操作占据了主导地位——这是黄金时代:VR 头显、极致优化的流媒体延迟,以及这些看起来像中世纪酷刑装置的复杂绑带系统。

Jim Fan 08:17

工业领域投入了那么多资金,付出了那么多痛苦和磨难,然而每台机器人每天的工作时间上限只有 24 小时,这是基本的物理极限。实际上,更准确地说,每台机器人每天的有效工作时间更像是 3 小时——而且还是在机器人状态良好、不闹脾气的情况下。

Jim Fan 08:37

那么我们该如何做得更好呢?不如试试这个——你只需把机械手戴在自己的手上。这叫做 UMI(通用操作接口,Universal Manipulation Interface),是一个看似简单却意义深远的想法:戴上机器人末端执行器,用手操作,像人类一样直接收集数据,而机器人的其他部分则无需参与。

我认为 UMI 或许是机器人数据领域最重要的论文之一,它催生了两家独角兽初创公司。左边是 Physical Intelligence(π)对这个设计进行的改进;右边是 Sunday 制作的三指数据手套。

去年,我们更进一步,设计了一个轴骨架,与五指 Dexterous 机器人手实现了 1:1 的映射,我们称之为 MANUS(纯文本操作数据采集系统)。

来看一下对比:左边是人直接收集数据,速度最快;右边,操作员是我们技术最精湛的博士之一,他必须非常仔细地进行对准,速度非常慢,成功率也很低;而中间方案,只需穿戴这个轴骨架,就能直接采集高质量数据。我们用这些数据训练机器人策略。现在看到的是完全自主的策略部署,该策略基于零机器人操作数据训练而成。如此一来,我们打破了每个机器人每天 24 小时运行的限制——看看这些机器人有多开心,因为它们不再需要参与数据采集了。

Jim Fan 10:16

所以这就是答案吗?我们解决了机器人技术的规模化问题吗?

这里有人开特斯拉或 Waymo 吗?你知道,当你开车的时候,你实际上参与了迄今规模最大的物理数据采集。妙处在于,在 FSD(全自动驾驶)模式下,你甚至感觉不到它的存在,因为数据上传是一个无声的过程。然而,佩戴 UMI 或 MANUS 这类数据可穿戴设备仍然很麻烦——它很突兀,不像开车上班那样无缝。

所以我们需要一套类似 FSD 的方案。数据收集需要变得更加轻量、融入背景,这样我们才能充分捕捉人类在各行各业、所有经济价值劳动中展现的灵巧技能。

Jim Fan 11:06

因此,我们全力投入到以人类为中心的视频中,这些视频配有详细标注,包括手部位置追踪、密集语言标注,并引入了自我尺度(Ego Scale)的概念。其中,99.9% 的训练数据都基于以人类为中心的视频。最终,我们获得了一种端到端的策略,可以直接将摄像头像素映射到具有 22 个自由度的高灵巧度机器人手上。

Jim Fan 11:35

您现在看到的是完全自主运行的结果。我们使用 20,000 小时的真实场景下以人为中心的人类视频数据对 Ego Scale 进行预训练,完全不使用任何机器人数据。在预训练过程中,我们预测手部关节位置和腕部姿态。在动作微调阶段,我们仅收集了 50 小时的高精度模拟数据,以及 4 小时的真实训练数据——这 4 小时的数据不到我们总训练数据的 0.1%。

凭借这些数据,Ego Scale 能够泛化到一些非常灵巧的任务,例如卡片分类、操作注射器以及液体转移。也许有一天我们会拥有家庭机器人护士。对于这些任务,只需在测试时进行一次演示,模型就能学习不同的衬衫折叠策略。

Jim Fan 12:33

这篇论文中最引人入胜的发现,是我们发现了灵巧性相关的神经缩放定律——预训练时长与最优验证损失之间存在非常清晰的关系。在最初针对语言模型的神经缩放定律提出六年之后,我们发现了一个简洁的对数线性数学方程,同样适用于机器人灵巧操作。

如果我们把所有数据策略都放在一张图表上,X 轴代表与机器人硬件的耦合程度,Y 轴代表可扩展性,图表大致如下:可扩展性最差的数据可穿戴设备,其数据量也不过数十万小时。而对于自我中心(Egocentric)视频,如果能充分发挥类 FSD 的优势,下一阶段的数据量很容易突破数千万小时。此外,如果我们在图表上画一条分界线,线左侧的所有方法都代表了新的数据范式——人体传感器数据。

Jim Fan 13:29

让我做几个预测。

未来一两年内,我们会看到机器人遥操作数据的需求持续下降,直至几乎可以忽略不计。届时,将会出现一系列针对不同硬件和应用场景定制的数据变体。最终,机器人领域的主要数据来源将是自我中心视频。

让我们为我们的老朋友遥操作默哀片刻。你为我们做出了卓越的贡献。安息吧。

那么,数据策略完成了吗?大家注意到我在数据策略上标了两个环吗?外环是什么?所有前沿 AI 领域都投入了大量资源来构建数百万个编码环境,用于强化学习训练。机器人领域同样如此,我们迫切需要扩展训练环境的数量。当然,你也可以直接在真实机器人上进行强化学习。在我们的实验室里,我们通过 RL 将某些任务的成功率提升到接近 100%,让机器人连续执行数小时。

Jim Fan 14:35

看着这些机器人自主组装 GPU,感觉确实挺有意思的。用我老板的话说就是:干得好,这项任务已经得到批准了。然而,我们目前还无法实现 100 万个并行训练环境的目标——如果用传统方法,那需要 100 万个真实机器人。

所以我们需要一种更好的方法。假设你用 iPhone 拍张照片,通过 3D 扫描流程提取场景中所有物体,再在经典物理模拟器中自动重新合成它们。扫描完成后,所有这些物体都具有交互性,你可以在模拟中无限扩展,添加我们称之为"数字表亲"的各种变体。在这个我们称之为**"实物到仿真再回到实物(Real2Sim2Real)"**的流程中,iPhone 基本上就变成了一个口袋世界扫描仪。通过这种方式,我们拥有了一种可扩展的方法,可以将物理世界移植到数字世界。但这种方法仍然依赖于经典的图形渲染引擎。

我们能否做得更好?Dream Dojo 的出现让我们能够更好地利用视频世界模型,并将其转化为功能齐全的神经模拟器。Dream Dojo 接收连续的动作信号作为输入,并实时输出下一帧 RGB 图像以及传感器状态。您现在看到的每一个像素都不是真实的。Dream Dojo 能够通过纯数据驱动的方法,捕捉并学习不同机器人的运行机制。

Jim Fan 16:10

这个过程不涉及任何物理方程,也不涉及任何图形引擎。因此,机器人训练的新范式是:一套大规模并行的强化学习系统,运行在少数几个真实机器人工作站上,配备大量 GPU 来执行世界扫描和强化学习计算,同时运行世界模型。

正如这个等式所描述的:计算量 = 环境,环境 = 数据。用我老板的话说:买得越多,省得越多。

好了,整理一下。机器人技术的发展将遵循一个宏大的平行规律,而且它正在发生——我们正处于最终阶段的起点。

大家都玩过《文明》这款游戏吧,它至今仍是我的最爱。我喜欢把自己的研究比作在文明科技树上解锁成就。机器人技术还有三个成就需要解锁。

Jim Fan17:16

解锁之后,我就大功告成,可以退休了。

第一个成就,是让机器人通过涵盖各种活动的物理图灵测试——让你根本分辨不出是人类还是机器人在完成某项任务(也许喝醉的人类除外)。物理图灵测试关注的是单位能量输入与单位劳动输出的比值。光看现在机器人的姿态,我觉得我们还有很多工作要做。大约还需要两到三年时间。

第二个成就是物理 API——届时我们将拥有一整支机器人队伍,它们可以像任何软件一样,通过 API 和命令行进行配置与调度,并最终由 Opus 9.0 这样的 AI 进行协调。

有了物理 API,我们将能够实现灯塔工厂(Lighthouse Factory)。这些工厂本质上是原子打印机:接收以 Markdown 文件形式输入的设计,输出完全组装好的产品,全程自主运行。或者应用于湿实验室,实现化学、生物学和医学领域的科学发现自动化。

第三个成就是物理自动化研究的顶峰——届时机器人将能够设计、改进和构建下一代自身,其能力将远远超出人类的范畴。

Jim Fan 18:40

你可能会问:这难道不是科幻小说吗?我们这辈子能看到吗?

人工智能领域花了整整 14 年,才从 2012 年 AlexNet 的第一次前向传播,发展到如今能够生成逼真视频的模型。AlexNet 最初只能勉强区分猫和狗。

2026 年——好吧,我们聊的是实体智能,那就再加 14 年——2040 年。2026 年正好介于 2012 年和 2040 年之间。而且技术发展并非线性,而是呈指数级增长。

所以我可以 95% 确定地说,到 2040 年,我们将完成机器人技术树的最终阶段。而我们那时依然年轻。

如果你相信机器人技术,机器人技术也会相信你。

对于在座的各位——我们这一代人,生不逢时,错过了探索地球的最佳时机;生不逢时,错过了探索星辰的最佳时机。但我们生逢其时,正值攻克机器人技术难题的最佳时机。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章