刚刚,AI教母、斯坦福大学教授李飞飞发表了一篇最新文章《从语言到世界:空间智能是AI的下一个前沿》,这篇文章是李飞飞对其25年AI生涯的深入思考

李飞飞认为,尽管以LLM为代表的AI技术已深刻改变世界,但它们本质上仍是“黑暗中的文字匠”——能言善辩但缺乏经验,知识渊博但缺乏现实根基
要让AI真正理解并与物理世界互动,就必须突破语言的限制,迈向空间智能 (Spatial Intelligence)。
李飞飞认为,空间智能将是AI的下一个前沿,它将赋能AI,使其拥有故事讲述者的想象力、第一反应者的行动力,以及科学家的空间推理精度。
为了实现这一目标,她提出了构建世界模型 的框架,并详细阐述了其三大核心能力、面临的技术挑战以及广阔的应用前景
1950年,当计算还不过是自动化算术和简单逻辑时,艾伦·图灵提出了一个至今仍回响不绝的问题:机器能思考吗?他所预见的景象需要非凡的想象力:智能或许有朝一日可以被构建,而非与生俱来。这一洞见后来开启了一场名为人工智能(AI)的不懈科学探索。在我25年的人工智能生涯中,我依然被图灵的远见所激励。但我们离这个目标还有多远?答案并不简单
今天,以大语言模型(LLM)为代表的顶尖AI技术已经开始改变我们获取和处理抽象知识的方式。然而,它们仍然是黑暗中的文字匠;能言善辩但缺乏经验,知识渊博但缺乏现实根基。空间智能将改变我们创造和与真实及虚拟世界互动的方式——它将彻底革新故事叙述、创造力、机器人学、科学发现等领域。这,就是AI的下一个前沿。
追求视觉与空间智能,一直是指引我进入这个领域的北极星。正因如此,我花费数年时间构建了ImageNet,这是第一个大规模视觉学习和基准测试数据集,也是与神经网络算法和现代计算(如图形处理单元GPU)并列的、催生现代AI诞生的三大关键要素之一。正因如此,我在斯坦福的学术实验室在过去十年里一直致力于将计算机视觉与机器人学习相结合。也正因如此,我和我的联合创始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前创办了World Labs:为了首次全面实现这一可能性。
在这篇文章中,我将解释什么是空间智能,它为何重要,以及我们如何构建能够解锁它的世界模型——其影响力将重塑创造力、具身智能和人类进步
空间智能:人类认知的脚手架
AI从未如此激动人心。像LLM这样的生成式AI模型已经从研究实验室走向日常生活,成为数十亿人创造、生产和交流的工具。它们展示了曾被认为不可能的能力,能够轻松生成连贯的文本、堆积如山的代码、逼真的图像,甚至是短视频片段。AI是否会改变世界,已不再是一个问题。以任何合理的定义来看,它已经做到了。
然而,仍有太多领域遥不可及。自主机器人的愿景依然引人入胜但仍停留在推测阶段,远未成为未来学家长期承诺的日常设备。在疾病治疗、新材料发现和粒子物理学等领域,大规模加速研究的梦想在很大程度上仍未实现。而让AI真正理解并赋能人类创造者的承诺——无论是帮助学生学习分子化学的复杂概念,协助建筑师构想空间,辅助电影制作人构建世界,还是为任何寻求完全沉浸式虚拟体验的人提供支持——也仍然无法实现。
要了解为何这些能力仍然遥不可及,我们需要审视空间智能是如何演化的,以及它如何塑造我们对世界的理解。
视觉长期以来一直是人类智能的基石,但其力量源于某种更为根本的东西。早在动物能够筑巢、照顾幼崽、用语言交流或建立文明之前,简单的感知行为就已经悄然开启了一段通往智能的演化之旅。
这种看似孤立的、从外部世界收集信息的能力,无论是微光一闪还是质感的触碰,都在感知与生存之间建立了一座桥梁,并且随着世代更迭,这座桥梁变得越来越坚固和精细。一层又一层的神经元从这座桥梁上生长出来,形成了能够解释世界并协调生物体与其环境互动的神经系统。因此,许多科学家推测,感知与行动构成了驱动智能演化的核心循环,也是自然创造我们这个物种——感知、学习、思考和行动的终极体现——的基础。
空间智能在定义我们如何与物理世界互动方面扮演着基础性角色。每一天,我们都依赖它来完成最普通的行为:通过想象保险杠与路沿之间不断缩小的间隙来停车,接住别人从房间另一头扔过来的钥匙,在拥挤的人行道上穿行而避免碰撞,或者睡眼惺忪地不看杯子就把咖啡倒进去。在更极端的情况下,消防员在浓烟滚滚、不断坍塌的建筑中穿行,对结构的稳定性和生存机会做出瞬间判断,通过手势、肢体语言和一种无法用语言替代的共同职业本能进行交流。而孩子们则在他们能够说话之前的数月或数年里,通过与环境的嬉戏互动来学习世界。所有这一切都发生得直观而自然——这是机器尚未达到的流畅程度。
空间智能也是我们想象力和创造力的基础。故事讲述者在脑海中创造出异常丰富的世界,并利用多种视觉媒介将其呈现给他人,从古代的洞穴壁画到现代电影,再到沉浸式视频游戏。无论是孩子们在沙滩上堆沙堡,还是在电脑上玩《我的世界》,基于空间的想象力构成了真实或虚拟世界中互动体验的基础。在许多工业应用中,对物体、场景和动态交互环境的模拟,为从工业设计到数字孪生再到机器人训练等无数关键商业用例提供了动力。
历史上充满了空间智能发挥核心作用、定义文明进程的时刻。在古希腊,埃拉托斯特尼将影子转化为几何学——在太阳直射赛伊尼城的那一刻,他在亚历山大城测量出7度的夹角——从而计算出地球的周长。哈格里夫斯的“珍妮纺纱机”通过一个空间上的洞察彻底改变了纺织制造业:将多个纺锤并排布置在一个框架中,使得一个工人能同时纺多根线,生产效率提高了八倍。沃森和克里克通过亲手搭建3D分子模型发现了DNA的结构,他们不断摆弄金属片和金属丝,直到碱基对的空间排列“咔哒”一声完美契合。在每一个案例中,当科学家和发明家需要操纵物体、构想结构并对物理空间进行推理时,空间智能都推动了文明的进步——这些都无法仅用文字来捕捉。
空间智能是我们认知构建的脚手架。无论我们是被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理和规划,即使是在最抽象的话题上。它对于我们互动的方式至关重要——无论是口头的还是身体的,无论是与同伴还是与环境本身。虽然我们大多数人并非每天都在揭示像埃拉托斯特尼那样的宇宙真理,但我们日常的思考方式与他并无二致——通过感官感知复杂的世界,然后利用一种直观的、基于物理和空间术语的理解来领悟其运作方式。
不幸的是,今天的AI还不能像这样思考。
过去几年确实取得了巨大进步。多模态大语言模型(MLLM)通过海量的多媒体数据和文本数据进行训练,引入了一些基础的空间意识,今天的AI可以分析图片、回答相关问题,并生成超逼真的图像和短视频。通过传感器和触觉技术的突破,我们最先进的机器人已经开始能够在高度受限的环境中操纵物体和工具。
然而,坦率地说,AI的空间能力远未达到人类水平。其局限性很快就会显现。在估算距离、方向和大小,或通过从新角度重新生成来“精神上”旋转物体等任务上,最先进的MLLM模型的表现很少能超过随机猜测。它们无法导航迷宫、识别捷径或预测基本的物理现象。AI生成的视频——虽然处于初级阶段,但确实非常酷——往往在几秒钟后就失去连贯性。
虽然当前最先进的AI在阅读、写作、研究和数据模式识别方面表现出色,但这些相同的模型在表示或与物理世界互动时,却存在根本性的局限。我们对世界的看法是整体的——不仅是我们正在看什么,还包括万物在空间上如何关联,这意味着什么,以及为何重要。通过想象、推理、创造和互动——而不仅仅是描述——来理解这一切,正是空间智能的力量。没有它,AI就与它试图理解的物理现实脱节。它无法有效地驾驶我们的汽车,引导我们家庭和医院中的机器人,为学习和娱乐创造全新的沉浸式和互动式体验,或加速材料科学和医学领域的发现。
哲学家维特根斯坦曾写道:“我语言的极限,意味着我世界的极限。”我不是哲学家。但我知道,至少对AI而言,世界远不止于语言。空间智能代表了超越语言的前沿——这种能力连接了想象、感知和行动,并为机器真正提升人类生活开辟了可能性,从医疗保健到创造力,从科学发现到日常辅助。
AI的下一个十年:构建真正具备空间智能的机器
那么,我们如何构建具备空间智能的AI?如何才能让模型具备埃拉托斯特尼的洞察力进行推理,拥有工业设计师的精度进行工程设计,怀揣故事讲述者的想象力进行创造,并能像第一反应者一样流畅地与环境互动?
构建具备空间智能的AI需要比LLM更宏大的目标:世界模型,这是一种新型的生成式模型,其理解、推理、生成以及与语义、物理、几何和动态上都极为复杂的世界(无论是虚拟还是真实)进行交互的能力,远非当今的LLM所能及。这个领域尚处于起步阶段,当前的方法从抽象推理模型到视频生成系统不一而足。World Labs于2024年初成立,正是基于这样的信念:基础性方法仍在建立之中,这使其成为未来十年的决定性挑战。
在这个新兴领域,最重要的是确立指导发展的原则。对于空间智能,我通过三个核心能力来定义世界模型:
1.生成性 (Generative):世界模型能够生成在感知、几何和物理上保持一致的世界
解锁空间理解和推理的世界模型,也必须能够生成它们自己的模拟世界。它们必须能够生成无穷无尽、多种多样的模拟世界,这些世界遵循语义或感知的指令,同时在几何、物理和动态上保持一致——无论其代表的是真实空间还是虚拟空间。研究界正在积极探索这些世界应该以隐式还是显式的方式来表示其内在的几何结构。此外,除了强大的潜在表示,我相信一个通用的世界模型,其输出还必须能够为许多不同的用例生成一个明确、可观察的世界状态。特别是,它对当前状态的理解必须与它的过去——即导致当前状态的世界先前状态——连贯地联系在一起。
2.多模态 (Multimodal):世界模型天生就是多模态的
正如动物和人类一样,世界模型应该能够处理多种形式的输入——在生成式AI领域被称为“提示”。给定部分信息——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型都应预测或生成尽可能完整的世界状态。这要求模型既能以真实视觉的保真度处理视觉输入,又能以同等的能力解释语义指令。这使得智能体和人类都能通过多样化的输入与模型就世界进行交流,并反过来接收多样化的输出。
3.交互性 (Interactive):世界模型能够根据输入的动作输出下一个状态
最后,如果动作和/或目标是世界模型提示的一部分,其输出必须包含世界的下一个状态,无论是隐式还是显式表示。当只给定一个动作(无论有无目标状态)作为输入时,世界模型应该产生一个与世界先前状态、预期的目标状态(如果有的话)及其语义含义、物理定律和动态行为相一致的输出。随着具备空间智能的世界模型在推理和生成能力上变得更加强大和稳健,可以想见,在给定目标的情况下,世界模型本身不仅能预测世界的下一个状态,还能根据新状态预测下一个动作。
这个挑战的范围超过了AI以往面临的任何挑战。
虽然语言是人类认知中纯粹的生成现象,但世界的运作规则要复杂得多。例如,在地球上,引力支配着运动,原子结构决定了光如何产生颜色和亮度,无数的物理定律约束着每一次互动。即使是最奇幻、最有创意的世界,也是由遵循其自身物理定律和动态行为的空间物体和智能体组成的。要将所有这些——语义、几何、动态和物理——一致地协调起来,需要全新的方法。表示一个世界的维度,远比表示像语言这样的一维序列信号要复杂得多。要实现能够提供我们人类所享有的那种通用能力的世界模型,需要克服几个巨大的技术障碍。在World Labs,我们的研究团队正致力于为实现这一目标取得根本性进展。
以下是我们当前研究课题的一些例子:
一个新的、通用的训练任务函数:定义一个像LLM中的“下一词元预测”一样简洁优雅的通用任务函数,一直是世界模型研究的核心目标。其输入和输出空间的复杂性使得这样一个函数在形式化上 inherently more difficult。尽管仍有许多待探索之处,但这个目标函数和相应的表示必须反映几何和物理定律,尊重世界模型作为想象与现实的根基表示的根本性质。
大规模训练数据:训练世界模型需要比文本整理复杂得多的数据。好消息是:海量的数据源已经存在。互联网规模的图像和视频集合代表了丰富、可及的训练材料——挑战在于开发能够从这些二维图像或视频帧信号(即RGB)中提取更深层次空间信息的算法。过去十年的研究已经显示了语言模型中数据量和模型大小之间的规模法则的力量;解锁世界模型的关键在于构建能够以相当规模利用现有视觉数据的架构。此外,我不会低估高质量合成数据以及像深度和触觉信息等额外模态的力量。它们在训练过程的关键步骤中补充了互联网规模的数据。但前进的道路依赖于更好的传感器系统、更稳健的信号提取算法,以及更强大的神经模拟方法。
新的模型架构和表示学习:世界模型研究将不可避免地推动模型架构和学习算法的进步,特别是超越当前的MLLM和视频扩散范式。这两种范式通常将数据标记化为一维或二维序列,这使得简单的空间任务——如数清短视频中不重复的椅子数量,或记住一个小时前房间的样子——变得不必要地困难。替代架构可能会有所帮助,例如用于标记化、上下文和记忆的3D或4D感知方法。例如,在World Labs,我们最近关于一个名为RTFM的实时生成式基于帧的模型的工作就展示了这种转变,它使用基于空间的帧作为一种空间记忆形式,以实现高效的实时生成,同时保持生成世界的持久性。
显然,在通过世界建模完全解锁空间智能之前,我们仍然面临着艰巨的挑战。这项研究不仅仅是理论练习,它是新一类创意和生产力工具的核心引擎。World Labs内部的进展令人鼓舞。我们最近与少数用户分享了Marble的一瞥,这是有史以来第一个可以通过多模态输入提示来生成和维持一致3D环境的世界模型,供用户和故事讲述者在他们的创意工作流中探索、互动和进一步构建。我们正在努力使其尽快向公众开放!
Marble只是我们创造一个真正具备空间智能的世界模型的第一步。随着进展加速,研究人员、工程师、用户和商界领袖都开始认识到其非凡的潜力。下一代世界模型将使机器能够在全新的水平上实现空间智能——这一成就将解锁当今AI系统中仍然普遍缺乏的核心能力。
使用世界模型为人们构建一个更美好的世界
发展AI的动机至关重要。作为帮助开启现代AI时代的科学家之一,我的动机一直很明确:AI必须增强人类的能力,而不是取代人类。多年来,我一直致力于将AI的开发、部署和治理与人类需求对齐。如今,技术乌托邦和末日论的极端叙事比比皆是,但我继续持有一种更务实的观点:AI由人开发,由人使用,由人治理。它必须始终尊重人的能动性和尊严。它的魔力在于扩展我们的能力;使我们更有创造力、更紧密连接、更高效、更有成就感。空间智能代表了这一愿景——AI赋能人类创造者、护理人员、科学家和梦想家,去实现曾经不可能的事情。这一信念驱动着我将空间智能视为AI下一个伟大前沿的承诺。
空间智能的应用横跨不同的时间线。创意工具正在涌现——World Labs的Marble已经将这些能力交到了创作者和故事讲述者的手中。随着我们完善感知与行动之间的循环,机器人学代表了一个雄心勃勃的中期目标。最具变革性的科学应用将需要更长时间,但有望对人类的繁荣产生深远影响。
在所有这些时间线上,有几个领域因其重塑人类能力的潜力而脱颖而出。这需要巨大的集体努力,远非一个团队或一家公司所能实现。它需要整个AI生态系统的参与——研究人员、创新者、企业家、公司,甚至政策制定者——共同努力实现一个共同的愿景。但这个愿景值得追求。以下是这个未来所包含的内容:
创意:为故事叙述和沉浸式体验注入超能力
“创造力是智慧在玩耍。” 这是我个人英雄阿尔伯特·爱因斯坦最喜欢的名言之一。早在书面语言出现之前,人类就在讲述故事——将它们画在洞穴墙壁上,代代相传,在共同的叙事上建立起整个文化。故事是我们理解世界、跨越时空连接、探索人性意义的方式,最重要的是,在生活中寻找意义,在自我中发现爱。今天,空间智能有潜力改变我们创造和体验叙事的方式,这种方式既尊重其根本重要性,又将其影响从娱乐扩展到教育,从设计扩展到建筑。
World Labs的Marble平台将把前所未有的空间能力和编辑可控性交到电影制作人、游戏设计师、建筑师和各类故事讲述者的手中,让他们能够快速创建和迭代完全可探索的3D世界,而无需传统3D设计软件的开销。创造性行为仍然像以往一样至关重要和人性化;AI工具只是放大和加速了创作者所能达到的成就。这包括:
新维度的叙事体验:电影制作人和游戏设计师正在使用Marble来创造完整的世界,而不受预算或地理位置的限制,探索各种在传统制作流程中难以处理的场景和视角。随着不同形式的媒体和娱乐之间的界限日益模糊,我们正在接近一种全新的互动体验,它融合了艺术、模拟和游戏——个性化的世界,其中任何人,而不仅仅是工作室,都可以创造并栖居于自己的故事中。随着将概念和故事板提升为完整体验的更新、更快捷方式的兴起,叙事将不再局限于单一媒介,创作者可以自由地在无数的界面和平台上构建具有共同主线贯穿的世界。
通过设计进行空间叙事:基本上,每一个制造出来的物体或建造的空间,在其实体创造之前都必须在虚拟3D中进行设计。这个过程迭代性强,且在时间和金钱上都成本高昂。有了具备空间智能的模型,建筑师可以在投入数月进行设计之前快速可视化结构,漫步于尚未存在的空间中——这本质上是在讲述我们可能如何生活、工作和聚集的故事。工业和时尚设计师可以立即将想象转化为形式,探索物体如何与人体和空间互动。
全新的沉浸式与交互式体验:体验本身是我们作为一个物种创造意义的最深层次的方式之一。在整个人类历史上,只有一个单一的3D世界:我们所有人共享的物理世界。直到最近几十年,通过游戏和早期的虚拟现实(VR),我们才开始瞥见共享我们自己创造的替代世界意味着什么。现在,空间智能与新的设备形态(如VR和扩展现实(XR)头显及沉浸式显示器)相结合,以前所未有的方式提升了这些体验。我们正接近一个未来,在这个未来中,踏入完全实现的多维世界将像打开一本书一样自然。空间智能使世界构建不再仅仅是拥有专业制作团队的工作室的专利,而是对个人创作者、教育者和任何有愿景分享的人开放。
机器人:具身智能的实践
从昆虫到人类,动物都依赖空间智能来理解、导航和与它们的世界互动。机器人也不例外。具备空间感知能力的机器自该领域诞生之初就是其梦想,这也包括我自己与我的学生和合作者在斯坦福研究实验室的工作。这也是为什么我如此兴奋于利用World Labs正在构建的这类模型来实现它们的可能性。
通过世界模型扩展机器人学习:机器人学习的进展取决于一个可行的训练数据的可扩展解决方案。考虑到机器人必须学习去理解、推理、规划和互动的巨大状态空间,许多人推测,需要结合互联网数据、合成模拟和真实世界的人类演示捕捉,才能真正创造出具有泛化能力的机器人。但与语言模型不同,当今机器人研究的训练数据稀缺。世界模型将在此扮演决定性角色。随着它们感知保真度和计算效率的提高,世界模型的输出可以迅速缩小模拟与现实之间的差距。这反过来将有助于在无数状态、互动和环境的模拟中训练机器人。
成为伙伴与合作者:机器人作为人类的合作者,无论是辅助实验室的科学家,还是协助独居的老人,都可以扩充急需更多劳动力和生产力的部分劳动力市场。但要做到这一点,需要空间智能能够感知、推理、规划和行动,同时——这一点最重要——与人类的目标和行为保持共情对齐。例如,一个实验室机器人可以处理仪器,让科学家专注于需要灵巧或推理的任务,而一个家庭助理可以帮助老年人做饭,而不会削弱他们的快乐或自主性。能够预测与此期望一致的下一个状态甚至可能是下一个动作的、真正具备空间智能的世界模型,对于实现这一目标至关重要。
扩展具身智能的形式:人形机器人在我们为自己构建的世界中扮演着一个角色。但创新的全部好处将来自更多样化的设计:运送药物的纳米机器人,在狭窄空间中穿行的软体机器人,以及为深海或外太空建造的机器。无论它们的形式如何,未来的空间智能模型都必须整合这些机器人所处的环境以及它们自身的具身感知和运动。但开发这些机器人的一个关键挑战是,在这些各种各样的具身形态因素中缺乏训练数据。世界模型将在模拟数据、训练环境和这些工作的基准测试任务中发挥关键作用。
更长远的未来:科学、医疗和教育
除了创意和机器人应用,空间智能的深远影响还将延伸到AI能够以拯救生命和加速发现的方式增强人类能力的领域。我下面重点介绍三个可以带来深刻变革的应用领域,尽管不言而喻,空间智能的用例在更多行业中都非常广泛。
在科学研究中,具备空间智能的系统可以模拟实验,并行测试假说,并探索人类无法进入的环境——从深海到遥远的行星。这项技术可以改变气候科学和材料研究等领域的计算建模。通过将多维模拟与真实世界数据收集相结合,这些工具可以降低计算门槛,并扩展每个实验室所能观察和理解的范围。
在医疗健康领域,空间智能将重塑从实验室到病床的一切。在斯坦福,我的学生和合作者多年来一直与医院、老年护理机构和居家患者合作。这段经历让我确信了空间智能在此处的变革潜力。AI可以通过多维建模分子相互作用来加速药物发现,通过帮助放射科医生在医学影像中发现模式来增强诊断,并实现环境监测系统,在不取代治愈所需的人际连接的情况下支持患者和护理人员,更不用说机器人在许多不同环境中帮助我们的医护人员和患者的潜力。
在教育领域,空间智能可以实现沉浸式学习,使抽象或复杂的概念变得具体可感,并创造对于我们大脑和身体学习方式至关重要的迭代体验。在AI时代,更快、更有效的学习和再培训的需求对学龄儿童和成年人都尤为重要。学生可以在多维度中探索细胞机制或漫步于历史事件。教师获得了通过互动环境进行个性化教学的工具。专业人士——从外科医生到工程师——可以在逼真的模拟中安全地练习复杂技能。
在所有这些领域中,可能性是无限的,但目标始终如一:AI增强人类专长,加速人类发现,并放大人类关怀——而不是取代作为人类核心的判断力、创造力和同理心。
结论
过去十年见证了AI成为一个全球现象,以及技术、经济乃至地缘政治的转折点。但作为一名研究者、教育者,以及现在的创业者,最能激励我的,仍然是图灵在75年前提出的那个问题背后的精神。我仍然分享着他的那份惊奇感。正是这种感觉,让我每天都为空间智能的挑战而充满活力。
历史上第一次,我们有望构建出与物理世界如此协调的机器,以至于我们可以依赖它们作为我们应对所面临的最大挑战的真正伙伴。无论是在实验室中加速我们对疾病的理解,彻底改变我们讲述故事的方式,还是在我们因疾病、受伤或年老而最脆弱的时刻支持我们,我们正处在一个技术突破的关口,这项技术将提升我们最珍视的生活品质。这是一个关于更深刻、更丰富、更强大生活的愿景。
在自然界于近五亿年前在远古动物身上释放出空间智能的第一缕微光之后,我们有幸成为可能很快将同样能力赋予机器的那一代技术人员——并且有幸利用这些能力造福世界各地的人们。没有空间智能,我们关于真正智能机器的梦想就不会完整
本文作者:AI寒武纪,来源:AI寒武纪,原文标题:《AI教母李飞飞最新长文:空间智能是AI的下一个前沿「LLM太局限了,缺乏现实根基」》




