硅谷顶级资金集体押注!大摩万字干货详解AI下一个前沿——“世界模型”

摩根士丹利最新报告表示,大模型的语言红利正在触顶,下一场AI军备竞赛的战场是"世界模型"——让机器真正理解三维空间、物理规律与时间演化。从Waymo数十亿英里虚拟路测,到微软AI渲染可玩《Quake II》,应用已不止于机器人,游戏、影视、设计产业均面临重塑。

大模型把“语言”这条路走到今天,边界越来越清晰:它们擅长写、搜、改、编程,但一旦问题落到三维空间、时间演化和物理约束,现成的范式就开始吃力。摩根士丹利把下一段增长押在“世界模型”上——让AI学会理解、模拟并在环境里做决策,应用不只在机器人和自动驾驶,也会重塑游戏、设计、影视制作等数字内容工业。

据追风交易台,摩根士丹利北美团队的股票分析师Adam Jonas在最新报告中直白写道:“AI is moving beyond language toward models that understand, simulate and navigate the physical world。”这句话的潜台词是:下一轮竞争,不是谁的聊天更像人,而是谁能把现实世界的规律压缩进一个可用的内部表征,再把它变成可交互的“想象引擎”。

报告给出的证据并不靠远景叙事,而是一些已经发生的工程实践:Waymo借助基于DeepMind Genie 3的世界模型做了“数十亿英里”的虚拟路测;微软用Muse把1997年的《Quake II》做成“全AI渲染、可玩”的版本;Roblox也公开了用自研世界模型生成沉浸式环境、用自然语言迭代游戏的研究方向。大厂在做(DeepMind、Meta、微软、特斯拉、英伟达),新公司也在抢人抢钱。

更值得注意的是,摩根士丹利在这份材料里把镜头对准两家新锐:李飞飞的World Labs偏“生成可导航3D世界”,杨立昆的AMI Labs偏“学习高效的隐空间表示去做预测与推理”。两条路线背后,是同一个问题:AI到底要以什么形式“理解世界”,以及这种理解何时能从demo变成生产力。

从语言到物理:世界模型要补的,是LLM的硬短板

报告把“物理世界”描述为一个更难的战场:受物质、热力学、流体、光照等规律约束,在不断变化的三维空间里运行。LLM的训练对象主要是文本及其变体,做白领任务(编码、搜索、写作)很强,但对“下一秒会发生什么、我做这个动作会造成什么后果”这种问题,缺的不是语料,而是能长期保持一致性的环境表征与推演能力。

因此,世界模型被定义成一种“内部可用的环境表示”:它不仅要复现眼前看到的,还要能把状态往前滚动,并在“动作条件”改变时给出不同的未来分支——也就是报告反复使用的比喻:AI的“imagination engine”。

世界模型不是一个东西:五条主流路线在并行

摩根士丹利把当前做法粗分成几类(并强调边界会逐渐模糊):

  • 交互式、动作条件世界模型:像“学出来的游戏引擎”,环境会随智能体动作实时变化(例:DeepMind Genie)。

  • 一致性3D世界生成器:强调空间几何一致与可从多视角探索(例:World Labs Marble)。

  • 抽象表示/非生成模型:不追求生成像素级画面,而是预测更高层的隐空间结构与动态,偏效率与推理(例:Meta V-JEPA、AMI Labs)。

  • 预测型生成世界模型:更像“预测下一帧/下一状态”,用于规划、预测与驾驶推理(例:Wayve GAIA、NVIDIA Cosmos 的 Predict)。

  • 物理约束的模拟数据引擎:把世界模型与仿真/物理引擎、数据管线结合,为机器人训练产出更“物理一致”的合成数据(例:NVIDIA Cosmos 的 Transfer)。

这套划分有一个现实意义:同样叫世界模型,有的在追求“生成一个能逛的世界”,有的在追求“把世界压缩成可计算的状态”,产品形态、算力结构、商业化路径都不一样。

先落在游戏与内容生产:替代引擎很诱人,但没那么快

游戏是报告里最“直观”的用例:世界模型可以从少量提示生成可交互环境,内容生产速度可能被拉到另一个量级。微软用Muse做出的可玩《Quake II》,就是一个强对照——不再依赖传统引擎去逐帧渲染,而是模型根据玩家输入预测每一帧。

但摩根士丹利的视频游戏分析师团队(材料中引用了Matt Cost的框架)给出的判断并不浪漫:长期看有两种情景——现有巨头把AI塞进工具链完成“适配”,或者被新范式替代/严重扰动。替代看起来更简单,因为今天的模型已经能“用自然语言生成可玩世界”;

难点在后面:算力速度与成本也许有路可解,但“meta系统、延迟”会更难,而“确定性(determinism)、记忆、更新”这类问题,可能在世界模型范式下就是硬骨头。这意味着短期约束给了老玩家窗口期,长期威胁依旧真实存在。

自动驾驶与机器人更务实:虚拟世界先用来“补数据”和“先想后做”

自动驾驶的抓手更明确:把现实中危险、稀有、昂贵的“边缘场景”,搬到虚拟里成规模地跑。报告提到Waymo使用基于DeepMind Genie 3的世界模型,进行了“数十亿英里”的虚拟驾驶测试,用来训练和验证系统在罕见边缘情形下的表现——这类场景在真实道路上要么难遇到,要么风险不可控。

机器人端的逻辑也更像工程:世界模型可能解决两件事——训练数据量执行前推理。报告提到有研究显示:用世界模型生成的数据训练机器人,效果可以与用真实交互数据训练的机器人“相当”。但摩根士丹利也把边界划清:短期内,世界模型与仿真数据更可能是现实数据管线的补充,而不是替代。

真正卡人的细节,来自“接触与摩擦”:报告举例强调,外界容易忽略的微小物理量往往最关键——手指施加的细微力、执行器新旧状态差异、表面摩擦与材料属性的微变,甚至关节的静摩擦,都可能让“仿真到现实”的迁移出现巨大落差。

最难的是“长时稳定”和“可控”:离可用还有几道坎

报告把挑战列得很具体,也很不客气:

  • 误差累积与时间漂移:互动越久,物体漂移、几何形变、物理规则跑偏的概率越高。被认为很先进的Genie 3,目前也只能支持“几分钟”的连续交互。

  • 可控性不足:画面再美,动作空间如果只有基础移动,产品价值会受限。

  • 多智能体与社会动态:多人/多车/多机器人同时互动,比单相机穿行难得多,DeepMind也点名这是Genie 3的难点之一。

  • 数据规模与多样性:尤其在机器人领域,真实传感器数据采集昂贵且慢。

  • 缺少统一基准:长时交互质量怎么量化,没有公认标准,进展常靠demo与任务测试支撑。

这些约束决定了一个现实节奏:世界模型很可能先在“容错高、迭代快”的数字内容领域扩散,再逐步向需要严格物理一致性的行业渗透。

李飞飞的赌注:让AI"看懂"三维空间

摩根士丹利把World Labs放在“生成一致性3D世界”的代表位置。公司由李飞飞与团队在2023年创立,2024年走出隐身;其旗舰产品Marble在2025年11月公开发布,目标是从文本、图片、短视频或粗糙3D输入生成“持久、可探索”的三维环境,并支持编辑与扩展。

报告列出的功能更像一套面向创作与生产的工作台:生成后可删改物体、用“Chisel”先搭粗模再上细节、选区外扩生成、把多个世界Compose成更大场景、导出到外部3D软件/引擎,以及提供API给开发者集成。

它也强调与产业工具链的接口:可导出到Unreal Engine与Unity;与NVIDIA Isaac Sim等仿真平台对接;还展示了在建筑设计、机器人仿真等场景的使用方式。

资本热度同样被写进报告:PitchBook估算World Labs累计融资约12.9亿美元,2026年2月一轮融资后投后估值约54亿美元。

杨立昆的另一条路:不渲染画面,只预测结构

AMI Labs的故事线更“研究范式”:公司在2026年3月走出隐身,由Yann LeCun参与创立,路径偏向JEPA框架——不去重建每个像素,而是预测被遮挡/未来部分的潜在表示(latent embeddings),用更抽象的结构学习世界的演化规律。摩根士丹利把它归入“抽象表示/非生成模型”一侧,强调其潜在价值在推理、规划与物理AI系统(尤其机器人)。

材料中对AMI的具体产品披露很有限,只能列出可能的应用方向:机器人、自动驾驶、视频理解/分析,以及带摄像头的AR/VR与智能助手等。融资方面,报告提到AMI Labs以超过10亿美元的种子轮融资亮相,PitchBook口径投后估值在45亿美元以上。

资本和人才已经在聚拢:空间智能的竞赛开始“提速”

这份摩根士丹利材料最重要的信号,可能不是某个模型参数或某次demo,而是它描述的格局变化:从DeepMind、Meta、微软、特斯拉、英伟达到一批新创,世界模型正在变成“下一阶段的共同语言”。它既能解释为什么游戏、影视、设计会出现生产力跃迁,也能解释为什么自动驾驶与机器人会把训练、验证和规划越来越多地搬到虚拟世界里。

世界模型不是一个即插即用的万能件。报告给出的结论更像路线图:能跑起来的场景已经出现,真正的难点也摆在台面上——长时稳定、可控、多智能体、物理细节与评测体系。接下来是谁能把这些硬问题做成工程闭环,才是“数字到物理”这段旅程能走多远的分水岭。

 

~~~~~~~~~~~~~~~~~~~~~~~~

以上精彩内容来自追风交易台

更详细的解读,包括实时解读、一线研究等内容,请加入【追风交易台▪年度会员

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章