车圈尽头是 AI，李想先一步到了路口

柴旭晨

06/18 16:08

下一场战争，不在车圈。

过去几年，理想贡献了中国汽车行业被模仿最多的一套产品方法论。如今，理想又要去探索未来了。

6月17日，理想办了一场Livis Day的AI与具身智能发布会。这次没有行业熟悉的冰箱、彩电和大沙发。取而代之的是VLA、Agent、世界模型、3D ViT、自研的马赫芯片。

这些内容更像应该出现在OpenAI、Google或者英伟达的开发者大会上，很多人看完Livis Day后的第一反应是：理想怎么突然开始讲一些听不懂的东西了。

对于一家年销量正在冲击第二个百万辆规模的车企来说，这些内容看上去甚至有些“不务正业”。但理想讨论的已经不只是汽车。或者说，汽车已经不再是故事的全部。

要知道，当下国内汽车市场大盘收缩，1-5月的销量同比下滑近两成，玩家们纷纷保销量、保交付的情况下，理想如此激进的行径，反而是想破内卷，逃出价格战的裹挟。

回溯来看，过去几年里，中国汽车行业几乎所有企业都在变得越来越像理想。

理想几乎贡献了行业最成功的一套产品方法论。从增程到家庭SUV，从六座到冰箱彩电大沙发，越来越多的新车开始长成理想的样子。曾经被视作另类的选择，如今已经成为主流。

这是理想最成功的地方，也是理想必须寻找下一个答案的原因，因为所有产品创新都有一个宿命：一旦被验证成功，就会被复制，赖以成功的护城河就开始被消解。

十年前，马斯克已经经历过一次类似的过程。

当越来越多车企开始学习特斯拉如何造电动车的时候，马斯克把注意力转向了自动驾驶；当越来越多公司开始追赶自动驾驶的时候，特斯拉又开始研究机器人；而今天，特斯拉自动驾驶负责人Ashok Elluswamy在CVPR上谈论的已经不再是汽车，而是一个统一的机器人基础模型。

Ashok说，自动驾驶、Optimus机器人和智能体，本质上是同一个基础模型在不同身体上的投影。重要的是那个能够理解世界、进行推理并采取行动的统一模型。

如果把这场演讲与几天前理想的Livis Day放在一起看会发现，当整个行业都在学习理想的时候，理想开始学习特斯拉了。

首先是大脑，发布会后的媒体沟通会上，基座模型负责人詹锟被问到，为什么理想如此强调语言模型能力，他向华尔街见闻揭示了理想的真正目标。

“我们认为越往L3、L4走，解决的问题越来越接近90%、95%、98%之后的问题——那些你从来没见过的问题，需要模型具备像人类一样思考的能力。”

过去十年，自动驾驶行业最主流的逻辑是规模化学习，让模型见更多的数据，走更多的路，覆盖更多的Corner Case，本质上是一种经验主义，但理想正在讨论另一件事。

如果汽车遇到一个从未见过的场景怎么办，如果训练集里没有答案怎么办？为了说明这一点，詹锟举了一个例子。“比如出现一头鸵鸟和一头大象时，应该怎么处理？如果是鸵鸟，碰一下没事；如果碰到大象，碰一下可能就会翻车。”

对于人类来说，这是常识。对于机器来说，却不一定。因为常识背后并不是记忆而是理解。于是理想开始把注意力从感知转向思考。

詹锟表示，“人和动物最大的区别，是人以语言作为符号进行高层次的思考。这些能力来自于语言，而不是来自于视觉。”

这其实已经不是传统智驾公司的表述方式。过去行业讨论自动驾驶，关注的是摄像头、激光雷达和算力。而理想开始讨论语言、推理和思维链，实际上是在重新定义智能。因为在理想看来，未来汽车最重要的能力可能已经不是“看见”。

理想对Agent的定义也指向同一方向。

很多人把Agent理解成一个更聪明的车机助手。但从理想的表述来看，它显然不只是一个聊天机器人。詹锟谈到Agent时提到几个关键词：记忆、规划、推理、执行。这些能力看似属于Agent，实际上也属于自动驾驶，甚至属于未来所有机器人。

因为无论是帮用户规划一天行程，还是帮用户规划一段驾驶路线，本质上都是同一种能力。理解意图、拆解任务、执行任务。

MindGPT、Agent、VLA、世界模型，看起来是几条独立业务线。实际上指向同一个目标，一个能够理解世界并采取行动的统一智能体。

詹锟说，“我们把物理机器人分成三个关键任务。一是具身交互，二是移动，三是操作。”

随后他补充道：“车里面包含了Language语言智能，这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。”理想已经把汽车放进具身智能的坐标系里重新审视。

过去行业认为：汽车是交通工具，机器人是机器人，Agent是Agent。而在理想和特斯拉越来越接近的世界观里，它们正在逐渐融合。

在这个框架里，汽车、Agent和机器人共享同一个大脑，分别负责移动、交互和操作。理想要做的，是同时具备这三种能力的统一系统。

回头看Livis Day上发布的每一项技术，都在给这个统一智能体补拼图——语言智能、交互智能、行动智能、物理世界的理解能力。

如果说詹锟谈的是大脑，那么谢炎谈的则是神经系统。

也有很多人把芯片的问题理解成成本问题。但谢炎对此反复提到一个词：全栈。“从L2往L3走的时候有很多问题，今天没有供应商可以解决。要解决未知问题、想达到更高标准时，领先企业一定会选择一起做。”

在谢炎看来，未来的竞争已经不再是简单采购零部件，而是系统能力竞争。模型需要与芯片协同、芯片需要与系统协同、系统需要与车辆协同，最终形成一个完整闭环。

这其实也是特斯拉过去几年一直在做的事情。Dojo、自研芯片、FSD、Optimus看似分散，背后却是同一种逻辑。把关键能力掌握在自己手里。因为当行业进入无人区时，供应链已经无法提供现成答案。

谢炎后来的一句话点出了理想这次转型的根本原因，“车的内卷就是因为同质化。要摆脱同质化，就是要做别人不好做或做不到的事。”

某种意义上说，理想今天越来越像特斯拉。它们争夺的已经不是下一代汽车，而是下一代智能终端，理想要把汽车公司，变成一家真正的AI公司。

以下是与理想汽车CTO谢炎、理想汽车基座模型负责人詹锟的对话实录：

问：理想汽车这几年经过很多次智能化的体系调整，最终把芯片、基座模型和智能辅助驾驶整合成统一的（团队），您作为CTO视角来看，理想的“三位一体”和特斯拉的FSD、HW、xAI相比，差异化的护城河在哪？是组织效率，还是技术路径的差异？

谢炎：跟特斯拉相比，大家出发点是一样的。如果想围绕AI做出强竞争力有两方面。

一是需要快速迭代。今天的AI发展很快。从芯片领域来说，英伟达也迭代很快，不仅是自己迭代快，还不断收购公司补充自己的技术，说明这个行业竞争非常激烈。迭代快是我们进行组织整合的一个目标，几个团队更紧密地合作，迭代速度会上去。

第二是，需要垂直整合。理想汽车推崇构建垂直整合的竞争力。在这个时代，如果没有自己的芯片，只做自己的模型，那么如果遇到需要芯片和模型联合设计，才能把问题解决得更好的情况下，我们就失去了这样的机会，特别是一些大的创新。

我个人观点是，当技术发展到平台期时，这时分工会很细。比如PC发展到2010年，操作系统归操作系统、应用归应用、芯片归芯片、制造归制造。但是如果技术处于高速发展期，斜率非常高时，你会发现很多公司又回过头来做整合，因为需要在技术边界上把分工打破，重新做整合。

比如英伟达之前只做芯片，现在英伟达连封装和机架都开始收购公司来做。所以英伟达要解决更进一步的问题时，需要上下游一起来做，如果分成多家公司来做，其实效率是非常低的，甚至是不可能的。

英伟达做Vera Rubin（AI超级芯片平台）时，可以看到不仅是多种处理器，而且机架、散热技术、互联技术都是英伟达来做。虽然英伟达是做计算的公司，但现在全拓展开了。我认为技术快速发展的时代，这是有志于领先的公司肯定要走的一条路。

当然这个投入肯定不小，很多公司不具备这种能力。在我们团队，我的背景是做过操作系统、架构、应用层等AI各个方向，所以我们的整合效率相对更高一些。

除此之外，组织规模小一点也是优势。如果需要高密度、高整合度，组织规模不能太大，如果组织规模太大，就会导致很多部门墙。这是为什么我在公司强调要保证比较小的组织规模的原因，就是想让大家合作得更紧密些。

问：数据是这个时代最宝贵的资产。随着理想车队规模的跃升，从理想内部来看，数据的边际效应是不是出现了衰减？我们是怎么定义价值数据的？

詹锟：现在大家对于自动驾驶来说，数据的理解逐渐收敛了。

第一，数据的量要足够大，数据量足够大的本质是希望收集到更多的Corner Case。Normal Case现在供应商都已经可以采集了，但采集Corner Case非常难，必须要足够大的车队才行。

基数大，但不是说把所有数据都传回来，这没意义。现在大家有很多方法在车端做出很好的neural trigger（神经网络触发器），来判断这个场景是难场景还是简单场景，然后把这些关键数据传回来。这也是现在特斯拉很强的重要原因之一。

对我们来说，我们现在规模已经很大了，主要来源于我们很早就做了很好的基建统一。从理想ONE开始就可以回传数据了。从L系列开始是全栈所有数据回传。现在到了Livis具身智能更强了，现在回传的数据可以理解为达到了L4自动驾驶的公司采集车队的数据质量，360°点云和摄像头数据做了精准的对齐，这些数据给了我们长尾收敛、思考问题的机会。

第二点，指行为质量高。因为现在大家逐渐收敛到端到端的范式，无论做VLA、世界模型还是Vision-Action都可以，但是你一定得知道Action的行为，这时候行为质量就非常重要，行为的干净程度、一致性很重要。这对于使用众包车队的公司来说很有挑战。

因为每个人的开车习惯不一样，怎么在这么多的众包用户中找到一致性，是我们努力做的事，而且也看到了很多机会点。这相比于采集车队来说，难度就在这里。采集车队的众包行为没那么好控制，但我通过算法可以迅速把好的行为留下来，坏的行为去掉。

比如你每次过红绿灯时，是不是稳定的加速度；遇到丁字路口时，能否稳定减速；每次超车时是否合理变道，这些都需要清晰的判断。

正因为我们有很大的车队，可以筛选出很多高质量的用户行为和用户数据。我们用后面的方法来筛选，就简单很多。因为他在发起行为时，我不确定他的行为好不好。但他开完以后，通过看他的后车距离、变道幅度和角度，就知道是否合理。所以我通过后面完整的数据来看，就可以知道他的每一个行为是不是合理。这对于我们来说非常重要，也是我们现在投入最大力度做的事。

现在你问数据规模上去以后的边际效应有没有衰减？

首先，只要模型上去了，只要我们能力往100分去够，一定是个“对数曲线”，一定是慢慢衰减，不可能线性增长，哪个公司做AI都不是这样的。但是我们的数据质量，能随着车队规模的增大而增长，其实也在抵抗这个对数，我们有更多的机会采集到我们想要的数据。虽然确实越往后面，数据收敛的作用就没那么快了，但我们也希望通过规模，把它的速度加起来。

问：要达到特斯拉FSD V14的效果，我们还需要做哪些工作？

谢炎：其实我们的整体能力，内部评分比之前高很多，这个模型现在的上限非常高。真正难的问题是我们要扩大模型的感知与认知能力的上限。你看这个版本的模型在很短时间内，已经达到了量产水平。

很多公司都是先发芯片，再花一段时间适配上车。我们不仅提供了高阶的智驾、城市NOA，而且比上一版本能力强很多，在非常窄的3米路况上也可以通行。

詹锟：业界都说要追上FSD的水平，但不一定能追上。我认为追上FSD有两个层面。

第一是基础体验，具体是三方面：安全感、效率、舒适度是否能达到FSD的同等水平。相信大家如果开过FSD，它的安全感非常足，效率很好，舒适度很好，这是它的基本功。我不一定跑很难的路，但这些基本功可以达到这个水平。

第二是能力，这一点也很难追。FSD有哪些能力是别人没有的？比如特斯拉会礼让特殊车辆，有极窄通行时的感知精准度，它会识别交警指挥，这些能力非常强。如果我们能做到这两项，就能追上FSD。

在基础体验上，这需要非常好的评价体系。我们希望从自己的测试团队和产品团队开始，跟用户和媒体一起想，怎么去评价我们的模型——它的安全感、舒适和效率怎么平衡。这里有很多方法，再加上我们芯片性能还没完全释放，我们可以效率更高、反应更快。

第二个关于能力，这里有架构升级的机会。为什么别人没有、只有特斯拉有？这里有我们的一些思考。我们会去做这样的改进，把这些能力提升上来。

大家想想，这些能力是怎么来的？为什么别人没有？可能是以前的范式限制了这些能力，有架构的原因，有数据的原因。它怎么就能找到这么多倒车数据？这是采集的还是合成的？怎么把这些坑坑洼洼的信息传回去？这在架构上有很好的设计。我们在这个层面做了很多尝试，目前也有一些初步的实践结果。

问：五年后或者再往后看两代产品，理想车内的算力中心有没有可能全部使用自研的马赫芯片？

谢炎：我们就是这么思考的。虽然业内有一个说法叫“舱驾一体”，我们认为舱驾一体最核心的是AI算力部分，其他部分是不是一体没那么关键。因为座舱系统跟AI智驾系统可以完全独立，但AI算力可以集中在一起，这样分配效率会高很多。

所以我们路线图的最终形态是车内一个AI计算中心，所有AI任务都可以到这个计算中心去计算。就像笔记本上跑龙虾一样，AI不在笔记本上，而是在云上，车里也类似，有一个Token服务器。

这个Token 服务器的优势：第一，效率非常高。第二，能做到不同任务互相隔离、互不影响。比如智驾任务的确定性——无论是内存还是带宽，能够保证不被其他任务干扰，这是软件和硬件一起设计才能实现的。只靠芯片提供商做不到这一点，需要软件跟硬件一起配合设计。

我们的优势在于，可以把一些计算单元完全隔离给智驾用，另一部分给其他任务用。如果是通用的SRT（安全可靠传输协议）架构，它不能完全做到这一点，因为这些东西藏在硬件里，而硬件并不知道上层应用的语义。它不知道下面跑的线程是智驾任务还是其他任务，或者说它做这些事情的代价非常高。就像我昨天发布会说的，我们走向数据流架构有很多原因，有效率的原因，也有AI场景下多任务需要并行运行、对时延非常敏感、对资源确定性要求很高的原因。

问：之前一直是冯·诺依曼架构指导了整个芯片体系，现在我们第一次看到动态数据流架构用起来了，四年前理想看到了什么？整个链条要从头到尾全部变短才是真正的全栈优化，背后的组织是怎么实现的？

谢炎：四年前，我们给自己立了一个很高的目标就是自研。我们为什么要自研？我和李想有一个非常一致的意见：自研不是为了证明自己有能力做，而是真正去解决问题。

四年前我们看到的问题：一是算力成本非常高，而且会不断变高，因为车内需要越来越多的AI算力。二是我们希望通过自研做得更好。当时我们用英伟达和地平线，我们给自己定的目标是，如果做不到比外购芯片更好，那做的意义不大。当时定的目标是4倍Orin的性能。

如果要达到这个目标，背后有一套逻辑——你要做得比英伟达更好，用英伟达的技术路线是不可行的。因为英伟达比你早启动几十年，积累比你深，资源比你多几个数量级。你唯一的机会就是跑另外一条路径。

在这个思路的指引下，我们开始看其他技术路线。就是扔掉所有以前的架构依赖，回到本质，从第一性原理看AI计算本身还有什么机会。

我在读研究生时，我导师高光荣教授是数据流架构的奠基人之一，他在MIT时就做这个事。当然在通用计算时代并不成功。我们发现他的思想本质是：你要做的是计算，冯·诺依曼架构相当于帮人类做一个中介去实现计算，中间有翻译层，这个翻译帮助人类更好地去编程，但这个中介和翻译会降低效率。

如果回到计算的本质，可以把中间的翻译拿掉。当然的确很少有企业做过实践，中国也是如此。所以大家看到的机会都是一样的，关键是如何极致地解决这个问题，从第一性原理来倒推。我们四年前定了这样的目标，并且觉得是可行的。

关于组织协作。为什么垂直整合比较重要？因为要做到这一点，只有硬件团队不够，还必须有模型团队。我们设计芯片时，软件团队、模型团队坐在一起分析。而且大家比较兴奋——之前很多做软件的人根本没有机会直接对硬件团队提需求。

在组织上，我们希望以某一个核心的、有挑战的目标为中心，围绕它构建项目团队。实际团队是分开的，但像一团篝火一样，有硬件的人、有软件的人、有模型的人，大家在大目标下一起共创、一起实现。我们内部越来越多的项目会往这个方向走。

问：马赫M100为何没设计PCIe接口，是否因为M100是数据流架构的AI推理芯片，所以相较其他友商的自动驾驶芯片，对带宽需求没那么高？

谢炎：我认为未来智驾需要更多的算力。回到2022年我们设计芯片时的目标，它的性能是当时最好芯片的4倍，我们觉得够了。PCIe控制器本身也占一些面积和成本，所以就没有加，觉得四年以后怎么也够了。

某种程度来说，我认为加上会更好，因为有可能未来智驾需要更多的算力。你可以想象当未来的智驾能力更强时，也许不是几年，也许是两年后，需求就不一样了，这也是我们设计未来芯片时会考虑到的点。

你看昨天发布的场景，今天有一些云端的大模型最终要落到本地，特别是跟舱内视觉相关的。很多人会敏感，觉得舱内摄像头把车内信息都上传到云端不安全，所以这些信息应该在本地处理。比如你在地库跟一辆车像跟机器人一样交流，而地库没有信号，所以你需要很强的本地大模型，几B到几十B的模型。所以会有另外一颗芯片，更好地承担这部分工作。

关于第二个问题，我们对带宽的要求会低，现在HBM很火，很多人觉得带宽越高越好。计算，带宽，SRAM等等都是需要晶体管代价来实现，最终的设计都是成本/综合性能等多方面的综合设计考量后的一种选择。

不同的架构设计，仅仅靠一两个指标来做简单对比，既不合理也不专业。这就像打拳击比赛，高有高的优势，体重大有体重大的优势，但不是由单一指标决定了胜负，最终比的是拳击这个运动的结果。泰森，既不是最高也不是最重的，却是拳击最强的那一个。

M100 通过编译器显式编排数据搬运与计算时序，绝大多数张量数据在片上流动完成算子运算与中间结果传递，大幅减少了对于直接进出 DDR 的访存次数，因此对外部 DDR 带宽依赖更低。

问：为什么现在的大算力芯片方案，比如英伟达、小鹏、理想自研的这些，都没有做芯片级的舱驾融合，反倒是高通在低算力的骁龙8650上做了这件事？

谢炎：从本质上讲，舱和驾是两个独立系统。特别是对高端的L3往L4走，智驾需要一个更高确定性的系统，内存是专属、计算资源是专属，这时融合的意义就小了很多。因为资源不能实时切换，实时切换会降低确定性。如果变成越来越独占的方向，融合的价值就不大了——你只是把芯片拼在一起，但资源还是两份，并不会带来成本的降低，甚至会影响效率。

对低端来说，L2对切换的实时性要求不高，有一部分确实可以有限地共享，但我认为也不多，未来会证明这一点，因为今天只是个概念。

我认为真正的舱驾融合，是舱需要的资源和驾需要的资源在物理上完全是一块，可以动态共享。不是形式上放在一起，但实际切成两半。融合就像你的笔记本跑浏览器和其他应用程序，笔记本的内存完全可以共用。

你看现在那些舱驾融合系统，它肯定还是分开的，今天做不到一会儿跑这个一会儿跑那个。如果做到的话，融合的价值确实很大，但做不到的话，只是减少一定的成本，只是省了一次封装的成本。对中低端芯片来说这部分钱可以省，但也省不了太多。

我的观点是，越往后走智驾越来越高端，舱驾融合这件事可能意义并不大。如果把这些芯片做得更近一点，在一块板上做成很小体积的集成化方案，这是可以的，并不一定要做成一块芯片，也可以多块芯片放在一起。

问：现在的智能驾驶模型中还有“L”的部分吗？

詹锟：现在自动驾驶的架构，大家都会有一个共同的趋势，就是把VLA和World Model整合在一起。无论做VLA还是World Model，里面的Prompt都要用Language。

我觉得更本质的问题是马赫VLA到底是Language Based Model还是Vision Based Model？昨天说的机器智能和语言智能，我觉得这可能正好是两个不同方向的base。

机器智能来说，我觉得Vision Based是更合理的，它是对空间理解、对3D空间的感知、对环境服务是更合理的。Language肯定有用，对理解环境、理解交通、理解指导、理解复杂的思考决策都是有价值的。

马斯克一直在说要把Reasoning（推理）上车，虽然还没上，但大家都在往这方向做，而且Language一直是我们很重要的一个中间监督项。

但对于语言智能来说，Language Based永远是最好的，没有哪个语言智能是用Vision Based的。但Vision必须要，否则怎么能看到车内你拿了手机、拿了电脑呢？这个问题就是你以哪个为base。从长远来看，基于Vision和Language原生的基础模型，可能是长远的未来趋势。

谢炎：如果要走向L3、L4，要解决更泛化的问题时，你的模型需要具备像人类一样的思考能力。

如果它只有Vision和Action，它有很多数据，碰到分布以外的情况就会不知道怎么办。比如出现一头鸵鸟和一头大象时，应该怎么处理？如果是鸵鸟，碰一下没事；如果碰到大象，碰一下可能就会翻车。这只能通过大量的数据，给它几十亿公里的数据。

而一个动物，哪怕学会了所有常见情况，碰到这种从未见过的情况完全不会处理，它不知道做什么选择是对的。

我们认为越往L3、L4走，解决的问题越来越接近90%、95%、98%之后的问题——那些你从来没见过的问题，需要模型具备像人类一样思考的能力。而得到像人一样推理和思考能力的来源是语言模型。

人和动物的最大区别，是人以语言作为符号进行高层次的思考，这些能力来自于语言，而不是来自于视觉。我们认为越往后走，语言的重要性会越突出，这也是未来需要很大算力的原因。因为如果只有Vision-Action，算力到了一定程度就够了。

但如果要往后走，模型需要理解各种场景，比如有个警察在做手势，你要理解他是让你走还是不让你走，这不是靠收集数据或生成数据就能解决的问题。

问：基座模型怎么从车扩展到其他终端？

詹锟：你说车的自动驾驶怎么迁移到机器人上？我认为这个gap很大。切换到机器人的导航没问题，但如果切换到操作上，模型不是那么一样。或者说基座只是一个非常基本的，它后面一定是千差万别，这一点要确认。

车里面包含了语言智能，这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。DeepMind Robotics团队有个ER模型，就是来自Gemini的，把语言思考上的能力从通用场景迁移到机器人上。

我们把物理机器人分成三个关键任务。一是具身交互，我们跟它沟通、交流、思考，让它做任务规划。二是移动，自动驾驶能不能从A点到B点，无碰撞、安全、高效地到达目的地。三是操作，狭义的具身，是一个独立任务，是开放性场景，业界很多人都在探索，包括硬件、数据都是不完善的。这三个任务任意的组合，都会形成非常有价值的商业模式与价值形态。

我们的车有机会把这三点都涵盖。涵盖以后，我们想长成任何一个物理的具身本体都有非常大的机会。你说我们有没有共同基座？我们肯定有云端的共同基座。但这个基座是不是放在任何任务上就能直接用？我觉得比较难。

但它作为基座，提供海量的数据支持、训练环境，能提供基模的baseline，帮助你快速做下个任务的收敛，这是很有帮助的。所以这也是我们成立基座模型团队的原因，我们会有基座来支撑各个业务，但每个业务有自己的特点。

问：自研芯片背后需要什么条件？目前自动驾驶迭代速度很快，芯片要持续迭代的话，需要什么样的条件？

谢炎：芯片，先期投入的确不小，可能一年要好几亿。第一个条件是达到一定的营收规模。对车企来说，营收规模一年1000亿以上，研发投入至少10%，就有大几十亿到上百亿，每年投钱研发芯片是可以的。第二个条件是，你研发芯片解决的问题，要能让你的产品能力更强。

这里有个误区，很多人说芯片要有很大的出货规模才行。其实芯片的成本和面积相关。一辆车上的芯片，比如Livis是2颗马赫M100，加起来800平方毫米。而一部高端手机芯片大概100平方毫米，所以一辆车的智驾芯片相当于8台手机的芯片面积。

这样算下来，大几十万辆车需要的晶圆面积非常大，完全可以摊薄成本。所以成本不能仅用颗数来衡量。有的IT公司说一年出货好几亿颗，但其实每颗面积非常小。不能脱离背景只谈量，这是不完整的。

我们在马赫M100立项时算过，做这个芯片不会让公司的效益变差，而是会变好。我们不是为了证明自己能做而做，不仅性能要做到最好，在成本上也要帮助公司省钱。

问：自动驾驶的Scaling Law似乎没有起来。接下来理想要拉大差距的话会做什么？

詹锟：一年前到现在，智驾格局确实发生了变化，感觉差距变小了。但从另一个角度看，从一年前到现在，很多玩家已经不在了，现在至少智驾的玩家收敛了。

有几个原因。一是智驾是重投入，它不是把一个公司的算法带到另一个公司就能转起来，它是一个系统，涉及到系统、人、技术、算力、平台，这是很大的壁垒，无法在短期内建起来。

为什么你感觉第一梯队差距没拉大？这里要思考，我们如何建立护城河，靠什么能让别人无法快速追上。我认为要参考特斯拉。

第一，全栈才能建立真正的护城河。你的算力、芯片、基础设施能不能完全统一在自己的可控范围内，这很重要。如果你只是算法，中美之间的人才流动很快，很容易被迁移。但如果你是全栈的，迁移成本很高，也很难。

第二，你愿不愿意把精力投入到苦功夫上，比如精细地洗数据。这里有很多细节，这些细节并不高大上，但这些一点一滴的细节才能形成护城河。我们也会在这方面持续加大投入，逐步把护城河建起来。现在已经有全栈自研的机会了，我们会加大投入，把这些苦功夫做下来。

虽然第一梯队之间的差距感觉变小了，但大家跟特斯拉的距离并没有缩小，特斯拉还是很强。如果我们完成年底追上特斯拉的计划，是有机会脱颖而出的，也是我们一直想做的事情。

问：未来有多少车企会真正做成自研芯片？在当下芯片产业链快速发展的情况下，哪些环节是被加速的，哪些过程是必须要经历的？

谢炎：你的问题分两部分。第一，为什么这么多车企都发布芯片，是不是这件事很容易？我想说其实挺不容易。

我们自己做这颗芯片花了4年，在新势力里我们启动最晚。大家要看发布芯片后，最终结果是最领先的模型什么时候真正落到车上。从这个时间来看，除了我们以外，其他家一般要5年时间甚至更长，我们是最快的。

做一颗芯片和做一颗领先的芯片，难度又是不一样的。我跟李想说过，我最担心的事不是做不出来，最糟糕的事情是做出来了但它不领先，那公司这个钱就白花了。

我们看业界，并不是每一家公司都能做到。现在很多公司宣布做了，但并没有真正落到车上。要看它什么时候落到车上，什么时候把最高端的智驾用自研芯片跑起来，并且还能做好用户体验。

再者，看是不是所有车都能用。有的公司为了证明自己能用，只用了一款车型，出货量只有几千辆，其他车还是用外购芯片，说明它也知道这件事并没有帮它解决真正的问题。

另外一个指标是能不能持续迭代。做一代芯片不说明问题，最终要做出第二代、第三代。很多公司只做了第一代，第二代就不做了。有些公司也可能买个IP就做了，也可以宣传自己自研。

但我们不是，因为我们连论文都可以看到，这个世界上没有第二个芯片跟我们做的一样，完全没有，甚至连这个思路都是我们提出来的，没有任何已有的IP可以follow。

问：在芯片产业链里，哪些环节是可以被加速的，哪些环节是必须要自己踩坑的？

谢炎： 有些技术是成熟的，比如偏后端的部分，有点像造房子，你找工程队，比如垒砖，是可以找到供应链帮你加速的。但是真正要做到量产、做到最领先，设计肯定要自己做，软件要自己做。如果你连软件都外包给别人的话，你不可能迭代芯片性能。当然生产一般都是fabless，大家不会自己再去造工厂，这是另外一回事，生产今天是成熟的。

回到国内，我们会越做越深。如果做芯片要持续领先的话，仅仅做芯片设计，做成GDS2（版图数据库），交给晶圆厂去做流片，这也不够。很多部分要跟封装厂联合设计，要垂直整合。有些技术不仅仅是货架商品，由别人提供就可以，你要深入到封装制造领域才能领先。我们不会停留于此，会越做越深。

问：这套架构能不能很好地应对Agent爆发式的流量？模型的通用性是一方面，带宽和并行能力能不能应对Agent的爆发？

谢炎： 您可能想问它的通用性问题。我们芯片第一个重要的业务毫无疑问是自动驾驶，但我们没有做成只能跑一个模型。它的数据流可以跑任何模型算子，不仅可以跑自动驾驶，也可以跑语言模型，昨天我介绍了我们能跑Qwen 35B。

我们是个端侧芯片。作为端侧芯片，它的服务请求不会很多。如果我们设计一个云端芯片，是同时服务1000个用户。但端侧芯片的要求不一样，它服务的对象往往只有一两个任务，它要求的是更短的延时，而不是服务更多的对象。如果是云端芯片，架构还是数据流，但设计和端侧芯片就不一样了。

问：马赫M100芯片对编译器的要求非常高，编译任务非常重。跟传统编译器相比，有什么不一样？

谢炎：如果你学计算机会知道编译器是计算机里最难的课，比操作系统还难。

数据流和传统的冯诺伊曼架构不同。冯诺伊曼架构是为了适应人类的思考，把计算抽象成顺序的指令，这样人可以一步步做推理。而数据流是大规模的并发，多条数据流同时在进行，它不仅在时间上往前推，在空间上也要布局，叫时间空间编译。再加上我们没有指令顺序，基本上是用消费者-生产者的模式，大量的消费者和生产者在同步进行，这需要完全不一样的编译框架。我们做这个事花了大量的时间。

我们对人才的要求是，不仅要懂编译，也要懂架构。反过来讲，做硬件的人也要懂软件编译器怎么用。所以我们的编译团队也是架构团队，这个芯片是软件、硬件、架构团队一起设计的。

我非常同意Jack B.Dennis教授的一句话，他说现在计算机分工太细了，硬件的人不懂软件，芯片的人不懂编译器，软件的人不知道硬件怎么work。

大家没有意识到，当你同时看到硬件与软件，本质就是计算机完整的图景，当你看到所有东西时，你可以创造更大的创新。看计算机理论的话，它本身不分硬件软件，本质就是如何让一个计算任务完成。为什么后面分出了硬件与软件？因为有一部分用软件来抽象效率更高，有一部分用硬件来抽象效率更高。但当你需要更大的创新时，应该打破这个边界，重新看计算机是怎么设计的。

今天美国非常创新的公司，他们思考的东西是从根本上打破软硬件的边界——把传统认为是软件的东西放到硬件上，把传统认为是硬件的东西放到软件上，这样才能得到划时代的创新。如果原来怎么做，今天还是怎么做，性能的提升速度远远赶不上需求。今天摩尔定律越来越弱了，缩放定律已经失效了很多年，会拖慢整个AI发展的速度。

问：马赫M100芯片在理想的定义里是一款AI推理芯片，而不是AI训练芯片，这两者的边界是什么？在AI训练领域英伟达已经很垄断了，跟它做竞争是不是很难追上？

谢炎： 我认为AI计算的算力市场，最终会出现99%的推理，训练只占很小的部分。从这个角度来讲，今天中国和美国大量的公司在为了更高的效率专门做推理芯片，也是这个原因，因为最终推理市场更大。如果推理市场没起来，说明AI没有真正落地。

从我们的角度而言，我们公司先要解决推理问题。训练的话，用市场上好的训练芯片，目前够我们用了。

从经济模型角度来讲，训练要的是效率，它对成本不太敏感。训练要的是在足够短的时间内迭代。至于成本高了50%，甚至高了100%，也没关系。英伟达最高端的芯片，很多公司以翻倍的价格也愿意买。

但是推理芯片不一样，它要同时考虑成本与效率，而且考虑成本的比重非常高。从解决公司和业务问题来讲，推理问题更大，它跟我们想要达到目标的gap更大。如果我们做一件事的话，我们就解决机会最大的问题。

问：跟友商相比理想的领先性体现在哪些方面？

谢炎：我们为什么敢说自己是世界第一呢？因为我们跟市面上标准可以获得的芯片做对比，它是英伟达Thor-U三倍的性能，对于上车时间我们已经做得很快了。做芯片基本要5年时间，而我们基本快4年时间就上车，而且把所有模型都跑起来，这已经很快了。

问：去年年中，为什么还要重新做编译器开发？去年年中迭代的那一版主要是解决什么问题？

谢炎：编译器工作不是做完就结束了。从流片前、回片后、部署上车后，一直会持续迭代，因为编译器的核心任务是把硬件效率发挥出来，需要一版一版不断优化。去年年中那一版主要是把性能优势充分发挥出来。

我在20多年前学编译课时，老师第一课就讲：编译问题是个NP-Complete（NP完全）问题，是计算机理论里最难的问题之一。这种问题你并不知道最佳性能点在哪，但可以不断逼近。所以“跑通”跟“跑到最好”距离非常大，而且最好永远不可及，只能不断逼近。

我们在跑马赫VLA模型时，性能已经是ThorU的三倍了，但我们觉得依然有潜力可挖，依然在继续迭代编译器。

问：3DViT我们大概是什么时候开始研发这个技术路径的？

詹锟：3DViT证明了2D视觉也能学会完整的3D空间结构，证明了Scaling Law在3D空间的全新可行性。

第二，之前团队一直在往这方面探索和尝试，中间做了很多方案的取舍和权衡。最后因为我们看到3D ViT对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果，我们去年才正式从研究探索阶段转入产品开发阶段。

在这个过程中，我们把它变成一个真实项目，放到最新的马赫VLA里面来。原来马赫VLA不一定使用3D ViT，但有了会更好。3D ViT后续还有更大的改进与优化空间，这也是追上FSD V14很重要的一环，中间的视觉信息能不能表征清楚，这是非常关键的。

3D ViT是一个纯视觉方案，它不依赖于激光雷达。它基于视觉，把空间建模成带有色彩信息的全彩点云，基于更强的视觉编码器和空间视觉表征，做到更丰富的3D理解。

能不能达到激光雷达的效果？我们是有信心的。因为我们最新所有的车都标配了激光雷达，激光雷达对纯视觉方案有非常强的监督和校验作用。一定要达到跟激光雷达完全一样的精度吗？不一定。特别是看远处时，人也分不清大货车是20.8米还是19.8米。

但在极近处，人对深度的感知非常敏感，我们也是如此，在极近处能达到激光雷达的水平，这是上线的标准。另外，理解空间以后更重要的是做出更拟人的行为决策。

问：之前的CNN（卷积神经网络）模型映射到数据流架构会比较好，但现在模型进化到了Transformer和MoE（混合专家）结构，芯片是否还适合模型架构的进化？

谢炎：我认为数据流架构比冯·诺依曼架构更贴近计算的本质。冯·诺依曼做的事情是为了人类编程方便，抽象了数据的顺序指令流，GPGPU也是多个指令流，做SIMT。为了人类编程方便，用指令流顺序表达，又要有高并行度，所以需要做很多硬件额外开销，把并行度重新挖出来。

我认为数据流最重要的一个思想是：假设对人类编程的方便性降低，我靠很强的编译器，甚至靠AI编译器，能不能拿掉这部分额外开销？CPU和GPU架构里有大量的晶体管开销用在缓存一致性，比如指令重排序、分支预测。你看一个CPU，30%的晶体管开销在这上面。如果不用冯·诺依曼架构，这些都可以拿掉。

缓存一致性也是同样的道理，不仅缓存一致性本身会占用晶体管规模，更大的问题是，你为了做到缓存一致性，并行规模不会特别大。如果把可扩展性拉起来的话，缓存一致性就是个灾难，这是不可行的。早期有研究表明，8到16核做缓存一致性就非常困难了，时间开销很大，效率开销也很大。

讲到本质，就是这些额外开销能不能拿掉。这样做的代价就是编译难度会变大，调度难度会变大。在过去这不可行，首先并行度没那么高，除了高性能计算，就是所谓的超级计算机，模拟核爆炸或预测天气，这种场景并行度非常高，这种场景下用编程模型是有意义的。

AI有大量的并行，需要分配到不同的计算单元时，这个架构就有优势了。我昨天讲了，帮把晶体管利用率提升。

你刚刚想问的是，MoE和Transformer的计算密度没那么高，特别是decode阶段可能计算密度没那么高，带宽瓶颈会更大，这的确是需要解决的问题。在计算密度不高的工作负载里，斯坦福去年有一篇论文讲Mega kernel，它把kernel做大，就是为了避免数据频繁进出。

Groq和Cerebras为什么要做那么大的片上内存？就是因为数据全放在片上的效率更高，可以不进出DDR，因为DDR的瓶颈很高，而且成本也很高。今天大家都要用HBM，但都不想用HBM，因为太贵了。回到车上更是如此，我们用不了HBM。我们通过架构的方式把进出DDR变少，让效率进一步提升，不仅是晶体管利用率提升，计算效率也提升。

问：理想做全栈自研的底层思考是什么？

谢炎：全域到底解决什么问题？假设我们停留在L2、L2+，以自动驾驶为例，不做垂直整合也可以，无非是从供应商采买。车还是人类监督，人类随时准备接管，开得慢一点、效率低一点也没关系，要求不高。

但昨天发布会上理想希望它像机器人一样独立地完成任务，那对它的智能要求就非常高了。不仅是脑子，对手脚的掌握、对加速、轮子、纵向横向的控制，要求都很高。

从L2往L3走的时候有很多问题，今天没有供应商可以解决。你分开采买，可以给你系统、给你线控，但加在一起，有大量的冗余，成本又高，延迟又高，出了问题还很难定位。所以要解决未知问题、想达到更高标准时，领先企业一定会选择一起做。当然我不排除20年后技术进入平台期时，会拆分出各种供应商。但在技术还没收敛的阶段，要达到这个目标，必须自己整合。

就是因为一些问题不好解决，我们才要自己出手，而且这些问题是长期性、重要性的问题。比如L3、L4，今天没有人完全做到，特斯拉也没完全做到，这是无人区，你需要解决这些问题，需要投入巨大的资源。

车的内卷就是因为同质化。要摆脱同质化，就是要做别人不好做或做不到的事。这些事如果供应商能做到，那又同质化了。这就是基本逻辑。

问：3D ViT对智驾行为的改善，具体体现在哪些方面？

詹锟：人眼有两个非常重要的特性：第一是实时双目，双目天然就带了3D结构，这一点很厉害；第二是前额叶很强，能抽取非常高维特征的表征。做深度学习本质上是在做表征学习，就是把信息映射到高维空间的特征，这个特征长什么样子我们没法直观描述，但它要包含所有下游想要的信息，这是大脑在做的事。

人的双眼时刻去观察3D物理空间以后，大脑中整个物理空间会有很强烈的3D感。但是摄像头，特别是单目摄像头，天然是没有3D感的。人眼如果遮住一只，当习惯了双眼训练以后，单目也能看到3D结构，因为前额叶已经把这种能力固化下来了。

对机器来说也是这个思路：用很高维的3D空间数据去训练它。即便摄像头在移动中，也能构建出三维空间，这就是典型的3D建模思路。任何一段视频进来，通过三维建模构建出三维空间，任何一个单目摄像头就可以知道三维空间是什么样，跟人的思路一模一样。通过这种方式，3D ViT就可以深刻理解3D环境。

补充一点，激光雷达也能理解3D环境，它是主动光。但3D ViT的特点是，除了理解环境的3D结构外，还能理解3D物体的属性、纹理、类型，因为它有RGB，保留了所有信息。甚至还能做tracking，就是对移动物体做动静分离，在3D环境中很容易判断目标是动还是不动，这就是光流的作用。把这些能力结合以后，高维的视觉表征就非常丰富，不会有遗漏。比如地面有个坑和沟，你很容易识别出来。

如果我拿BEV来表达的话，我没有定义什么是沟和坑，对下游决策来说就缺少了这个信息，这就叫高维表征的缺失。所以只有解决了这个问题，才能给下游提供更完整的信息，下游才能根据这些表征做出正确的动作。

以前大家熟知的“The Bitter Lesson”（苦涩的教训），是指机器不要加任何人为先验，用数据训练，一定做得比人更好。现在最新的理念是“Vision Bitter Lesson”（视觉苦涩教训），就是怎么判断你的视觉表征好不好？看你有没有做出对应的动作——你绕过了这个沟，才能证明你理解了这个沟。我们通过构建一个非常好的三维空间表征标准，让下游把动作真正理解好，这样视觉能力就得到了充分的展现。

问：在马赫M100平台上，强化学习数据提升了15倍，具体会在哪些场景去做强化学习？

詹锟：强化学习最重要的是决策和行为的联合优化。现在所有训练范式中，强化学习都是post-training阶段的一部分，主要针对训练中的弱势场景、数据分布不好的场景、或者混淆度高的场景。这需要有很精细的拆分方法，把这些场景识别出来后，让模型在里面自主探索，通过reward给它反馈探索的结果对不对，对决策和行为做联合强化。具体场景非常多，比如绕行、变道等，都是通过这套方法论，找到post-training中的弱势场景来做强化，不是一概而论的。

问：做基座模型是不是汽车公司想站在AI前沿的必要基础能力？

詹锟：关于基座模型，我认为答案是肯定的。只要想走具身智能和AI方向，基座模型一定是必争之地。基座模型不太可能像OS（操作系统）一样有一个标准件，因为每个人的场景任务不一样，需求也不一样，所以基座模型需要自己建。特别是语言模型的基座，做汽车有汽车的基座，我们对视觉语言的重视更多，参数量的分配比例也跟通用模型不同。

核心有两种类型的任务——语言智能和机器智能，这两个对基座模型的需求是不一样的。可以共用一个云端大模型做基础，但实际使用中一定是有区分、有差异化的，我们也是在往这个方向做。我们已经有非常强大的统一基座模型，可以构建物理环境，我们对它有很多反馈和评价机制。但真正落到车上时，需要有裁剪、有取舍、有参数量的适配、芯片能否承载，我们要做不同的改造。

至于将来会不会有一个技术收敛的外部模型给所有厂商直接用？如果说有开源的pre-training（预训练）模型，这是有可能的。但你想让一个pre-training模型就直接给大家当基座用，我觉很难。大概率大家还是要做很强的post-training（后训练），才能变成真正能用的基座模型。

问：Mind-Pro在Agent能力上表现出行业领先的水平，未来有没有考虑过开源？

詹锟：Mind-Pro是一个性能不错的主流模型。模型架构采用了MHA（多头注意力）、GQA（分组查询注意力）之类的架构设计。要不要对外输出？这是一个商业选择问题。我们自己车的本体有强烈的优化倾向性，没有必要对外去卷coding（代码能力）这个赛道。现在大家卖token主要还是往coding方向走，我们没必要卷这个方向。

但我们为什么在这些benchmark（基准测试）上取得了不错的成绩？因为我们对自己的硬件本体有非常深刻的理解。我们车上有很多硬件资源需要调度，如果用其他第三方大模型去试，效果不会比我们好，反应还很慢，常识错误也很多。我们通过强化学习以后，模型对车身运动有很强的理解——知道车身如何晃动，里面有很多tools（工具接口）可以调用。只有基于自己的本体做了强化以后，才会有非常深刻的优势。我们不一定要跟别人去卷coding，因为那是另一个赛道了，不符合理想汽车的主路径。

如果有机会往具身应用方向做开源的话，从长远来看可能有这个机会，但目前各家硬件差异较大，并不一定完全能通用。这是我们想做的方向——把我们的模型跟Agent和物理世界结合得更好，这就是马赫Mind要解决的问题。

问：李想想基于下一代马赫芯片做一个家庭算力中心，类似英伟达DGX Spark的理念。这个项目现在是否在推进中？

谢炎：我们做的M100本质上是一个通用AI推理芯片，理论上讲，它能很好地推理自动驾驶模型，也可以推理语言模型。有同事说这个芯片这么好，能不能装到家里面，因为他需要一个私人的家庭算力。出发点是从这里开始的。下一代芯片毫无疑问会更强，经过一定的改造，我相信放在家里非常有竞争力。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

车圈尽头是 AI，李想先一步到了路口

Meta电话会：扎克伯格强调“卖掉算力换短期利润是愚蠢的”，烧钱买算力不是赌博是必须

特朗普：伊朗想会谈但美国“没兴趣”，“很快”重击镐山核设施，警告胡塞武装勿封红海

机器人“ChatGPT时刻”最快两年！智元姚卯青：先跨过数据、表征与闭环“三堵墙”

阿里云WAIC论坛： “AI爆发不靠一两颗芯片”、SaaS将转向“按结果付费”、模型不再是唯一核心

大宗商品回到了2022年