车圈尽头是 AI,李想先一步到了路口

58
下一场战争,不在车圈。

过去几年,理想贡献了中国汽车行业被模仿最多的一套产品方法论。如今,理想又要去探索未来了。

6月17日,理想办了一场Livis Day的AI与具身智能发布会。这次没有行业熟悉的冰箱、彩电和大沙发。取而代之的是VLA、Agent、世界模型、3D ViT、自研的马赫芯片。

这些内容更像应该出现在OpenAI、Google或者英伟达的开发者大会上,很多人看完Livis Day后的第一反应是:理想怎么突然开始讲一些听不懂的东西了。

对于一家年销量正在冲击第二个百万辆规模的车企来说,这些内容看上去甚至有些“不务正业”。但理想讨论的已经不只是汽车。或者说,汽车已经不再是故事的全部。

要知道,当下国内汽车市场大盘收缩,1-5月的销量同比下滑近两成,玩家们纷纷保销量、保交付的情况下,理想如此激进的行径,反而是想破内卷,逃出价格战的裹挟。

回溯来看,过去几年里,中国汽车行业几乎所有企业都在变得越来越像理想。

理想几乎贡献了行业最成功的一套产品方法论。从增程到家庭SUV,从六座到冰箱彩电大沙发,越来越多的新车开始长成理想的样子。曾经被视作另类的选择,如今已经成为主流。

这是理想最成功的地方,也是理想必须寻找下一个答案的原因,因为所有产品创新都有一个宿命:一旦被验证成功,就会被复制,赖以成功的护城河就开始被消解。

十年前,马斯克已经经历过一次类似的过程。

当越来越多车企开始学习特斯拉如何造电动车的时候,马斯克把注意力转向了自动驾驶;当越来越多公司开始追赶自动驾驶的时候,特斯拉又开始研究机器人;而今天,特斯拉自动驾驶负责人Ashok Elluswamy在CVPR上谈论的已经不再是汽车,而是一个统一的机器人基础模型。

Ashok说,自动驾驶、Optimus机器人和智能体,本质上是同一个基础模型在不同身体上的投影。重要的是那个能够理解世界、进行推理并采取行动的统一模型。

如果把这场演讲与几天前理想的Livis Day放在一起看会发现,当整个行业都在学习理想的时候,理想开始学习特斯拉了。

首先是大脑,发布会后的媒体沟通会上,基座模型负责人詹锟被问到,为什么理想如此强调语言模型能力,他向华尔街见闻揭示了理想的真正目标。

“我们认为越往L3、L4走,解决的问题越来越接近90%、95%、98%之后的问题——那些你从来没见过的问题,需要模型具备像人类一样思考的能力。”

过去十年,自动驾驶行业最主流的逻辑是规模化学习,让模型见更多的数据,走更多的路,覆盖更多的Corner Case,本质上是一种经验主义,但理想正在讨论另一件事。

如果汽车遇到一个从未见过的场景怎么办,如果训练集里没有答案怎么办?为了说明这一点,詹锟举了一个例子。“比如出现一头鸵鸟和一头大象时,应该怎么处理?如果是鸵鸟,碰一下没事;如果碰到大象,碰一下可能就会翻车。”

对于人类来说,这是常识。对于机器来说,却不一定。因为常识背后并不是记忆而是理解。于是理想开始把注意力从感知转向思考。

詹锟表示,“人和动物最大的区别,是人以语言作为符号进行高层次的思考。这些能力来自于语言,而不是来自于视觉。”

这其实已经不是传统智驾公司的表述方式。过去行业讨论自动驾驶,关注的是摄像头、激光雷达和算力。而理想开始讨论语言、推理和思维链,实际上是在重新定义智能。因为在理想看来,未来汽车最重要的能力可能已经不是“看见”。

理想对Agent的定义也指向同一方向。

很多人把Agent理解成一个更聪明的车机助手。但从理想的表述来看,它显然不只是一个聊天机器人。詹锟谈到Agent时提到几个关键词:记忆、规划、推理、执行。这些能力看似属于Agent,实际上也属于自动驾驶,甚至属于未来所有机器人。

因为无论是帮用户规划一天行程,还是帮用户规划一段驾驶路线,本质上都是同一种能力。理解意图、拆解任务、执行任务。

MindGPT、Agent、VLA、世界模型,看起来是几条独立业务线。实际上指向同一个目标,一个能够理解世界并采取行动的统一智能体。

詹锟说,“我们把物理机器人分成三个关键任务。一是具身交互,二是移动,三是操作。”

随后他补充道:“车里面包含了Language语言智能,这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。”理想已经把汽车放进具身智能的坐标系里重新审视。

过去行业认为:汽车是交通工具,机器人是机器人,Agent是Agent。而在理想和特斯拉越来越接近的世界观里,它们正在逐渐融合。

在这个框架里,汽车、Agent和机器人共享同一个大脑,分别负责移动、交互和操作。理想要做的,是同时具备这三种能力的统一系统。

回头看Livis Day上发布的每一项技术,都在给这个统一智能体补拼图——语言智能、交互智能、行动智能、物理世界的理解能力。

如果说詹锟谈的是大脑,那么谢炎谈的则是神经系统。

也有很多人把芯片的问题理解成成本问题。但谢炎对此反复提到一个词:全栈。“从L2往L3走的时候有很多问题,今天没有供应商可以解决。要解决未知问题、想达到更高标准时,领先企业一定会选择一起做。”

在谢炎看来,未来的竞争已经不再是简单采购零部件,而是系统能力竞争。模型需要与芯片协同、芯片需要与系统协同、系统需要与车辆协同,最终形成一个完整闭环。

这其实也是特斯拉过去几年一直在做的事情。Dojo、自研芯片、FSD、Optimus看似分散,背后却是同一种逻辑。把关键能力掌握在自己手里。因为当行业进入无人区时,供应链已经无法提供现成答案。

谢炎后来的一句话点出了理想这次转型的根本原因,“车的内卷就是因为同质化。要摆脱同质化,就是要做别人不好做或做不到的事。”

某种意义上说,理想今天越来越像特斯拉。它们争夺的已经不是下一代汽车,而是下一代智能终端,理想要把汽车公司,变成一家真正的AI公司。

以下是与理想汽车CTO谢炎、理想汽车基座模型负责人詹锟的对话实录:

问:理想汽车这几年经过很多次智能化的体系调整,最终把芯片、基座模型和智能辅助驾驶整合成统一的(团队),您作为CTO视角来看,理想的“三位一体”和特斯拉的FSD、HW、xAI相比,差异化的护城河在哪?是组织效率,还是技术路径的差异?

谢炎:跟特斯拉相比,大家出发点是一样的。如果想围绕AI做出强竞争力有两方面。

一是需要快速迭代。今天的AI发展很快。从芯片领域来说,英伟达也迭代很快,不仅是自己迭代快,还不断收购公司补充自己的技术,说明这个行业竞争非常激烈。迭代快是我们进行组织整合的一个目标,几个团队更紧密地合作,迭代速度会上去。

第二是,需要垂直整合。理想汽车推崇构建垂直整合的竞争力。在这个时代,如果没有自己的芯片,只做自己的模型,那么如果遇到需要芯片和模型联合设计,才能把问题解决得更好的情况下,我们就失去了这样的机会,特别是一些大的创新。

我个人观点是,当技术发展到平台期时,这时分工会很细。比如PC发展到2010年,操作系统归操作系统、应用归应用、芯片归芯片、制造归制造。但是如果技术处于高速发展期,斜率非常高时,你会发现很多公司又回过头来做整合,因为需要在技术边界上把分工打破,重新做整合。

比如英伟达之前只做芯片,现在英伟达连封装和机架都开始收购公司来做。所以英伟达要解决更进一步的问题时,需要上下游一起来做,如果分成多家公司来做,其实效率是非常低的,甚至是不可能的。

英伟达做Vera Rubin(AI超级芯片平台)时,可以看到不仅是多种处理器,而且机架、散热技术、互联技术都是英伟达来做。虽然英伟达是做计算的公司,但现在全拓展开了。我认为技术快速发展的时代,这是有志于领先的公司肯定要走的一条路。

当然这个投入肯定不小,很多公司不具备这种能力。在我们团队,我的背景是做过操作系统、架构、应用层等AI各个方向,所以我们的整合效率相对更高一些。

除此之外,组织规模小一点也是优势。如果需要高密度、高整合度,组织规模不能太大,如果组织规模太大,就会导致很多部门墙。这是为什么我在公司强调要保证比较小的组织规模的原因,就是想让大家合作得更紧密些。

问:数据是这个时代最宝贵的资产。随着理想车队规模的跃升,从理想内部来看,数据的边际效应是不是出现了衰减?我们是怎么定义价值数据的?

詹锟:现在大家对于自动驾驶来说,数据的理解逐渐收敛了。

第一,数据的量要足够大,数据量足够大的本质是希望收集到更多的Corner Case。Normal Case现在供应商都已经可以采集了,但采集Corner Case非常难,必须要足够大的车队才行。

基数大,但不是说把所有数据都传回来,这没意义。现在大家有很多方法在车端做出很好的neural trigger(神经网络触发器),来判断这个场景是难场景还是简单场景,然后把这些关键数据传回来。这也是现在特斯拉很强的重要原因之一。

对我们来说,我们现在规模已经很大了,主要来源于我们很早就做了很好的基建统一。从理想ONE开始就可以回传数据了。从L系列开始是全栈所有数据回传。现在到了Livis具身智能更强了,现在回传的数据可以理解为达到了L4自动驾驶的公司采集车队的数据质量,360°点云和摄像头数据做了精准的对齐,这些数据给了我们长尾收敛、思考问题的机会。

第二点,指行为质量高。因为现在大家逐渐收敛到端到端的范式,无论做VLA、世界模型还是Vision-Action都可以,但是你一定得知道Action的行为,这时候行为质量就非常重要,行为的干净程度、一致性很重要。这对于使用众包车队的公司来说很有挑战。

因为每个人的开车习惯不一样,怎么在这么多的众包用户中找到一致性,是我们努力做的事,而且也看到了很多机会点。这相比于采集车队来说,难度就在这里。采集车队的众包行为没那么好控制,但我通过算法可以迅速把好的行为留下来,坏的行为去掉。

比如你每次过红绿灯时,是不是稳定的加速度;遇到丁字路口时,能否稳定减速;每次超车时是否合理变道,这些都需要清晰的判断。

正因为我们有很大的车队,可以筛选出很多高质量的用户行为和用户数据。我们用后面的方法来筛选,就简单很多。因为他在发起行为时,我不确定他的行为好不好。但他开完以后,通过看他的后车距离、变道幅度和角度,就知道是否合理。所以我通过后面完整的数据来看,就可以知道他的每一个行为是不是合理。这对于我们来说非常重要,也是我们现在投入最大力度做的事。

现在你问数据规模上去以后的边际效应有没有衰减?

首先,只要模型上去了,只要我们能力往100分去够,一定是个“对数曲线”,一定是慢慢衰减,不可能线性增长,哪个公司做AI都不是这样的。但是我们的数据质量,能随着车队规模的增大而增长,其实也在抵抗这个对数,我们有更多的机会采集到我们想要的数据。虽然确实越往后面,数据收敛的作用就没那么快了,但我们也希望通过规模,把它的速度加起来。

问:要达到特斯拉FSD V14的效果,我们还需要做哪些工作?

谢炎:其实我们的整体能力,内部评分比之前高很多,这个模型现在的上限非常高。真正难的问题是我们要扩大模型的感知与认知能力的上限。你看这个版本的模型在很短时间内,已经达到了量产水平。

很多公司都是先发芯片,再花一段时间适配上车。我们不仅提供了高阶的智驾、城市NOA,而且比上一版本能力强很多,在非常窄的3米路况上也可以通行。

詹锟:业界都说要追上FSD的水平,但不一定能追上。我认为追上FSD有两个层面。

第一是基础体验,具体是三方面:安全感、效率、舒适度是否能达到FSD的同等水平。相信大家如果开过FSD,它的安全感非常足,效率很好,舒适度很好,这是它的基本功。我不一定跑很难的路,但这些基本功可以达到这个水平。

第二是能力,这一点也很难追。FSD有哪些能力是别人没有的?比如特斯拉会礼让特殊车辆,有极窄通行时的感知精准度,它会识别交警指挥,这些能力非常强。如果我们能做到这两项,就能追上FSD。

在基础体验上,这需要非常好的评价体系。我们希望从自己的测试团队和产品团队开始,跟用户和媒体一起想,怎么去评价我们的模型——它的安全感、舒适和效率怎么平衡。这里有很多方法,再加上我们芯片性能还没完全释放,我们可以效率更高、反应更快。

第二个关于能力,这里有架构升级的机会。为什么别人没有、只有特斯拉有?这里有我们的一些思考。我们会去做这样的改进,把这些能力提升上来。

大家想想,这些能力是怎么来的?为什么别人没有?可能是以前的范式限制了这些能力,有架构的原因,有数据的原因。它怎么就能找到这么多倒车数据?这是采集的还是合成的?怎么把这些坑坑洼洼的信息传回去?这在架构上有很好的设计。我们在这个层面做了很多尝试,目前也有一些初步的实践结果。

问:五年后或者再往后看两代产品,理想车内的算力中心有没有可能全部使用自研的马赫芯片?

谢炎:我们就是这么思考的。虽然业内有一个说法叫“舱驾一体”,我们认为舱驾一体最核心的是AI算力部分,其他部分是不是一体没那么关键。因为座舱系统跟AI智驾系统可以完全独立,但AI算力可以集中在一起,这样分配效率会高很多。

所以我们路线图的最终形态是车内一个AI计算中心,所有AI任务都可以到这个计算中心去计算。就像笔记本上跑龙虾一样,AI不在笔记本上,而是在云上,车里也类似,有一个Token服务器。

这个Token 服务器的优势:第一,效率非常高。第二,能做到不同任务互相隔离、互不影响。比如智驾任务的确定性——无论是内存还是带宽,能够保证不被其他任务干扰,这是软件和硬件一起设计才能实现的。只靠芯片提供商做不到这一点,需要软件跟硬件一起配合设计。

我们的优势在于,可以把一些计算单元完全隔离给智驾用,另一部分给其他任务用。如果是通用的SRT(安全可靠传输协议)架构,它不能完全做到这一点,因为这些东西藏在硬件里,而硬件并不知道上层应用的语义。它不知道下面跑的线程是智驾任务还是其他任务,或者说它做这些事情的代价非常高。就像我昨天发布会说的,我们走向数据流架构有很多原因,有效率的原因,也有AI场景下多任务需要并行运行、对时延非常敏感、对资源确定性要求很高的原因。

问:之前一直是冯·诺依曼架构指导了整个芯片体系,现在我们第一次看到动态数据流架构用起来了,四年前理想看到了什么?整个链条要从头到尾全部变短才是真正的全栈优化,背后的组织是怎么实现的?

谢炎:四年前,我们给自己立了一个很高的目标就是自研。我们为什么要自研?我和李想有一个非常一致的意见:自研不是为了证明自己有能力做,而是真正去解决问题。

四年前我们看到的问题:一是算力成本非常高,而且会不断变高,因为车内需要越来越多的AI算力。二是我们希望通过自研做得更好。当时我们用英伟达和地平线,我们给自己定的目标是,如果做不到比外购芯片更好,那做的意义不大。当时定的目标是4倍Orin的性能。

如果要达到这个目标,背后有一套逻辑——你要做得比英伟达更好,用英伟达的技术路线是不可行的。因为英伟达比你早启动几十年,积累比你深,资源比你多几个数量级。你唯一的机会就是跑另外一条路径。

在这个思路的指引下,我们开始看其他技术路线。就是扔掉所有以前的架构依赖,回到本质,从第一性原理看AI计算本身还有什么机会。

我在读研究生时,我导师高光荣教授是数据流架构的奠基人之一,他在MIT时就做这个事。当然在通用计算时代并不成功。我们发现他的思想本质是:你要做的是计算,冯·诺依曼架构相当于帮人类做一个中介去实现计算,中间有翻译层,这个翻译帮助人类更好地去编程,但这个中介和翻译会降低效率。

如果回到计算的本质,可以把中间的翻译拿掉。当然的确很少有企业做过实践,中国也是如此。所以大家看到的机会都是一样的,关键是如何极致地解决这个问题,从第一性原理来倒推。我们四年前定了这样的目标,并且觉得是可行的。

关于组织协作。为什么垂直整合比较重要?因为要做到这一点,只有硬件团队不够,还必须有模型团队。我们设计芯片时,软件团队、模型团队坐在一起分析。而且大家比较兴奋——之前很多做软件的人根本没有机会直接对硬件团队提需求。

在组织上,我们希望以某一个核心的、有挑战的目标为中心,围绕它构建项目团队。实际团队是分开的,但像一团篝火一样,有硬件的人、有软件的人、有模型的人,大家在大目标下一起共创、一起实现。我们内部越来越多的项目会往这个方向走。

问:马赫M100为何没设计PCIe接口,是否因为M100是数据流架构的AI推理芯片,所以相较其他友商的自动驾驶芯片,对带宽需求没那么高?

谢炎:我认为未来智驾需要更多的算力。回到2022年我们设计芯片时的目标,它的性能是当时最好芯片的4倍,我们觉得够了。PCIe控制器本身也占一些面积和成本,所以就没有加,觉得四年以后怎么也够了。

某种程度来说,我认为加上会更好,因为有可能未来智驾需要更多的算力。你可以想象当未来的智驾能力更强时,也许不是几年,也许是两年后,需求就不一样了,这也是我们设计未来芯片时会考虑到的点。

你看昨天发布的场景,今天有一些云端的大模型最终要落到本地,特别是跟舱内视觉相关的。很多人会敏感,觉得舱内摄像头把车内信息都上传到云端不安全,所以这些信息应该在本地处理。比如你在地库跟一辆车像跟机器人一样交流,而地库没有信号,所以你需要很强的本地大模型,几B到几十B的模型。所以会有另外一颗芯片,更好地承担这部分工作。

关于第二个问题,我们对带宽的要求会低,现在HBM很火,很多人觉得带宽越高越好。计算,带宽,SRAM等等都是需要晶体管代价来实现,最终的设计都是成本/综合性能等多方面的综合设计考量后的一种选择。

不同的架构设计,仅仅靠一两个指标来做简单对比,既不合理也不专业。这就像打拳击比赛,高有高的优势,体重大有体重大的优势,但不是由单一指标决定了胜负,最终比的是拳击这个运动的结果。泰森,既不是最高也不是最重的,却是拳击最强的那一个。

M100 通过编译器显式编排数据搬运与计算时序,绝大多数张量数据在片上流动完成算子运算与中间结果传递,大幅减少了对于直接进出 DDR 的访存次数,因此对外部 DDR 带宽依赖更低。

问:为什么现在的大算力芯片方案,比如英伟达、小鹏、理想自研的这些,都没有做芯片级的舱驾融合,反倒是高通在低算力的骁龙8650上做了这件事?

谢炎:从本质上讲,舱和驾是两个独立系统。特别是对高端的L3往L4走,智驾需要一个更高确定性的系统,内存是专属、计算资源是专属,这时融合的意义就小了很多。因为资源不能实时切换,实时切换会降低确定性。如果变成越来越独占的方向,融合的价值就不大了——你只是把芯片拼在一起,但资源还是两份,并不会带来成本的降低,甚至会影响效率。

对低端来说,L2对切换的实时性要求不高,有一部分确实可以有限地共享,但我认为也不多,未来会证明这一点,因为今天只是个概念。

我认为真正的舱驾融合,是舱需要的资源和驾需要的资源在物理上完全是一块,可以动态共享。不是形式上放在一起,但实际切成两半。融合就像你的笔记本跑浏览器和其他应用程序,笔记本的内存完全可以共用。

你看现在那些舱驾融合系统,它肯定还是分开的,今天做不到一会儿跑这个一会儿跑那个。如果做到的话,融合的价值确实很大,但做不到的话,只是减少一定的成本,只是省了一次封装的成本。对中低端芯片来说这部分钱可以省,但也省不了太多。

我的观点是,越往后走智驾越来越高端,舱驾融合这件事可能意义并不大。如果把这些芯片做得更近一点,在一块板上做成很小体积的集成化方案,这是可以的,并不一定要做成一块芯片,也可以多块芯片放在一起。

问:现在的智能驾驶模型中还有“L”的部分吗?

詹锟:现在自动驾驶的架构,大家都会有一个共同的趋势,就是把VLA和World Model整合在一起。无论做VLA还是World Model,里面的Prompt都要用Language。

我觉得更本质的问题是马赫VLA到底是Language Based Model还是Vision Based Model?昨天说的机器智能和语言智能,我觉得这可能正好是两个不同方向的base。

机器智能来说,我觉得Vision Based是更合理的,它是对空间理解、对3D空间的感知、对环境服务是更合理的。Language肯定有用,对理解环境、理解交通、理解指导、理解复杂的思考决策都是有价值的。

马斯克一直在说要把Reasoning(推理)上车,虽然还没上,但大家都在往这方向做,而且Language一直是我们很重要的一个中间监督项。

但对于语言智能来说,Language Based永远是最好的,没有哪个语言智能是用Vision Based的。但Vision必须要,否则怎么能看到车内你拿了手机、拿了电脑呢?这个问题就是你以哪个为base。从长远来看,基于Vision和Language原生的基础模型,可能是长远的未来趋势。

谢炎:如果要走向L3、L4,要解决更泛化的问题时,你的模型需要具备像人类一样的思考能力。

如果它只有Vision和Action,它有很多数据,碰到分布以外的情况就会不知道怎么办。比如出现一头鸵鸟和一头大象时,应该怎么处理?如果是鸵鸟,碰一下没事;如果碰到大象,碰一下可能就会翻车。这只能通过大量的数据,给它几十亿公里的数据。

而一个动物,哪怕学会了所有常见情况,碰到这种从未见过的情况完全不会处理,它不知道做什么选择是对的。

我们认为越往L3、L4走,解决的问题越来越接近90%、95%、98%之后的问题——那些你从来没见过的问题,需要模型具备像人类一样思考的能力。而得到像人一样推理和思考能力的来源是语言模型。

人和动物的最大区别,是人以语言作为符号进行高层次的思考,这些能力来自于语言,而不是来自于视觉。我们认为越往后走,语言的重要性会越突出,这也是未来需要很大算力的原因。因为如果只有Vision-Action,算力到了一定程度就够了。

但如果要往后走,模型需要理解各种场景,比如有个警察在做手势,你要理解他是让你走还是不让你走,这不是靠收集数据或生成数据就能解决的问题。

问:基座模型怎么从车扩展到其他终端?

詹锟:你说车的自动驾驶怎么迁移到机器人上?我认为这个gap很大。切换到机器人的导航没问题,但如果切换到操作上,模型不是那么一样。或者说基座只是一个非常基本的,它后面一定是千差万别,这一点要确认。

车里面包含了语言智能,这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。DeepMind Robotics团队有个ER模型,就是来自Gemini的,把语言思考上的能力从通用场景迁移到机器人上。

我们把物理机器人分成三个关键任务。一是具身交互,我们跟它沟通、交流、思考,让它做任务规划。二是移动,自动驾驶能不能从A点到B点,无碰撞、安全、高效地到达目的地。三是操作,狭义的具身,是一个独立任务,是开放性场景,业界很多人都在探索,包括硬件、数据都是不完善的。这三个任务任意的组合,都会形成非常有价值的商业模式与价值形态。

我们的车有机会把这三点都涵盖。涵盖以后,我们想长成任何一个物理的具身本体都有非常大的机会。你说我们有没有共同基座?我们肯定有云端的共同基座。但这个基座是不是放在任何任务上就能直接用?我觉得比较难。

但它作为基座,提供海量的数据支持、训练环境,能提供基模的baseline,帮助你快速做下个任务的收敛,这是很有帮助的。所以这也是我们成立基座模型团队的原因,我们会有基座来支撑各个业务,但每个业务有自己的特点。

问:自研芯片背后需要什么条件?目前自动驾驶迭代速度很快,芯片要持续迭代的话,需要什么样的条件?

谢炎:芯片,先期投入的确不小,可能一年要好几亿。第一个条件是达到一定的营收规模。对车企来说,营收规模一年1000亿以上,研发投入至少10%,就有大几十亿到上百亿,每年投钱研发芯片是可以的。第二个条件是,你研发芯片解决的问题,要能让你的产品能力更强。

这里有个误区,很多人说芯片要有很大的出货规模才行。其实芯片的成本和面积相关。一辆车上的芯片,比如Livis是2颗马赫M100,加起来800平方毫米。而一部高端手机芯片大概100平方毫米,所以一辆车的智驾芯片相当于8台手机的芯片面积。

这样算下来,大几十万辆车需要的晶圆面积非常大,完全可以摊薄成本。所以成本不能仅用颗数来衡量。有的IT公司说一年出货好几亿颗,但其实每颗面积非常小。不能脱离背景只谈量,这是不完整的。

我们在马赫M100立项时算过,做这个芯片不会让公司的效益变差,而是会变好。我们不是为了证明自己能做而做,不仅性能要做到最好,在成本上也要帮助公司省钱。

问:自动驾驶的Scaling Law似乎没有起来。接下来理想要拉大差距的话会做什么?

詹锟:一年前到现在,智驾格局确实发生了变化,感觉差距变小了。但从另一个角度看,从一年前到现在,很多玩家已经不在了,现在至少智驾的玩家收敛了。

有几个原因。一是智驾是重投入,它不是把一个公司的算法带到另一个公司就能转起来,它是一个系统,涉及到系统、人、技术、算力、平台,这是很大的壁垒,无法在短期内建起来。

为什么你感觉第一梯队差距没拉大?这里要思考,我们如何建立护城河,靠什么能让别人无法快速追上。我认为要参考特斯拉。

第一,全栈才能建立真正的护城河。你的算力、芯片、基础设施能不能完全统一在自己的可控范围内,这很重要。如果你只是算法,中美之间的人才流动很快,很容易被迁移。但如果你是全栈的,迁移成本很高,也很难。

第二,你愿不愿意把精力投入到苦功夫上,比如精细地洗数据。这里有很多细节,这些细节并不高大上,但这些一点一滴的细节才能形成护城河。我们也会在这方面持续加大投入,逐步把护城河建起来。现在已经有全栈自研的机会了,我们会加大投入,把这些苦功夫做下来。

虽然第一梯队之间的差距感觉变小了,但大家跟特斯拉的距离并没有缩小,特斯拉还是很强。如果我们完成年底追上特斯拉的计划,是有机会脱颖而出的,也是我们一直想做的事情。

问:未来有多少车企会真正做成自研芯片?在当下芯片产业链快速发展的情况下,哪些环节是被加速的,哪些过程是必须要经历的?

谢炎:你的问题分两部分。第一,为什么这么多车企都发布芯片,是不是这件事很容易?我想说其实挺不容易。

我们自己做这颗芯片花了4年,在新势力里我们启动最晚。大家要看发布芯片后,最终结果是最领先的模型什么时候真正落到车上。从这个时间来看,除了我们以外,其他家一般要5年时间甚至更长,我们是最快的。

做一颗芯片和做一颗领先的芯片,难度又是不一样的。我跟李想说过,我最担心的事不是做不出来,最糟糕的事情是做出来了但它不领先,那公司这个钱就白花了。

我们看业界,并不是每一家公司都能做到。现在很多公司宣布做了,但并没有真正落到车上。要看它什么时候落到车上,什么时候把最高端的智驾用自研芯片跑起来,并且还能做好用户体验。

再者,看是不是所有车都能用。有的公司为了证明自己能用,只用了一款车型,出货量只有几千辆,其他车还是用外购芯片,说明它也知道这件事并没有帮它解决真正的问题。

另外一个指标是能不能持续迭代。做一代芯片不说明问题,最终要做出第二代、第三代。很多公司只做了第一代,第二代就不做了。有些公司也可能买个IP就做了,也可以宣传自己自研。

但我们不是,因为我们连论文都可以看到,这个世界上没有第二个芯片跟我们做的一样,完全没有,甚至连这个思路都是我们提出来的,没有任何已有的IP可以follow。

问:在芯片产业链里,哪些环节是可以被加速的,哪些环节是必须要自己踩坑的?

谢炎: 有些技术是成熟的,比如偏后端的部分,有点像造房子,你找工程队,比如垒砖,是可以找到供应链帮你加速的。但是真正要做到量产、做到最领先,设计肯定要自己做,软件要自己做。如果你连软件都外包给别人的话,你不可能迭代芯片性能。当然生产一般都是fabless,大家不会自己再去造工厂,这是另外一回事,生产今天是成熟的。

回到国内,我们会越做越深。如果做芯片要持续领先的话,仅仅做芯片设计,做成GDS2(版图数据库),交给晶圆厂去做流片,这也不够。很多部分要跟封装厂联合设计,要垂直整合。有些技术不仅仅是货架商品,由别人提供就可以,你要深入到封装制造领域才能领先。我们不会停留于此,会越做越深。

问:这套架构能不能很好地应对Agent爆发式的流量?模型的通用性是一方面,带宽和并行能力能不能应对Agent的爆发?

谢炎: 您可能想问它的通用性问题。我们芯片第一个重要的业务毫无疑问是自动驾驶,但我们没有做成只能跑一个模型。它的数据流可以跑任何模型算子,不仅可以跑自动驾驶,也可以跑语言模型,昨天我介绍了我们能跑Qwen 35B。

我们是个端侧芯片。作为端侧芯片,它的服务请求不会很多。如果我们设计一个云端芯片,是同时服务1000个用户。但端侧芯片的要求不一样,它服务的对象往往只有一两个任务,它要求的是更短的延时,而不是服务更多的对象。如果是云端芯片,架构还是数据流,但设计和端侧芯片就不一样了。

问:马赫M100芯片对编译器的要求非常高,编译任务非常重。跟传统编译器相比,有什么不一样?

谢炎:如果你学计算机会知道编译器是计算机里最难的课,比操作系统还难。

数据流和传统的冯诺伊曼架构不同。冯诺伊曼架构是为了适应人类的思考,把计算抽象成顺序的指令,这样人可以一步步做推理。而数据流是大规模的并发,多条数据流同时在进行,它不仅在时间上往前推,在空间上也要布局,叫时间空间编译。再加上我们没有指令顺序,基本上是用消费者-生产者的模式,大量的消费者和生产者在同步进行,这需要完全不一样的编译框架。我们做这个事花了大量的时间。

我们对人才的要求是,不仅要懂编译,也要懂架构。反过来讲,做硬件的人也要懂软件编译器怎么用。所以我们的编译团队也是架构团队,这个芯片是软件、硬件、架构团队一起设计的。

我非常同意Jack B.Dennis教授的一句话,他说现在计算机分工太细了,硬件的人不懂软件,芯片的人不懂编译器,软件的人不知道硬件怎么work。

大家没有意识到,当你同时看到硬件与软件,本质就是计算机完整的图景,当你看到所有东西时,你可以创造更大的创新。看计算机理论的话,它本身不分硬件软件,本质就是如何让一个计算任务完成。为什么后面分出了硬件与软件?因为有一部分用软件来抽象效率更高,有一部分用硬件来抽象效率更高。但当你需要更大的创新时,应该打破这个边界,重新看计算机是怎么设计的。

今天美国非常创新的公司,他们思考的东西是从根本上打破软硬件的边界——把传统认为是软件的东西放到硬件上,把传统认为是硬件的东西放到软件上,这样才能得到划时代的创新。如果原来怎么做,今天还是怎么做,性能的提升速度远远赶不上需求。今天摩尔定律越来越弱了,缩放定律已经失效了很多年,会拖慢整个AI发展的速度。

问:马赫M100芯片在理想的定义里是一款AI推理芯片,而不是AI训练芯片,这两者的边界是什么?在AI训练领域英伟达已经很垄断了,跟它做竞争是不是很难追上?

谢炎: 我认为AI计算的算力市场,最终会出现99%的推理,训练只占很小的部分。从这个角度来讲,今天中国和美国大量的公司在为了更高的效率专门做推理芯片,也是这个原因,因为最终推理市场更大。如果推理市场没起来,说明AI没有真正落地。

从我们的角度而言,我们公司先要解决推理问题。训练的话,用市场上好的训练芯片,目前够我们用了。

从经济模型角度来讲,训练要的是效率,它对成本不太敏感。训练要的是在足够短的时间内迭代。至于成本高了50%,甚至高了100%,也没关系。英伟达最高端的芯片,很多公司以翻倍的价格也愿意买。

但是推理芯片不一样,它要同时考虑成本与效率,而且考虑成本的比重非常高。从解决公司和业务问题来讲,推理问题更大,它跟我们想要达到目标的gap更大。如果我们做一件事的话,我们就解决机会最大的问题。

问:跟友商相比理想的领先性体现在哪些方面?

谢炎:我们为什么敢说自己是世界第一呢?因为我们跟市面上标准可以获得的芯片做对比,它是英伟达Thor-U三倍的性能,对于上车时间我们已经做得很快了。做芯片基本要5年时间,而我们基本快4年时间就上车,而且把所有模型都跑起来,这已经很快了。

问:去年年中,为什么还要重新做编译器开发?去年年中迭代的那一版主要是解决什么问题?

谢炎:编译器工作不是做完就结束了。从流片前、回片后、部署上车后,一直会持续迭代,因为编译器的核心任务是把硬件效率发挥出来,需要一版一版不断优化。去年年中那一版主要是把性能优势充分发挥出来。

我在20多年前学编译课时,老师第一课就讲:编译问题是个NP-Complete(NP完全)问题,是计算机理论里最难的问题之一。这种问题你并不知道最佳性能点在哪,但可以不断逼近。所以“跑通”跟“跑到最好”距离非常大,而且最好永远不可及,只能不断逼近。

我们在跑马赫VLA模型时,性能已经是ThorU的三倍了,但我们觉得依然有潜力可挖,依然在继续迭代编译器。

问:3DViT我们大概是什么时候开始研发这个技术路径的?

詹锟:3DViT证明了2D视觉也能学会完整的3D空间结构,证明了Scaling Law在3D空间的全新可行性。

第二,之前团队一直在往这方面探索和尝试,中间做了很多方案的取舍和权衡。最后因为我们看到3D ViT对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果,我们去年才正式从研究探索阶段转入产品开发阶段。

在这个过程中,我们把它变成一个真实项目,放到最新的马赫VLA里面来。原来马赫VLA不一定使用3D ViT,但有了会更好。3D ViT后续还有更大的改进与优化空间,这也是追上FSD V14很重要的一环,中间的视觉信息能不能表征清楚,这是非常关键的。

3D ViT是一个纯视觉方案,它不依赖于激光雷达。它基于视觉,把空间建模成带有色彩信息的全彩点云,基于更强的视觉编码器和空间视觉表征,做到更丰富的3D理解。

能不能达到激光雷达的效果?我们是有信心的。因为我们最新所有的车都标配了激光雷达,激光雷达对纯视觉方案有非常强的监督和校验作用。一定要达到跟激光雷达完全一样的精度吗?不一定。特别是看远处时,人也分不清大货车是20.8米还是19.8米。

但在极近处,人对深度的感知非常敏感,我们也是如此,在极近处能达到激光雷达的水平,这是上线的标准。另外,理解空间以后更重要的是做出更拟人的行为决策。

问:之前的CNN(卷积神经网络)模型映射到数据流架构会比较好,但现在模型进化到了Transformer和MoE(混合专家)结构,芯片是否还适合模型架构的进化?

谢炎:我认为数据流架构比冯·诺依曼架构更贴近计算的本质。冯·诺依曼做的事情是为了人类编程方便,抽象了数据的顺序指令流,GPGPU也是多个指令流,做SIMT。为了人类编程方便,用指令流顺序表达,又要有高并行度,所以需要做很多硬件额外开销,把并行度重新挖出来。

我认为数据流最重要的一个思想是:假设对人类编程的方便性降低,我靠很强的编译器,甚至靠AI编译器,能不能拿掉这部分额外开销?CPU和GPU架构里有大量的晶体管开销用在缓存一致性,比如指令重排序、分支预测。你看一个CPU,30%的晶体管开销在这上面。如果不用冯·诺依曼架构,这些都可以拿掉。

缓存一致性也是同样的道理,不仅缓存一致性本身会占用晶体管规模,更大的问题是,你为了做到缓存一致性,并行规模不会特别大。如果把可扩展性拉起来的话,缓存一致性就是个灾难,这是不可行的。早期有研究表明,8到16核做缓存一致性就非常困难了,时间开销很大,效率开销也很大。

讲到本质,就是这些额外开销能不能拿掉。这样做的代价就是编译难度会变大,调度难度会变大。在过去这不可行,首先并行度没那么高,除了高性能计算,就是所谓的超级计算机,模拟核爆炸或预测天气,这种场景并行度非常高,这种场景下用编程模型是有意义的。

AI有大量的并行,需要分配到不同的计算单元时,这个架构就有优势了。我昨天讲了,帮把晶体管利用率提升。

你刚刚想问的是,MoE和Transformer的计算密度没那么高,特别是decode阶段可能计算密度没那么高,带宽瓶颈会更大,这的确是需要解决的问题。在计算密度不高的工作负载里,斯坦福去年有一篇论文讲Mega kernel,它把kernel做大,就是为了避免数据频繁进出。

Groq和Cerebras为什么要做那么大的片上内存?就是因为数据全放在片上的效率更高,可以不进出DDR,因为DDR的瓶颈很高,而且成本也很高。今天大家都要用HBM,但都不想用HBM,因为太贵了。回到车上更是如此,我们用不了HBM。我们通过架构的方式把进出DDR变少,让效率进一步提升,不仅是晶体管利用率提升,计算效率也提升。

问:理想做全栈自研的底层思考是什么?

谢炎:全域到底解决什么问题?假设我们停留在L2、L2+,以自动驾驶为例,不做垂直整合也可以,无非是从供应商采买。车还是人类监督,人类随时准备接管,开得慢一点、效率低一点也没关系,要求不高。

但昨天发布会上理想希望它像机器人一样独立地完成任务,那对它的智能要求就非常高了。不仅是脑子,对手脚的掌握、对加速、轮子、纵向横向的控制,要求都很高。

从L2往L3走的时候有很多问题,今天没有供应商可以解决。你分开采买,可以给你系统、给你线控,但加在一起,有大量的冗余,成本又高,延迟又高,出了问题还很难定位。所以要解决未知问题、想达到更高标准时,领先企业一定会选择一起做。当然我不排除20年后技术进入平台期时,会拆分出各种供应商。但在技术还没收敛的阶段,要达到这个目标,必须自己整合。

就是因为一些问题不好解决,我们才要自己出手,而且这些问题是长期性、重要性的问题。比如L3、L4,今天没有人完全做到,特斯拉也没完全做到,这是无人区,你需要解决这些问题,需要投入巨大的资源。

车的内卷就是因为同质化。要摆脱同质化,就是要做别人不好做或做不到的事。这些事如果供应商能做到,那又同质化了。这就是基本逻辑。

问:3D ViT对智驾行为的改善,具体体现在哪些方面?

詹锟:人眼有两个非常重要的特性:第一是实时双目,双目天然就带了3D结构,这一点很厉害;第二是前额叶很强,能抽取非常高维特征的表征。做深度学习本质上是在做表征学习,就是把信息映射到高维空间的特征,这个特征长什么样子我们没法直观描述,但它要包含所有下游想要的信息,这是大脑在做的事。

人的双眼时刻去观察3D物理空间以后,大脑中整个物理空间会有很强烈的3D感。但是摄像头,特别是单目摄像头,天然是没有3D感的。人眼如果遮住一只,当习惯了双眼训练以后,单目也能看到3D结构,因为前额叶已经把这种能力固化下来了。

对机器来说也是这个思路:用很高维的3D空间数据去训练它。即便摄像头在移动中,也能构建出三维空间,这就是典型的3D建模思路。任何一段视频进来,通过三维建模构建出三维空间,任何一个单目摄像头就可以知道三维空间是什么样,跟人的思路一模一样。通过这种方式,3D ViT就可以深刻理解3D环境。

补充一点,激光雷达也能理解3D环境,它是主动光。但3D ViT的特点是,除了理解环境的3D结构外,还能理解3D物体的属性、纹理、类型,因为它有RGB,保留了所有信息。甚至还能做tracking,就是对移动物体做动静分离,在3D环境中很容易判断目标是动还是不动,这就是光流的作用。把这些能力结合以后,高维的视觉表征就非常丰富,不会有遗漏。比如地面有个坑和沟,你很容易识别出来。

如果我拿BEV来表达的话,我没有定义什么是沟和坑,对下游决策来说就缺少了这个信息,这就叫高维表征的缺失。所以只有解决了这个问题,才能给下游提供更完整的信息,下游才能根据这些表征做出正确的动作。

以前大家熟知的“The Bitter Lesson”(苦涩的教训),是指机器不要加任何人为先验,用数据训练,一定做得比人更好。现在最新的理念是“Vision Bitter Lesson”(视觉苦涩教训),就是怎么判断你的视觉表征好不好?看你有没有做出对应的动作——你绕过了这个沟,才能证明你理解了这个沟。我们通过构建一个非常好的三维空间表征标准,让下游把动作真正理解好,这样视觉能力就得到了充分的展现。

问:在马赫M100平台上,强化学习数据提升了15倍,具体会在哪些场景去做强化学习?

詹锟:强化学习最重要的是决策和行为的联合优化。现在所有训练范式中,强化学习都是post-training阶段的一部分,主要针对训练中的弱势场景、数据分布不好的场景、或者混淆度高的场景。这需要有很精细的拆分方法,把这些场景识别出来后,让模型在里面自主探索,通过reward给它反馈探索的结果对不对,对决策和行为做联合强化。具体场景非常多,比如绕行、变道等,都是通过这套方法论,找到post-training中的弱势场景来做强化,不是一概而论的。

问:做基座模型是不是汽车公司想站在AI前沿的必要基础能力?

詹锟:关于基座模型,我认为答案是肯定的。只要想走具身智能和AI方向,基座模型一定是必争之地。基座模型不太可能像OS(操作系统)一样有一个标准件,因为每个人的场景任务不一样,需求也不一样,所以基座模型需要自己建。特别是语言模型的基座,做汽车有汽车的基座,我们对视觉语言的重视更多,参数量的分配比例也跟通用模型不同。

核心有两种类型的任务——语言智能和机器智能,这两个对基座模型的需求是不一样的。可以共用一个云端大模型做基础,但实际使用中一定是有区分、有差异化的,我们也是在往这个方向做。我们已经有非常强大的统一基座模型,可以构建物理环境,我们对它有很多反馈和评价机制。但真正落到车上时,需要有裁剪、有取舍、有参数量的适配、芯片能否承载,我们要做不同的改造。

至于将来会不会有一个技术收敛的外部模型给所有厂商直接用?如果说有开源的pre-training(预训练)模型,这是有可能的。但你想让一个pre-training模型就直接给大家当基座用,我觉很难。大概率大家还是要做很强的post-training(后训练),才能变成真正能用的基座模型。

问:Mind-Pro在Agent能力上表现出行业领先的水平,未来有没有考虑过开源?

詹锟:Mind-Pro是一个性能不错的主流模型。模型架构采用了MHA(多头注意力)、GQA(分组查询注意力)之类的架构设计。要不要对外输出?这是一个商业选择问题。我们自己车的本体有强烈的优化倾向性,没有必要对外去卷coding(代码能力)这个赛道。现在大家卖token主要还是往coding方向走,我们没必要卷这个方向。

但我们为什么在这些benchmark(基准测试)上取得了不错的成绩?因为我们对自己的硬件本体有非常深刻的理解。我们车上有很多硬件资源需要调度,如果用其他第三方大模型去试,效果不会比我们好,反应还很慢,常识错误也很多。我们通过强化学习以后,模型对车身运动有很强的理解——知道车身如何晃动,里面有很多tools(工具接口)可以调用。只有基于自己的本体做了强化以后,才会有非常深刻的优势。我们不一定要跟别人去卷coding,因为那是另一个赛道了,不符合理想汽车的主路径。

如果有机会往具身应用方向做开源的话,从长远来看可能有这个机会,但目前各家硬件差异较大,并不一定完全能通用。这是我们想做的方向——把我们的模型跟Agent和物理世界结合得更好,这就是马赫Mind要解决的问题。

问:李想想基于下一代马赫芯片做一个家庭算力中心,类似英伟达DGX Spark的理念。这个项目现在是否在推进中?

谢炎:我们做的M100本质上是一个通用AI推理芯片,理论上讲,它能很好地推理自动驾驶模型,也可以推理语言模型。有同事说这个芯片这么好,能不能装到家里面,因为他需要一个私人的家庭算力。出发点是从这里开始的。下一代芯片毫无疑问会更强,经过一定的改造,我相信放在家里非常有竞争力。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关阅读