今年新车发布会,各位老板一定要留一页 PPT 给算力。
过去一个半月,蔚小理用三个不同的晚上,先后进入了主流价位四位数算力俱乐部:蔚来 ES6/EC6 普及自研神玑芯片、理想 L 系列智能焕新版率先交付英伟达 Thor 芯片、小鹏 G7 首发搭载自研图灵芯片。
2025 年,蔚来小鹏理想同时迎来新一代智能化软硬件的升级,它们也将以三种殊途同归的算力使用方式,开始智能辅助驾驶、智能座舱的又一轮你追我赶。
殊途,指的是蔚小理分别用三种不同的分配方式,跑步进入单车四位数稀疏推理算力的新阶段;同归,则在于突飞猛进的算力,都将基于类似的技术路径,服务更强大的辅助驾驶功能,以及智能座舱。
然而问题来了:一台车拥有更强大的算力,能给用车带来什么体验升级?车企追求算力领先的背后,究竟是为了什么?算力越大,方向盘背后的汽车就真的会更聪明吗?
今天我们很难给出终局结论,但可以简单聊一聊趋势、概念、方向。
01 数字游戏
二十年前的汽油车拼马力,二十年后的电动车拼算力。
这当然不是说马力不重要,而是算力决定了一家车企的未来数十年。
过去 18 个月里,蔚小理分别在各自的道路上,追求着算力和能力的突破。而这其中它们三家企业对技术路线的侧重,则直接反映在芯片。
今年 6 月 11 日,小鹏 G7 发布会,何小鹏用这样一张 PPT 宣告自研芯片的强大:超过 2200TOPS 系统总稀疏算力,由三颗图灵芯片共同提供,平均每颗在 750TOPS 上下。
一年半前,蔚来在 2023 NIO Day 上正式发布神玑 NX9031 芯片,号称「一颗顶四颗」,这意味着神玑的稀疏算力单颗就可以达到约 1000TOPS。
首发搭载神玑的 ET9,每台车则搭载两颗 9031,双芯片可以实现毫秒级别的热备份,合计稀疏算力大约是 2000TOPS。
这里岔开单聊聊蔚来,包括新款 5566 车型这批搭载 Cedar-S「标准版」雪松系统的产品,都搭载了单 8295+ 单神玑的共板 BOX(智能域控)。
意味着 Cedar-S 车型的辅助驾驶算力大概是 1000TOPS,当然实际应用起来会有明显不同,我们下面到了特定章节再聊。
今年 5 月份,理想汽车 L 系列智能焕新版、新款 MEGA 开启交付,理想也成为了首家量产大规模交付 Thor-U 芯片的车企。
根据智能驾驶实际应用的标准,只计算 Tensor Core(张量单元)算力,不计算英伟达 CUDA 核心算力,单颗 Thor-U 的算力大概是 700TOPS,双芯片可以达到 1400TOPS。
这里再岔开一句,如果只计算张量单元,Orin X 的有效稀疏算力大概为 200TOPS 左右。
和蔚小理各自的路线对比一下,特斯拉硬件 4.0 的稠密算力约为 720TOPS(稀疏可以粗略翻倍)、地平线 J6P 芯片单颗稀疏算力 560TOPS。
似乎我们可以直接给蔚小理排个序:三图灵>双神玑>双 Thor-U>单神玑——但这样排真的对吗?
我们引入其他企业的一些表态,可以得到更有意思的结论。
02 扼住算力的咽喉
今年 1 月 30 日,特斯拉 2024 年度财报会议上,AI 软件副总裁 Ashok Elluswamy 表示,限制 FSD 辅助驾驶大模型「上下文」传输能力的核心因素,是「板载内存带宽」。
图片来自 YouTube
上下文(context)指的是大语言模型单次处理信息可以考虑的内容范围,而在辅助驾驶应用的视觉大语言模型中,上下文则对应着真实世界的外界信息。
内存带宽,这是隐匿在算力的数字游戏背后,为每一个辅助驾驶大模型锁上镣铐的核心参数。
2021-2024 年「统治」中高端辅助驾驶市场的英伟达 Orin X 芯片,单颗的内存带宽为 205GB/s。
如果以 int8 精度运算、仅运行一次注意力运算的一般条件估算,Orin X 的内存带宽处理一个 14B 参数量的大模型,理论上搬运数据的时延就达到 50ms,远达不到辅助驾驶 20-30ms 的系统时延要求。
也正因如此,Orin 时代车企使用的车端大模型都不超过 4B,通过控制规模来优先达成低时延,比如理想的 VLM 大模型规模被控制在 2.2B。
事实上,低时延是辅助驾驶的安全本质要求,换句话说,限制辅助驾驶大模型能力的最短木板,往往就是内存带宽。
那么 Thor-U 的内存带宽是多少?答案是 273GB/s。目前还没有车企量产交付的 Thor-X 顶配版,则是 546GB/s。
这意味着 Thor-U 对比 Orin-X 提高了超过 1/3 的内存带宽,运行车端模型的规模也可以做得更大。
但由此也引申出两个问题:Thor-U 的算力提升幅度远大于带宽提升、Thor 的内存带宽横向对比其他自研的车企并不突出。
有关 Thor 算力和带宽的不对称发展,在一次专访中,卓驭科技 AI 首席陈晓智曾经这样向我们解释:Thor-U 在跑辅助驾驶大模型的时候,内存瓶颈其实和 Orin-X 一样明显。
这意味着超强的芯片算力,被不足的内存带宽「扼住了咽喉」。
那蔚来和小鹏呢?
目前小鹏汽车并未公布图灵芯片的内存带宽,不过由于单颗图灵已经配备了 64GB 的大容量内存,内存位宽有传言称是 256bit,使用满频率的 LPDDR5X 8533 内存颗粒,总带宽是 273GB/s,也就是和 Thor-U 同级。
而蔚来直接给了翻倍的内存带宽——单颗神玑拥有 546GB/s 的内存带宽,来自满配的 512bit LPDDR5X 内存,看齐英伟达的顶配 Thor-X。
546GB/s 内存带宽,意味着以 30ms 为时延目标的话,理论上可以承受 32B 规模非 MoE 混合专家大模型的数据搬运。
当然这里没有算上推理过程,也没有算上 MoE 对推理过程的优化,只是简单的理论值。
另外,行文至此讨论的都是「单颗」,原因是辅助驾驶芯片之间并不以内存带宽传输数据,而是 PCIe 协议,甚至也有以太网协议,传输速率远低于内存带宽,所以两个概念不能混用。
然后结论是这样的:
蔚来神玑的内存带宽已经接近美国禁令的上限了,小鹏图灵的内存带宽则符合行业主流趋势,和理想使用的 Thor-U 方案相同——但图灵和 Thor-U 两者不足 300GB/s 的带宽,又存在着一定的内存瓶颈,这是业界需要用软件优化手段共同攻克的。
这里又岔开提一句:再下一代,也就是面向 L5 自动驾驶的芯片,基本需要使用 HBM 内存满足超高算力的带宽要求,而 2023-2025 年,美国连续下发三次禁令,封锁了新一代 HBM 内存技术的外流,所以我们才说蔚来接近禁令的上限。
最后补充两个藏得很严实的数据,方便大家赛博斗蛐蛐:华为 ADS 的内存带宽,以及特斯拉 FSD 硬件 4.0 的内存带宽,各自是多少?
而根据博主 @万扯淡 对华为 MDC610,也就是稠密算力 200TOPS 的顶配华为辅助驾驶单芯片方案拆解,他表示 2019 年流片、2020 年量产的它,已经拥有 384bit 的内存位宽。
一个背景知识是,2019 年的特斯拉 FSD 初代芯片,内存位宽仅为 128bit。
不过由于众所周知的原因,MDC610 并没有用上最高的内存频率,有传言称基于低频 LPDDR5 内存,MDC610 实际总带宽是 308GB/s——但也已经明显高于 Thor-U。
再强调一次,这是一颗 2020 年量产的芯片。
至于特斯拉硬件 4.0,根据 Munro Live 和 @Greentheonly 的拆解,二代 FSD 芯片配了 8 颗来自美光的 GDDR6 显存,让 FSD 2 芯片拥有约 448GB/s 的带宽。
这意味着在神玑量产之前的 2023,特斯拉才是辅助驾驶的带宽巅峰。当然,神玑量产之后,暂时夺过了带宽的宝座。
03 大算力怎么用?
聊到这里,我们还缺两个角度。
由浅入深,先要聊的是:各家的算力怎么分配?
两个事实:
1. 各家使用的芯片理论总算力,并不代表实际应用到辅助驾驶的总算力;2. 对于算力的分配,无论是软件分配还是硬件分配,都体现着各家对技术发展路线的研判。
从一位「老将」说起:蔚来 NT2 平台的车型,有四颗英伟达 Orin-X 芯片,理论总算力 1016TOPS。
但由于芯片之间使用的是低速协议连接,所以四颗 Orin 并不能同时处理一个任务,运行内存也无法共享。
蔚来此前透露的信息,这四颗 Orin 可以简单理解为「2+1+1」模式,除了业界常用的双 Orin 辅助驾驶模式,另外两颗独立出来负责舱驾融合、群体智能、主动安全、冗余备份等等的任务。
到了神玑时代,蔚来呈现出过渡期的两种分支。
首先是严格意义上依然隶属于 NT2 平台的 5566,它们是搭载了单颗神玑,理论 1000TOPS 左右算力的雪松 S 车型。
而目前唯一一台 NT3 蔚来主品牌车型 ET9,使用的是两颗神玑,理论算力达到 2000TOPS,它们之间存在非常大的能力区别。
蔚来目前没有公布单双神玑之间的功能区分,不过我们可以从硬件上看到区分:ET9 目前独享的硬件,包括整车 3 颗新一代激光雷达、天行全主动底盘,等等。
至于下一台 NT3 蔚来主品牌车型——全新 ES8,会否延续双神玑的配备,如果用了双神玑,2000TOPS 算力会如何根据辅助驾驶、智能座舱的用途划分?这同样是值得关注的情况。
聊到这里,算力的分配方式,同时决定,也受限于最终用户在车里能享受到的配置,另一方面又是数字游戏下真正影响疗效的「烹饪手法」。
另一方面,根据英伟达的官方文档,Thor 芯片支持实时划分,可以划出一部分张量单元支撑座舱类的大模型任务。
舱驾融合英伟达其实从 Orin 就开始在做,Thor 算力大幅度升级之后,像全新理想同学这样的下一代人工智能助手,就不再受限于座舱芯片的算力上限。
不过要说用算力赋能座舱,还是单拎 750TOPS 算力的小鹏更「狠」。
小鹏 G7 发布会,何小鹏表示三颗图灵芯片将有一颗负责全新的 AI 座舱体验,另外两颗负责辅助驾驶计算。这意味着搭载图灵芯片的小鹏车型,辅助驾驶可用稀疏算力大概是 1500TOPS,约等于双 Thor-U。
而从图灵芯片的布局也可以看出,目前座舱体验不过不失的小鹏汽车,明显希望通过硬件预埋的本质区别,重回几年前「车机看小鹏」的时代。
04 芯片设计
然而需要合理分配的不只是算力,还有一颗芯片内部的功能分区。
或者说得更深的一点,算力分配方式的背后是企业对未来智能汽车技术的判断,而判断本身,则决定了一颗芯片要怎么造,怎么设计。
半导体芯片寸「硅」寸金,方寸之间总成本就以亿元计算。
在平方毫米为计算单位的芯片面积放进的功能分区,直接决定着未来数年,甚至十年,一台汽车的智能化能力。
篇幅有限,今天只聊一个典例:ISP 图像处理器。
今天几乎所有辅助驾驶芯片都内置了 ISP 图像处理器,它的作用是通过对摄像头获取的原始 RAW 格式数据进行降噪、动态范围增强、红外光处理等等,最后交由芯片下游区块做推理。
ISP 远不如张量单元那么「星光璀璨」,毕竟张量单元直接决定算力规模,也直接决定这一页 PPT 够不够耀眼。但 ISP 决定了一套辅助驾驶系统感知环节的性能,历来是兵家必争之地。
更有意思的是,不同企业对 ISP,如今抱着截然不同的态度。
图片来自 YouTube
首先说个「异类」,完全不鸟 ISP 的马斯克。
早在 2022 年初,马斯克就曾经表示「真实世界信息通过摄像头,传递到 ISP,再到芯片处理的整个过程太慢,而且始终会有一部分原始光子在这一过程中丢失」。
他认为即使是黑夜环境,CMOS 本身也可以感知光线信息,只是引入 ISP 之后,反而会丢失信息。
如果从 FSD 的发版节奏推算,早在 2021 年 12 月的 FSD Beta 10.8,光子到控制模块的延迟已经降低了平均 20%。
而到了今年 2 月的 FSD 13.2.8,特斯拉正式将 36HZ 刷新率、8 个硬件 4.0 摄像头的全量数据输送进两颗 FSD 2 代芯片中。
目前还没有二代 FSD 芯片硅片层面的拆解,所以我们无法得知特斯拉是否真的彻底去掉了所有类似 ISP 的功能。但截至我们发稿,马斯克还没有改口的征兆。
而另一个很有意思的是,根据我们 2 月份以来,对特斯拉 FSD 在中国道路表现的实测,目前辅助驾驶系统时延最低、最接近人类直觉的,还是 FSD。
而与马斯克相反,业内其他企业都在 ISP 的军备竞赛中快马加鞭,即使是同样深耕纯视觉路线的小鹏汽车。
按照何小鹏的表述,每一颗图灵芯片都内置了两块独立的 ISP 图像处理器,一块用于 AI 图像感知,另一块则用于图像合成。
何小鹏表示,双 ISP 的目的是大幅度优化黑夜、下雨天、逆光环境下的感知表现。
但考虑到图灵和二代 FSD 芯片都基于同一半导体工艺节点制造,对 ISP 功能的战略分歧,一定会直接导致这两块芯片的设计差异,最终反映到特斯拉和小鹏汽车不同的辅助驾驶体验,即使它们同属纯视觉阵营。
至于英伟达和蔚来,则同样是大与更大的区别。
从 Orin-X 到 Thor-U,英伟达将 ISP 图像处理器的性能从 1.84Gpps 提升到 3.5Gpps(Giga pixel per second 每秒千兆像素数),这是不到 2 倍的性能进步,略小于两者推理算力的增幅,算是不愠不火。
而反观神玑,蔚来「丧心病狂」地塞进去一颗 6.5Gpps 的超大 ISP,这是 Thor-U 的 1.7 倍,对比下另一颗历来以 ISP 算力见长的芯片——Mobileye EyeQ Ultra,也「只」是 2.4Gpps。
目前我们已经看到神玑对于图像处理能力的冰山一角,比如座舱内显示的盲区摄像头、流媒体后视镜、转向灯影像都可以同步提亮。
当然我们更好奇的,是超强 ISP 能力如何反馈给 NWM 世界模型,而英伟达蔚来小鹏们,又能否与彻底反 ISP 的马斯克相比,做出同样优秀的辅助驾驶体验。
到这里,今天的文章基本就结束了。
我们当然还有太多议题没有涉足,但最后,汽车公司与 AI 硬件巨头的宏观决策,都将通过两三百平方毫米占地面积的一颗颗芯片,影响五米长两米宽的出行工具,撬动万亿元产值的全球工业。
这是技术与思想碰撞出的芥子纳须弥,更是科技改变人类生活进程中的牵一发而动全身。
比如就在这篇稿子写完的今天上午,特斯拉下一代自动驾驶硬件 AI5 的信息首次得到具体曝光,传闻称可能将同时基于台积电 N3P 和三星 3GAA 工艺双供应商制造,算力可能将达到 2000-2500TOPS。
所以,最后的最后,这场横亘全球,影响未来五年、十年甚至更远的辅助驾驶,甚至自动驾驶发展的算力大战,蔚小理的进击只是开幕,群雄并起才是真正的高潮。
本文来源:电动星球,原文标题:《前沿 | 蔚小理的算力游戏》