ASIC / 定制芯片不是新东西。
博通业绩会上提到第4个“神秘客户”(Open AI)的100亿美金订单,却让这个“GPU VS ASIC”的讨论重新上了个高度。
趁着周末重新整理了一下ASIC的经济学,和接下来芯片行业的一些叙事变化。文中借用了TD Cowen的一个分析框架,写的挺好的。
自研芯片的ROI框架
1/ 哪有什么ASIC vs GPU,说白了大家都是 "ASIC”;
-
传统观点里,GPU为了灵活性,牺牲性能;而ASIC则为特定任务优化,效率更高;这种框架现在已经没那么适用,因为最先进的GPU在芯片架构层面已经高度特化,大部分计算能力都用于AI加速,特别是矩阵乘法运算,与图形处理关系很小;
-
大语言模型LLM中,超过90%的计算都是矩阵乘法,这些芯片实际上都是为同一个特定应用(AI加速)而生的ASIC。(比如NV的Tensor Core / 谷歌的Matrix Multiply Unit / 亚马逊的Tensor Engine);下图中黄色的这块。
-
某种程度上,大家都是搞AI的“ASIC”;
2/ 区分ASIC vs GPU的本质其实不是技术路线,而是商业模式。用另外一种角度看,其实主要区别只有,
-
A. 商业芯片 (Merchant) 芯片厂搞,卖给很多人。 -
B. 定制芯片 (Custom) 云厂搞,自己用。随着Google之前传出卖TPU的新闻之后,这个界限也开始模糊。
说白了,只是哪一个路线更加“省钱” + 有长远的战略意义。
既然是从“钱”的角度出发,用ROI的框架来分析,可能会更加直观一些。化繁为简,只有两种情况,“买”(buy) vs “自研”(build);
3/ “自研”的诱惑 vs 代价
-
商业芯片,利润太高了(这里不需要我赘述,大家都知道。看看4万亿市值的英伟达);80%的芯片成本,都转化成了英伟达的利润。
-
自研当然是为了吃掉这部分利润,但是定制芯片是高度“二元化”/binary的。要么成功,要么失败;并不存在说,我自研的芯片虽然垃圾,也能跑一跑的这种“中间态”。
4/ 为什么定制芯片“不成功便成仁”?TD Cowen这里给了一个“暴论”,只要你自研的芯片不能达到英伟达最先进芯片性能的50%,那就通通都是电子垃圾,就算流片了,也不应该量产。
几个基本假设(假设有点长,用灰色处理了),
-
学习老黄用“AI工厂”的概念去理解这个芯片投资;这个工厂的“产品”就是通过API调用生成的“tokens”。
-
市场存在一个公开的“推理服务”价格;OpenAI、Anthropic、Google都在以API的形式提供其LLM服务,这个价格通常以“美元/每百万tokens”($/1M tokens)来计费。
-
硬件性能决定了“产品”的生产速度;一个AI芯片的性能,可以直接体现在它处理一个模型时每秒钟能生成多少个tokens,即吞吐量(Throughput, measured in tokens/second)。性能越强的芯片,生成tokens的速度越快。
-
也就是说,收入/秒 = (价格/token) × (吞吐量, tokens/秒)
有了上面的假设之后,
-
性能=算力=收入,AI工厂的核心竞争力;一个性能是对手两倍的芯片,在相同的时间内,就能产生两倍的收入。
-
目前市场上的API定价实际上是基于一个隐藏的共同基础:它们绝大多数都运行在NVIDIA的GPU上。这使得NVIDIA的性能成为了市场定价的“黄金标准”(其他人只能“吞下”这个标准)。
-
换句话说,你的收入不完全是取决于你自己的芯片绝对性能,而是取决于你的芯片vs英伟达芯片的相对性能(因为英伟达定义了收入标准);
假设结束,直接上结论。(TD Cowen的报告有一个很详细的计算,这里篇幅限制我直接跳到结论。)
-
买老黄芯片的IRR很高,大概有24% (大家不需要太较真这个数字,主要是解释决策思路)。“买的越多,省得越多”;
-
如果云厂自研出来的东西,性能能达到英伟达芯片的70%表现,那么IRR就可以有35%(英伟达的利润被省下来了,转化成了成本节省,最终转化成为IRR);
-
如果自研的东西,性能能达到英伟达芯片的50%,那么IRR刚好差不多,来到了临界点。这个时候你仍然可以推进量产,因为有战略意义。
-
但是如果你自研的东西,性能仅仅能达到英伟达芯片的30%,那么IRR骤降(这里不是线性的,因为电力,数据中心成本很多都是fixed costs),那么你应该果断放弃自研,流片了也不要量产。在这个情况下,IRR甚至比不上你公司的资金成本/WACC;(放在Open Ai语境下,他家拿的是VC的钱,WACC肯定高过谷歌非常多);
用框架分析接下来的行业变化
我们姑且当做上面的假设和框架有些启发,再来看看现在行业里面发生的事情。
1/ 谷歌的TPU刚好来到了50%的这个临界点,所以我们看到了这个季度TPU直接爬坡量产(叠加Gemini的需求驱动)。这也是为什么TPU链上的东西,最近都这么火热。
2/ 博通宣布的Open AI订单,可能也已经过了50%性能的这个风水岭,所以管理层提到订单已经下来了。(我们之前公众号提过,OpenAI也是挖了很多谷歌TPU团队的人);
-
但是这个“量产”,仍然有一个不确定性存在,那就是你需要确定你在量产的时候,你的芯片仍然能够达到英伟达50%的性能(因为英伟达并没有停滞,而是仍然在不断加强他家的芯片能力。)
-
这个“量产”不“量产”的决定,不取决于博通,不取决于Open Ai,而是取决于量产的时候,两者芯片的“相对能力”,“相对迭代速度”。
3/ Open Ai因为没有了微软这个奶妈,资金压力更大。可能需要剑走偏锋去靠定制芯片降低成本?这是TI周末的一个报道,
-
3个月前的预测,资金消耗量更小。 -
现在的预测,资金消耗量更大,然后突然转正。看起来就像是“资本投入产生回报”的故事。。用ASIC来给投资人画画大饼?
4/ 毕竟Open AI什么都想做,也包括云计算。
5/ 再看看收入端,最近都收入都没调整。调的是远端收入。。。画饼策略一样有迹可循。
6/ 最后贴一张UBS搞的,26年ASIC路线+成本。
来源:180K,原文标题:《ASIC / 定制芯片经济学(9月7日)》