详谈谷歌TPU芯片:如何与博通博弈?能否和英伟达竞争?

新视界AlanShore
TPU 对英伟达卡的竞争则相对还远不到威胁的程度,不管是硬件壁垒、软件生态适配、到商业逻辑上都注定了,直接购买 TPU 进行自身部署的行为,只有极少数高端玩家才能浅浅尝试下,譬如最近小作文传出的 Meta。

前几天简单聊了谷歌TPU现在面临的困境,既离不开博通、又想摆脱对博通的高度依赖。这次就详细聊聊谷歌如何与博通博弈。另外,在市场竞争环境中,TPU最终能否大量外售以抢占英伟达的市场份额?

一、谷歌TPU的开发模式

TPU目前 v7、v7e、v8 版本的开发归属如下:

谷歌 TPU 最早选择博通,是因为在芯片设计代工环节,博通确实是全球最好的服务商,特别是拥有最顶尖的芯片高速互联技术,这也是现在实现大规模 AI 芯片并行计算的核心。但另一方面,博通接单 TPU 的毛利率高达 70%,而联发科作为消费级别芯片商,综合技术实力虽然不如博通,但愿意以 30%+ 的毛利率接单 TPU,极大降低谷歌的运营成本,自然成为了谷歌用以制衡博通的一枚棋子。

同样在 Mag7 里不少科技巨头也在采用类似的模式开发自研 AI 芯片,Meta 也选择了博通合作、微软和亚马逊则选择了 Marvell 和 Alchip,就剩下 Tesla 和 Apple 则选择自主开发。

二、谷歌和博通的工作界面问题

为什么谷歌要做芯片的顶层架构设计,而不是完全外包给博通?为什么博通不把谷歌的芯片设计作为公版卖给其他厂商?我们来研究下这个工作界面问题。

进入正题前讲个小故事,我记得快10年前国内热炒过云服务的股权投资,那时我们尽调覆盖到服务器制造时听过一个传闻:阿里最早切入云服务赛道时找到富士康,私下要求提供其给谷歌代工的服务器主板,富士康拒绝了而提出使用自己的公版。抛开商业 IP 和商誉问题不谈,谷歌当时设计的主板,直接在每块主板上挂了一个 12V 的铅酸电池,电网的电只转换一次就进入主板,不像传统集中式 UPS 设计需要三次转换,大幅降低能耗。在当时的云服务领域,大幅节能意味着厂商要么毛利润大幅增加、要么前端市场价格可以大幅降低,简直就是商业开挂大杀器。

同样我们看 TPU 的开发工作界面问题,谷歌之所以做 TPU,是因为最大使用方是谷歌自己的内部应用负载,譬如搜索引擎、YouTube、广告推荐、Gemini大模型等,所以只有谷歌自己内部团队才知道,TPU 的算子(Operator)设计成什么样子,能发挥出内部应用的最大功效,而这些内部商业信息是不可能交给博通知晓而完成芯片的顶层架构设计的。这就是为什么谷歌一定要自己做 TPU 的顶层架构设计。

但这引来第二个问题,顶层架构设计交给博通,博通不就知道了吗?是不是能改进自己的公版卖给其他厂商?

同样抛开商业 IP 和商誉问题不谈,芯片顶层架构设计的交付,并不像10多年前电路板设计的交付了。谷歌自己工程师会使用 SystemVerilog 编写设计源代码(RTL),而编译后给到博通的是门级网表(Gate-level Netlist),确保了即使博通知道芯片设计里这1亿个晶体管如何连线,但几乎不可能逆向工程地反推出背后的高层设计逻辑。对于最核心的逻辑模块设计,譬如谷歌特有的矩阵乘法单元 MXU,谷歌甚至不会给博通看具体的网表,而是做成物理版图(Hard IP),丢给博通一个黑盒子,博通只需要按照要求给黑盒子搞定供电、散热、数据联通,而不需要知道黑盒子在算什么。

所以,我们现在看到的谷歌和博通的工作界面,其实已经是最理想的商业合作情况了。谷歌做 TPU 的顶层架构设计,各种信息加密后扔给博通,博通把剩下的实施的活全部接了,同时给谷歌配自己最顶尖的高速互联技术,最后给到台积电代工制造。现在谷歌说,TPU 出货量越来越大了,我要控成本,所以博通你把一部分手里的活分给联发科,我给他付费要比你低。博通说好的,我反正也有 Meta 和 OpenAI 的大活要接,有些收尾的工作就交给联发科吧。联发科说,谷歌大哥,我便宜点,你看以后多找我,除了高速互联那玩意儿我不懂,其他工作尽量都交给我吧。

三、TPU 能否真正抢占英伟达的市场份额?

简单地说结论:TPU 会有看得见的大幅度出货增长,但对英伟达的出货影响很小。两者的增长逻辑并不相同,给客户的服务也不相同。

如在前文里提到的,英伟达的卡出货增长得益于三大块需求:

(1)高端训练市场的增长。之前有很多声音说 AI 模型已经吃掉绝大多数世界的信息了,以后没有训练需求了,这其实是说的预训练(Pre-training)。但大家很快发现,纯粹大数据预训练出来的模型很容易出现幻觉式的胡说八道,所以后训练(Post-training)被马上重视起来,而后训练涵盖了大量专家判断,这里的数据量甚至是动态的,只要世界在变化,专家判断也需要不断修正,所以越复杂的大模型越需要更大规模的后训练。

(2)复杂推理需求。后训练出来的思考型大模型,例如 OpenAI 的 o1、xAI 的 Grok 4.1 Thinking、谷歌的 Gemini 3 Pro等,现在接受每一次复杂任务,都需要进行多次推理和自我验证,工作量已经相当于一次小型轻量化训练了,使得大部分高端复杂推理还是需要跑在英伟达的卡上。

(3)物理 AI 需求。即使全世界的固定知识信息训练做完,动态的物理世界呢?自动驾驶、各行各业的机器人、自动化生产、科学研究,这些不断产生新知识、互动信息的物理世界爆发出的训练和复杂推理需求,甚至远超当下全世界知识的总和。

TPU 的快速增长,更多是得益于:

(1)谷歌自身使用量的增长。特别是 AI 已经嵌入几乎所有谷歌的顶级应用,从搜索引擎Search、视频YouTube、广告推荐、云服务、Gemini应用等,这些海量的增长使得谷歌自己对 TPU 的需求爆发式地增长。

(2)谷歌云服务里对外提供 TPU 云。尽管目前 Google Cloud 给外部客户使用还是以英伟达的卡为主,但同时也在大力推广基于 TPU 的云服务,类似于像 Meta 这样的大客户,自身对 AI 基础设施的需求旺盛,但采购英伟达卡部署数据中心需要时间,同时也作为商业谈判筹码,Meta 完全可以考虑采用租赁 TPU 云服务来做预训练、以减缓英伟达卡供不应求且价格昂贵的问题,而 Meta 的自研芯片则用于内部推理任务。这种混合式的芯片解决方案可能对 Meta 是最有利的选择。

最后,再聊下软硬件层面,TPU 为何无法做到对英伟达卡的替代或直面竞争。

(1)硬件障碍:基建不兼容

NVIDIA 的 GPU 是标准件,买回来插在戴尔/惠普的服务器里就能用,任何数据中心都能装。TPU 是“系统”,依赖 Google 独有的 48V 供电、液冷管道、机柜尺寸和封闭的 ICI 光互联网络。除非客户愿意像 Google 一样推倒重建数据中心,否则几乎不可能买 TPU 回去自己部署(On-Prem)。这意味着 TPU 只能在 Google Cloud 上租用,限制了其高端市场的触达。

(2)软件障碍:生态不兼容(PyTorch/CUDA vs. XLA)

全球 90% 的 AI 开发者都在用 PyTorch + CUDA(动态图模式),而 TPU 强制要求静态图模式(XLA)。这里对开发者而言,迁移成本极高。除了 Apple、Anthropic 这种有能力重写底层代码的巨头,普通企业和开发者根本玩不起 TPU。这注定 TPU 只能服务于“极少数有全栈开发能力的客户”,无法像 NVIDIA 那样将 AI 训练和推理普及到每一所大学和初创公司,即使是通过云服务也是一样。

(3)最后还有一个商业问题:内部“左右互搏”(Gemini vs. Cloud)

作为云服务巨头,Google Cloud 肯定是想卖 TPU 赚钱的,但 Google Gemini 团队更想独占 TPU 算力来保持领先,用输出的应用端来给公司赚钱,这里面的利益肯定有冲突,为了年底的奖金,谁来赚这个钱呢?假设 Google 开始把最先进的 TPU 大规模卖给 Meta 或 Amazon,甚至帮助他们部署使用,结果 Google 最赚钱的广告业务开始被这两家最大的竞争对手挖了墙角,这笔账怎么算呢?这种内部战略冲突,一定会导致 Google 在外售 TPU 时会犹豫不决,甚至保留最强的版本不卖。这也注定了无法与英伟达竞争抢占高端市场。

四、总结:

谷歌和博通在 TPU 上的博弈会继续以混合开发模式延续,但确实会给强大的 v8 带来开发难度的增加,具体开发进展我们拭目以待,也期待下周12月11日博通发布 Q3 财报时会不会给我们带来一些更多的信息。

TPU 对英伟达卡的竞争则相对还远不到威胁的程度,不管是硬件壁垒、软件生态适配、到商业逻辑上都注定了,直接购买 TPU 进行自身部署的行为,只有极少数高端玩家才能浅浅尝试下,譬如最近小作文传出的 Meta。

但从我对 Meta 的理解而言,他们很难做到耗费大量资本开支再去重建一套基于 TPU 的数据中心,且可能发展出 AI 用来蚕食谷歌的广告业务。何况,传出这个小作文的媒体是 The Infomation,一家长期敌视英伟达、微软等几家科技巨头的小道消息网络媒体,其报道的大部份小作文最后都被证伪过。最可能的还是 Meta 通过 TPU 云租赁的方式用于模型预训练或复杂推理,减缓对英伟达的依赖,一如 TPU 自己的混合开发策略。科技巨头分分合合,但最终还是打铁终须自身硬,唯最佳利益方案才是正解。

文章来源:新视界AlanShore

 

 
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章