性能硬刚Blackwell、能效吊打GPU，一文深度拆解谷歌TPU“真实战力”

2025/11/25 14:58

对于投资者和云厂商而言，TPU最大的价值不仅仅是快，而是利润率。谷歌通过掌控TPU的全栈设计，成功绕开了“英伟达税”。与此同时，Broadcom的毛利远低于英伟达，这让谷歌能够将算力成本压到极致。从TPU v6到最新曝光的 TPU v7 ，谷歌不仅是在造芯，更是在为即将到来的“AI推理时代”构建一道几乎不可逾越的护城河。

在AI算力领域，英伟达似乎是那个不可一世的霸主。但在聚光灯之外，科技巨头谷歌正在用一种更为隐秘却极具破坏力的方式，重新定义AI芯片的战争规则。

这张王牌，就是谷歌自研的TPU（Tensor Processing Unit）。

如果你以为这只是谷歌为了省钱搞的“备胎”，那就大错特错了。根据最新披露的深度资料，谷歌最新的TPU v7（代号Ironwood）不仅在显存容量上追平了英伟达的B200，更在能效比上实现了对GPU的降维打击。甚至连黄仁勋本人也曾暗示，在ASIC领域，谷歌TPU是一个“特殊的存在”。

从TPU v6 (Trillium) 到最新曝光的 TPU v7 (Ironwood)，谷歌不仅是在造芯，更是在为即将到来的“AI推理时代”构建一道几乎不可逾越的护城河。

缘起：一场“被迫”的生存自救

TPU的故事并非始于芯片制造的突破，而是始于一道令谷歌高层惊出一身冷汗的数学题。

2013年，Jeff Dean与Google Brain团队进行了一次推演：如果每一位Android用户每天只使用3分钟的语音搜索，谷歌就需要将全球数据中心的容量翻倍才能应对算力负载。

当时的谷歌依赖通用的CPU和GPU，但这些芯片对于深度学习中海量的矩阵乘法运算来说，效率太低了。如果沿用旧硬件扩张，财务和物流成本将是一场噩梦。

于是，谷歌决定走一条从未走过的路：为TensorFlow神经网络量身定制一款ASIC芯片。

这个项目进展神速，从设计概念到数据中心部署仅用了15个月。2015年，在外界还一无所知时，TPU就已经在默默支撑谷歌地图、照片和翻译等核心业务了。

架构之争：甩掉“包袱”，让数据像血液一样流动

为什么TPU的能效能吊打GPU？这要从底层架构说起。

GPU是为图形处理设计的“通用”并行处理器，为了处理从游戏纹理到科学模拟的各种任务，它背负了沉重的“架构包袱”——比如复杂的缓存、分支预测和线程管理，这些都消耗了大量的芯片面积和能耗。

而TPU则极其“极简主义”。它剥离了光栅化、纹理映射等所有无关硬件，采用了一种独特的“脉动阵列”（Systolic Array）架构。

在传统GPU中，每次计算都需要在内存和计算单元之间搬运数据，形成了著名的“冯·诺依曼瓶颈”。而在TPU的脉动阵列中，数据像血液流过心脏一样流过芯片。这大幅减少了对HBM（高带宽内存）的读写次数，让芯片把时间花在计算上，而不是等待数据上。

这种设计让TPU在“每焦耳运算量”（Operations Per Joule）上拥有碾压级的优势。

硬刚Blackwell：TPU v7的恐怖数据

虽然谷歌对性能数据一向讳莫如深，但根据Semianalysis和内部透露的数据，谷歌最新的TPU v7 (Ironwood) 展现出了惊人的代际跨越。

算力暴涨： TPU v7的BF16算力高达4,614 TFLOPS，而上一代被广泛使用的TPU v5p仅为459 TFLOPS。这是整整一个数量级的提升。

显存对标B200： 单芯片HBM容量达到192GB，这与英伟达的Blackwell B200完全一致（Blackwell Ultra为288GB）。

带宽狂飙：内存带宽达到7,370 GB/s，远超v5p的2,765 GB/s。

在互联技术上，谷歌使用了光路交换机（OCS）和3D环面网络。

与英伟达的InfiniBand相比，OCS极其节省成本和功耗，因为它消除了光电转换。虽然牺牲了一定的灵活性，但在处理特定AI任务时，配合谷歌的编译器，其效率无人能敌。

更值得注意的是能效。谷歌在Hot Chips 2025上透露，v7的每瓦性能比v6e（Trillium）提升了100%。有前谷歌高管直言：“针对特定应用，TPU能提供比GPU高出1.4倍的每美元性能。”对于动态模型训练（如搜索类工作负载），TPU的速度甚至是GPU的5倍。

逃离“英伟达税”，重回高毛利时代

对于投资者和云厂商而言，TPU最大的价值不仅仅是快，而是利润率。

在AI时代，云巨头们面临着从“寡头垄断”向“大宗商品化”的滑坡。因为必须采购英伟达的GPU，高达75%的毛利被英伟达拿走了，云厂商的AI业务毛利从传统的50-70%骤降至20-35%，甚至更像是一个收过路费的“公用事业公司”。

如何回到高毛利时代？自研ASIC是唯一的解药。

谷歌通过掌控TPU的全栈设计（自己做前端RTL设计，Broadcom只负责后端物理实现），成功绕开了“英伟达税”。与此同时，Broadcom的毛利远低于英伟达，这让谷歌能够将算力成本压到极致。

一位客户在使用对比后坦言：

如果我用8张H100，对比使用一个v5e Pod，后者的每美元性能不仅更高，而且随着谷歌推出新一代TPU，旧款不仅不会淘汰，反而会变得极其便宜。

有时候如果愿意多等几天训练时间，成本甚至能降到原来的五分之一。

尽管TPU面临着生态系统（CUDA的主导地位）和多云部署（数据迁移成本）的挑战，但随着AI工作负载从“训练”向“推理”转移，CUDA的重要性在降低。

SemiAnalysis的评价一针见血：

谷歌在超大规模计算厂商中的芯片霸权无人能及，TPU v7在性能上足以与Nvidia Blackwell处于同一梯队。

在AI算力这场万亿美金的博弈中，英伟达虽然领跑，但手握TPU利剑的谷歌，或许是唯一一个能完全掌握自己命运的玩家。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

性能硬刚Blackwell、能效吊打GPU，一文深度拆解谷歌TPU“真实战力”

缘起：一场“被迫”的生存自救

架构之争：甩掉“包袱”，让数据像血液一样流动

硬刚Blackwell：TPU v7的恐怖数据

逃离“英伟达税”，重回高毛利时代

不再单押英伟达，Meta斥资数十亿美元租用谷歌TPU

都想学英伟达“芯片换融资”，谷歌和AMD都要扶持“AI云”

30亿奶茶补贴“喝崩”千问服务器：阿里抛出免单卡，却炸响了国产推理芯片的春雷

市场对AI越来越“苛刻”：英伟达仅靠今年财报超预期已不够，关键要看2027收入可见性