英伟达、阿里重估AI，把FLOPS“扔进垃圾堆”

腾讯科技

03-18 19:49

155

这次GTC2026上真正值得记住的，不在芯片本身，而是AI时代新的度量衡的明确——token/w。当AI系统的产出结果（现在是Token）与消耗能量比重越来越高时，智能才会越来越很聪明，AGI才有可能在其中诞生。

3月17日，黄仁勋在英伟达GTC 2026 的舞台上穿着标志性皮夹克讲了两个多小时，会后，几乎全网都在说“英伟达要做Token之王”。

但如果仔细听这场演讲，会发现黄仁勋真正反复锤打的，不是Token本身，而是 Tokens per Watt（每瓦Token数）。他在展示推理性能图表时明确说出了这个概念，并直言：每一座数据中心、每一座AI工厂，本质上都受限于电力，一座1GW的工厂永远不会变成2GW，这是物理定律决定的。在固定功率下，谁的每瓦Token产出最高，谁的生产成本就最低，谁的收入曲线就最陡。

这句话才是整场 GTC 2026 真正的题眼。

舆论热衷讨论的是 Vera Rubin 比 Blackwell 强多少倍、Groq LPX 能把推理速度拉高35倍、英伟达要把数据中心搬上太空。这些当然重要，但它们本质上都是同一个逻辑的不同表达：在能源约束下，最大化每一瓦电力的智能产出。

当黄仁勋把“Tokens/W”作为衡量AI工厂产出的核心度量衡时，其实背后还有一层更重要的产业深意，算力竞争的度量体系，正在从芯片走向系统，从峰值参数走向端到端能效，从谁的芯片更快走向谁可以把能源转化成智能的效率更高。

在当下的产品和技术矩阵之下，英伟达和黄仁勋都还受困于token/w，距离真正的token之王，还需要迈出很多步。

这是一次“智能度量语言”的迁移，而这次迁移所打开的产业视角，远比任何一颗新芯片都更值得深入讨论。

很巧的是，就在GTC正式开幕的前一天，阿里巴巴宣布成立Alibaba Token Hub，由吴泳铭亲自挂帅，阿里的AI核心，不是以AI命名，而是以Token命名，把Token升级到阿里的AI战略高度。

这同样体现出，用系统的视角看AI已经逐步成为行业新的认知。这正是希望能通过这篇文章强调的理念，也是本篇文章的意义所在。

01 GTC2026最值得重视的变化，不在芯片本身

GTC 2026，大家的关注焦点依然是Vera Rubin、Rubin POD、LPX、DSX AI Factory 这些新产品和新名词。但如果把这些发布放在一起看，会发现它把算力竞争的叙事边界，从单颗芯片，推进到了算力基础设施级别，也就是一整套由计算、网络、存储、电力、冷却、控制系统和软件共同构成的 AI factory。

Rubin 被描述为 POD-scale platform，多个机架共同组成一个大规模、相干的系统；DSX则被定义为面向AI factory 的参考设计，目标是最大化每瓦Token数。

这说明，行业真正竞争的，会从某颗芯片算力有多高，转化到整个计算系统有多强，更细节一点，也就是整套系统能不能把有限的电力、冷却和网络资源，高效地组织成稳定的 AI 产出。

具体到度量单位，就是每瓦Token数（Token/W）。

本文希望从Tokens/W这个度量单位，来洞悉这场发布会所传达出的意义，以及对我们发展AI基础设施产业时所带来的机会。

02 既然竞争对象变成系统，度量体系就不能还停在芯片层

芯片时代的度量体系，大家都很熟。峰值算力Flops、显存带宽、FLOPS/W、TOPS/W、bit/J，这些指标都很重要，因为它们能描述一个部件的能力边界。

这就导致在实践中出现一个尴尬的状况：智算中心中没有一个客观、统一、且通用的度量单位。

一般来讲，衡量数据中心的单位会用到MW这个电力单位，而在国内建设智算中心时，用的是PFlops（基于FP16）这个算力单位。但是，同样的算力或电力单位的集群，如果内部的芯片、网络、散热不同，效能也会大不同。

原因并不复杂，之前的度量单位只能衡量某个维度，峰值算力描述的是一颗芯片理论上能做多少计算，bit/J描述的是局部数据搬运的能效，带宽描述的是单个子系统的信息通路能力，这些都是芯片在某个维度上的度量。

可是一整套AI系统最终要回答的问题是：在固定功率预算、固定散热条件、固定机房约束下，到底能跑出多少有效的AI结果。这个问题，单靠芯片层指标回答不了。

从NVIDIA这次的话语体系里可以看到，token cost（成本）、每瓦吞吐量、每瓦token性能、以及每瓦Token数。

度量语言体系正在从部件语言，转到系统语言。

所以，如果说芯片层常用的度量是峰值算力、带宽和 bit/J，那么系统层更合理的度量，就应该是 Token/W。前者衡量部件能力，后者衡量整体产出。前者对应局部最优，后者对应系统最优。

03 Token/W 把能源到智能产出的链条接起来

NVIDIA在GTC 2026 现场文字稿里，把token称为现代 AI 的 basic unit。这个提法其实很到位。对大语言模型、推理服务、Agent 系统而言，用户最终买单的对象，本质上就是系统生成和处理 token 的能力。

从业务运营角度看，token 有三个优点：1）它和模型推理过程直接耦合。2）它和收入模型直接耦合。3）它适合覆盖推理时代的新负载。

Agent、多轮对话、长上下文、检索增强、工具调用、推理链，这些新负载很难用单一 FLOPS 描述，却都能在 token、latency、goodput维度上留下痕迹。

更重要的是，今天 AI 基础设施的底层约束，正在越来越直接地体现为能源约束。IEA 的《Energy and AI》报告预计，到 2030 年，全球数据中心用电将增长到约 945TWh，较当前水平大幅上升；AI 是其中最重要的驱动因素之一，美国更将占到这轮增长中的很大份额。换句话说，AI 产业接下来的很多问题，表面看像芯片问题，实质上是电力问题、散热问题和基础设施组织问题。

Token/W 这个概念有价值，是因为它把 AI 产业最核心的那条链条接起来了：电力输入，经过计算、网络、存储、调度和冷却，最后变成 token 产出。

从这个意义上说，Token/W 并不是简单替代 FLOPS/W 或 bit/J。它补上的是一层过去还关注不到的视角：

AI 系统到底把多少能源，转化成了多少智能产出。

我认为，这次 GTC 最值得讨论的地方，恰恰在这里，不能再孤立地看芯片，必须把芯片放进系统，把系统放进产业约束里去看。

这也是作者一直倡导的角度。看AI芯片，不能只看算力峰值、内存带宽与大小、接口参数，还要看它在网络中怎样协同，在机架里怎样部署，在园区里怎样拿电，在客户那里怎样形成成本结构，最终在业务端怎样变成真实产出。

GTC 2026从某种程度上，公开验证了这种系统视角。因为当 NVIDIA 自己都开始把叙事中心放到 AI factory上时，行业就已经在从AI计算芯片中心主义走向计算系统中心主义。

这一点其实非常关键。很多产业会在早期沉迷于部件参数，因为部件参数最容易测，也最容易宣传。可一旦产业进入大规模部署阶段，真正决定胜负的，往往是系统组织能力。今天的 AI 基础设施，已经到了这个阶段。

04 从 Token/W 往下推，光互连的重要性会明显上升

一旦度量体系迁移到系统层，很多过去被视作配套的环节，地位都会提高。

光互连就是其中最典型的一类。

过去讲光互连，行业常用的是光模块视角、通信视角、器件视角：更高带宽、更远传输、更低 pJ/bit、更好的带宽密度、更低插损。这些都对，但这些语言仍然停留在组件、芯片这些子系统层。到了Token/W 的框架里，光互连的价值会变得更直观：它在降低数据搬运的能量代价，提升大规模AI计算系统把电力转化为 token 的能力。

在讲述NVIDIA的光网络产品时，基于光子的CPO相比光模块可实现最高 5 倍能效，同时降低延迟，并支撑更大规模的 AI factories 扩展。

这个说法的重点，就不只是链路更先进，而是系统规模更大、系统能效更高。

从产业逻辑看，这件事很好理解。随着模型越来越大、上下文越来越长、集群越来越大，系统中的很多能耗，并不发生在算术单元上，而发生在数据搬运上，发生在跨芯片、跨板卡、跨机柜、跨POD的通信上。

到了这个阶段，提高 Token/W，已经不能只靠更强 GPU，还需要更高效的互连。

所以，从Token/W的角度看，发展光互连并不是因为它很前沿，而是因为它正在变成大规模AI系统的必要节能手段。

05 光计算比光互连更前沿，但逻辑也开始成立

光计算要比光互连更早期，这一点要实事求是。

通用性、精度、编译器、制造一致性、系统集成，这些问题都还在演进中。可如果把观察边界放到系统层，它的产业意义已经比过去更容易讲清楚。

原因在于，Token/W 关心的是端到端能效。谁能在某一类高频、高密度、可重复映射的计算路径上，把能量消耗明显压下去，谁就有机会在系统层提高 token 产出效率。这个逻辑不要求光计算替代整个 GPU，也不要求它一步到位成为通用计算底座。

它只要求一件事：在某些关键工作负载里，让整套系统的J/token降下来，让固定功率预算下的token产出提上去。

这也是为什么光计算的叙事，需要从单点器件效率转向系统层节能贡献。如果行业只看TOPS/W、MAC/J，它更像实验室故事；但如果行业开始看Token/W，它就有机会进入基础设施讨论。

这个变化，对光计算尤其重要。因为它终于有了一个能和客户、园区、电力、资本开支对话的上层语言。

06 当算力的度量从芯片走向系统，光互连与光计算就被推向产业主线

当算力竞争还主要停留在芯片层时，光互连更像 I/O 技术，光计算更像前沿器件探索。

当算力竞争迁移到AI大规模系统级基础设施时，事情就变了。系统效率越来越取决于密集计算能耗、数据搬运、上下文管理、跨节点协同、供电与热管理组织，而这些环节，恰恰是光学最有机会发挥作用的地方。

从 Token/W 的角度看，光互连解决的是每token生成背后的搬运电费；光计算尝试改写的是每个token背后的部分计算电费。二者共同影响的，是整套系统的token产出效率。

这就是它们进入产业主线的根本原因。

更现实一点说，除了芯片产能与供给，未来数据中心和 AI factory 面临的约束，还会包括电网接入、机房散热、园区能耗、机柜功率密度和投产速度。之前国际能源署对AI对能源侧消耗的判断，以及这次NVIDIA对AI factory 的表达，都在指向同一个方向：AI 基础设施正在变成一个用能源来衡量的系统工程。

从这把新的方向往前看，光互连与光计算所解决的，是 AI 时代越来越昂贵、越来越难继续沿用传统电学路径去优化的那部分问题：数据搬运的能量代价，以及高密度计算的单位能耗。

这背后体现的，是一种更完整的系统思维。而这，也是这次 GTC 2026为何会再次着重提到光子与硅光技术产品的原因：

当算力的度量从芯片走向系统，光学就会从先进技术选项，逐步走向值得建设的产业基础设施。

从这个角度讲，CPO与光计算系统，未来非常可期！

写在最后：AGI的推进主轴

作者在日常工作中，一直在倡议设立客观可衡量的算力度量标准，也一直在使用Tokens/W的方法来对不同算力芯片的测试进行度量。

回看科技史，当内燃机的输出能量与自身重量比重越来越高时，汽车才得以诞生，飞机才可以起飞，火箭才可以升空。

而在AI时代，当AI系统的产出结果（现在是Token）与消耗能量比重越来越高时，智能才会越来越很聪明，AGI才有可能在其中诞生。

这次GTC2026上真正值得记住的，不是英伟达一家公司的荣辱，或黄仁勋是否成为“Token之王”，而是AI时代新的度量衡的明确。

更进一步地，英伟达、阿里，也许还有很多行业内的巨头，都已经开始意识到，要从系统思维的视角来看待AI产业的发展。

这其实，是和人类文明发展的主轴相一致的，那就是：用更低的能量，采集、传输和处理更多的信息。

AGI，也不会例外！

本文来源：腾讯科技

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。