3月17日,黄仁勋在 英伟达GTC 2026 的舞台上穿着标志性皮夹克讲了两个多小时,会后,几乎全网都在说“英伟达要做Token之王”。
但如果仔细听这场演讲,会发现黄仁勋真正反复锤打的,不是Token本身,而是 Tokens per Watt(每瓦Token数)。他在展示推理性能图表时明确说出了这个概念,并直言:每一座数据中心、每一座AI工厂,本质上都受限于电力,一座1GW的工厂永远不会变成2GW,这是物理定律决定的。在固定功率下,谁的每瓦Token产出最高,谁的生产成本就最低,谁的收入曲线就最陡。
这句话才是整场 GTC 2026 真正的题眼。
舆论热衷讨论的是 Vera Rubin 比 Blackwell 强多少倍、Groq LPX 能把推理速度拉高35倍、英伟达要把数据中心搬上太空。这些当然重要,但它们本质上都是同一个逻辑的不同表达:在能源约束下,最大化每一瓦电力的智能产出。
当黄仁勋把“Tokens/W”作为衡量AI工厂产出的核心度量衡时,其实背后还有一层更重要的产业深意,算力竞争的度量体系,正在从芯片走向系统,从峰值参数走向端到端能效,从谁的芯片更快走向谁可以把能源转化成智能的效率更高。
在当下的产品和技术矩阵之下,英伟达和黄仁勋都还受困于token/w,距离真正的token之王,还需要迈出很多步。
这是一次“智能度量语言”的迁移,而这次迁移所打开的产业视角,远比任何一颗新芯片都更值得深入讨论。
很巧的是,就在GTC正式开幕的前一天,阿里巴巴宣布成立Alibaba Token Hub,由吴泳铭亲自挂帅,阿里的AI核心,不是以AI命名,而是以Token命名,把Token升级到阿里的AI战略高度。
这同样体现出,用系统的视角看AI已经逐步成为行业新的认知。这正是希望能通过这篇文章强调的理念,也是本篇文章的意义所在。
01 GTC2026最值得重视的变化,不在芯片本身
GTC 2026,大家的关注焦点依然是Vera Rubin、Rubin POD、LPX、DSX AI Factory 这些新产品和新名词。但如果把这些发布放在一起看,会发现它把算力竞争的叙事边界,从单颗芯片,推进到了算力基础设施级别,也就是一整套由计算、网络、存储、电力、冷却、控制系统和软件共同构成的 AI factory。
Rubin 被描述为 POD-scale platform,多个机架共同组成一个大规模、相干的系统;DSX则被定义为面向AI factory 的参考设计,目标是最大化每瓦Token数。
这说明,行业真正竞争的,会从某颗芯片算力有多高,转化到整个计算系统有多强,更细节一点,也就是整套系统能不能把有限的电力、冷却和网络资源,高效地组织成稳定的 AI 产出。
具体到度量单位,就是每瓦Token数(Token/W)。
本文希望从Tokens/W这个度量单位,来洞悉这场发布会所传达出的意义,以及对我们发展AI基础设施产业时所带来的机会。
02 既然竞争对象变成系统,度量体系就不能还停在芯片层
芯片时代的度量体系,大家都很熟。峰值算力Flops、显存带宽、FLOPS/W、TOPS/W、bit/J,这些指标都很重要,因为它们能描述一个部件的能力边界。
这就导致在实践中出现一个尴尬的状况:智算中心中没有一个客观、统一、且通用的度量单位。
一般来讲,衡量数据中心的单位会用到MW这个电力单位,而在国内建设智算中心时,用的是PFlops(基于FP16)这个算力单位。但是,同样的算力或电力单位的集群,如果内部的芯片、网络、散热不同,效能也会大不同。
原因并不复杂,之前的度量单位只能衡量某个维度,峰值算力描述的是一颗芯片理论上能做多少计算,bit/J描述的是局部数据搬运的能效,带宽描述的是单个子系统的信息通路能力,这些都是芯片在某个维度上的度量。
可是一整套AI系统最终要回答的问题是:在固定功率预算、固定散热条件、固定机房约束下,到底能跑出多少有效的AI结果。这个问题,单靠芯片层指标回答不了。
从NVIDIA这次的话语体系里可以看到,token cost(成本)、每瓦吞吐量、每瓦token性能、以及每瓦Token数。
度量语言体系正在从部件语言,转到系统语言。
所以,如果说芯片层常用的度量是峰值算力、带宽和 bit/J,那么系统层更合理的度量,就应该是 Token/W。前者衡量部件能力,后者衡量整体产出。前者对应局部最优,后者对应系统最优。
03 Token/W 把能源到智能产出的链条接起来
NVIDIA在GTC 2026 现场文字稿里,把token称为现代 AI 的 basic unit。这个提法其实很到位。对大语言模型、推理服务、Agent 系统而言,用户最终买单的对象,本质上就是系统生成和处理 token 的能力。
从业务运营角度看,token 有三个优点:1)它和模型推理过程直接耦合。2)它和收入模型直接耦合。3)它适合覆盖推理时代的新负载。
Agent、多轮对话、长上下文、检索增强、工具调用、推理链,这些新负载很难用单一 FLOPS 描述,却都能在 token、latency、goodput维度上留下痕迹。
更重要的是,今天 AI 基础设施的底层约束,正在越来越直接地体现为能源约束。IEA 的《Energy and AI》报告预计,到 2030 年,全球数据中心用电将增长到约 945TWh,较当前水平大幅上升;AI 是其中最重要的驱动因素之一,美国更将占到这轮增长中的很大份额。换句话说,AI 产业接下来的很多问题,表面看像芯片问题,实质上是电力问题、散热问题和基础设施组织问题。
Token/W 这个概念有价值,是因为它把 AI 产业最核心的那条链条接起来了:电力输入,经过计算、网络、存储、调度和冷却,最后变成 token 产出。
从这个意义上说,Token/W 并不是简单替代 FLOPS/W 或 bit/J。它补上的是一层过去还关注不到的视角:
AI 系统到底把多少能源,转化成了多少智能产出。
我认为,这次 GTC 最值得讨论的地方,恰恰在这里,不能再孤立地看芯片,必须把芯片放进系统,把系统放进产业约束里去看。
这也是作者一直倡导的角度。看AI芯片,不能只看算力峰值、内存带宽与大小、接口参数,还要看它在网络中怎样协同,在机架里怎样部署,在园区里怎样拿电,在客户那里怎样形成成本结构,最终在业务端怎样变成真实产出。
GTC 2026从某种程度上,公开验证了这种系统视角。因为当 NVIDIA 自己都开始把叙事中心放到 AI factory上时,行业就已经在从AI计算芯片中心主义走向计算系统中心主义。
这一点其实非常关键。很多产业会在早期沉迷于部件参数,因为部件参数最容易测,也最容易宣传。可一旦产业进入大规模部署阶段,真正决定胜负的,往往是系统组织能力。今天的 AI 基础设施,已经到了这个阶段。
04 从 Token/W 往下推,光互连的重要性会明显上升
一旦度量体系迁移到系统层,很多过去被视作配套的环节,地位都会提高。
光互连就是其中最典型的一类。
过去讲光互连,行业常用的是光模块视角、通信视角、器件视角:更高带宽、更远传输、更低 pJ/bit、更好的带宽密度、更低插损。这些都对,但这些语言仍然停留在组件、芯片这些子系统层。到了Token/W 的框架里,光互连的价值会变得更直观:它在降低数据搬运的能量代价,提升大规模AI计算系统把电力转化为 token 的能力。
在讲述NVIDIA的光网络产品时,基于光子的CPO相比光模块可实现最高 5 倍能效,同时降低延迟,并支撑更大规模的 AI factories 扩展。
这个说法的重点,就不只是链路更先进,而是系统规模更大、系统能效更高。
从产业逻辑看,这件事很好理解。随着模型越来越大、上下文越来越长、集群越来越大,系统中的很多能耗,并不发生在算术单元上,而发生在数据搬运上,发生在跨芯片、跨板卡、跨机柜、跨POD的通信上。
到了这个阶段,提高 Token/W,已经不能只靠更强 GPU,还需要更高效的互连。
所以,从Token/W的角度看,发展光互连并不是因为它很前沿,而是因为它正在变成大规模AI系统的必要节能手段。
05 光计算比光互连更前沿,但逻辑也开始成立
光计算要比光互连更早期,这一点要实事求是。
通用性、精度、编译器、制造一致性、系统集成,这些问题都还在演进中。可如果把观察边界放到系统层,它的产业意义已经比过去更容易讲清楚。
原因在于,Token/W 关心的是端到端能效。谁能在某一类高频、高密度、可重复映射的计算路径上,把能量消耗明显压下去,谁就有机会在系统层提高 token 产出效率。这个逻辑不要求光计算替代整个 GPU,也不要求它一步到位成为通用计算底座。
它只要求一件事:在某些关键工作负载里,让整套系统的J/token降下来,让固定功率预算下的token产出提上去。
这也是为什么光计算的叙事,需要从单点器件效率转向系统层节能贡献。如果行业只看TOPS/W、MAC/J,它更像实验室故事;但如果行业开始看Token/W,它就有机会进入基础设施讨论。
这个变化,对光计算尤其重要。因为它终于有了一个能和客户、园区、电力、资本开支对话的上层语言。
06 当算力的度量从芯片走向系统,光互连与光计算就被推向产业主线
当算力竞争还主要停留在芯片层时,光互连更像 I/O 技术,光计算更像前沿器件探索。
当算力竞争迁移到AI大规模系统级基础设施时,事情就变了。系统效率越来越取决于密集计算能耗、数据搬运、上下文管理、跨节点协同、供电与热管理组织,而这些环节,恰恰是光学最有机会发挥作用的地方。
从 Token/W 的角度看,光互连解决的是每token生成背后的搬运电费;光计算尝试改写的是每个token背后的部分计算电费。二者共同影响的,是整套系统的token产出效率。
这就是它们进入产业主线的根本原因。
更现实一点说,除了芯片产能与供给,未来数据中心和 AI factory 面临的约束,还会包括电网接入、机房散热、园区能耗、机柜功率密度和投产速度。之前国际能源署对AI对能源侧消耗的判断,以及这次NVIDIA对AI factory 的表达,都在指向同一个方向:AI 基础设施正在变成一个用能源来衡量的系统工程。
从这把新的方向往前看,光互连与光计算所解决的,是 AI 时代越来越昂贵、越来越难继续沿用传统电学路径去优化的那部分问题:数据搬运的能量代价,以及高密度计算的单位能耗。
这背后体现的,是一种更完整的系统思维。而这,也是这次 GTC 2026为何会再次着重提到光子与硅光技术产品的原因:
当算力的度量从芯片走向系统,光学就会从先进技术选项,逐步走向值得建设的产业基础设施。
从这个角度讲,CPO与光计算系统,未来非常可期!
写在最后:AGI的推进主轴
作者在日常工作中,一直在倡议设立客观可衡量的算力度量标准,也一直在使用Tokens/W的方法来对不同算力芯片的测试进行度量。
回看科技史,当内燃机的输出能量与自身重量比重越来越高时,汽车才得以诞生,飞机才可以起飞,火箭才可以升空。
而在AI时代,当AI系统的产出结果(现在是Token)与消耗能量比重越来越高时,智能才会越来越很聪明,AGI才有可能在其中诞生。
这次GTC2026上真正值得记住的,不是英伟达一家公司的荣辱,或黄仁勋是否成为“Token之王”,而是AI时代新的度量衡的明确。
更进一步地,英伟达、阿里,也许还有很多行业内的巨头,都已经开始意识到,要从系统思维的视角来看待AI产业的发展。
这其实,是和人类文明发展的主轴相一致的,那就是:用更低的能量,采集、传输和处理更多的信息。
AGI,也不会例外!
本文来源:腾讯科技



