近日,SemiAnalysis创始人Dylan Patel接受红杉资本播客《Training Data》采访,从推理市场规模、算力效率、硬件架构竞争到英伟达的战略布局,多方位地阐述了他对AI基础设施走向的判断。
Dylan Patel预测,AI推理将成为全球最大市场之一,占GDP多个百分点;到2030年,仅OpenAI和Anthropic合计算力需求将超100吉瓦。他判断,未来3-5年太空算力可忽略不计,但到2040年太空将承载全球超半数新增算力。而英伟达支持新云厂商,本质是黄仁勋在下一盘防止被垄断的大棋。

推理市场将超越石油:算力可能永远不够用
Patel认为:"AI推理——无论是开源模型还是闭源模型——将是全球最大的市场之一,比石油还大。AI推理将占到GDP的若干个百分点。"
他的逻辑链条是:模型每次迭代升级,能完成的有效任务数量和价值都在扩大,而这个扩张速度持续快于算力的增长速度。以Anthropic的Claude Opus为例,他指出,"Meetos 5(即Claude 4/Opus级别)能做的任务量,根本不是Opus的2倍,而是远不止",但与此同时,全球算力并没有在同一时间段翻倍。
结果就是:供给追不上需求扩张,算力永远是稀缺的。他直言:"算力短缺会一直持续,因为模型扩大可用任务的速度,永远快过算力的增长。"
2040年,超过一半的增量算力将在太空
对于太空数据中心,Patel表示,"未来三到五年,太空数据中心不会有太大意义。但在二十年后,我认为绝大多数算力将进入太空。"
具体节点上,他预测2030年仅OpenAI和Anthropic两家合计将拥有超过100吉瓦的算力,再加上Meta、Google等,届时用于推理的算力体量将极为庞大。到2040年,甚至可能达到太瓦(terawatt)级别。"
如果你看2040年,超过一半的增量算力将进入太空。但如果你看2030年,我认为不到1%。
核心制约是地面能源成本——地面土地建电能力有限,一旦太空部署的经济性超过地面,算力向太空迁移将成必然。
硬件软件协同设计:真正的100倍增益从哪里来
这是Patel最核心的技术判断。他直接反驳了访谈主持人关于“过去三年算力提升主要来自硬件”的观点:“我完全不同意你这个说法。”
他的分析是:从Hopper到Blackwell,最优化部署下性能提升约30倍,这主要是硬件。但过去三年,整体智能效率提升远超30倍,大部分增益来自模型层。关键在于协同设计的乘数效应
当你把这里的2倍和那里的2倍叠加,如果只是各层独立优化,可能得到8倍。但如果你跨三层协同优化,实际上可以得到100倍。
DeepSeek是最典型的公开案例——其专家模型(MoE)的形状专门为英伟达Hopper架构优化,因此在Hopper上运行出色,但在TPU上却表现不佳。反过来,Anthropic的模型更"稠密",更适合TPU架构;OpenAI的模型更"稀疏",更偏向GPU路线。
Patel强调:"TPU客观上是一款出色的芯片,承担了DeepMind所有推理和Anthropic几乎所有预训练。但它就是跑不好DeepSeek。"
他进一步指出,所谓"CUDA护城河",本质上不是CUDA本身,而是开源生态的模型形状问题:DeepSeek、Kimi、阿里、腾讯等公司的开源模型都是为GPU协同优化的,要在TPU上跑,效果就差。Google需要建立自己的开源模型生态(即Gemma系列)才能对抗这一效应。
黄仁勋:主动打造多极算力格局
对于英伟达CEO黄仁勋为何大力扶持新兴云计算商(Neo Clouds),Patel说道:
Jensen非常厌恶一种世界格局:超大规模云厂商垄断一切。这就是为什么他会向一些看起来不那么有把握的AI实验室砸钱——他在全世界各地游说,说"你应该投这家公司",因为他想创造一个多极化的世界。这也是他为什么喜欢中国AI实验室——他想要多极化。如果只有OpenAI、Anthropic和谷歌的模型主导市场,他就完了。
逻辑很简单:如果全球只有OpenAI、Anthropic和Google的模型,如果算力只由超大规模云商建设,英伟达就会陷入被动。而今天卖给Crusoe或CoreWeave的GPU,五年后将削弱Google TPU和Amazon Trainium的市场地位,对英伟达而言是更好的长期格局。
他需要把分配的'枪口'对准新兴云商,帮助他们支撑集群,不惜一切。
InferenceX:每年成本降60倍的活体基准
Patel团队搭建了名为InferenceX的实时推理基准测试系统,目前已获得CoreWeave、Oracle、微软、亚马逊、谷歌、OpenAI等机构捐赠的超过5000万美元硬件,每天在最新模型上持续运行,涵盖超过15种不同芯片类型。
其核心发现是:等效质量下,推理成本每年下降约60倍。“这是令人难以置信的。”他同时指出,每瓦智能(intelligence per watt)的改善约为40倍,略低于成本降幅,部分效率来自非功耗环节。
InferenceX的核心输出是"帕累托最优曲线"——在响应延迟(interactivity)与批处理吞吐量(throughput)之间,找到每个场景下的最优配置点,并将配置开源,任何人都可以直接下载使用。
"这条曲线是硬件、基础设施、模型、应用层所有事情的上游。"他举例:Anthropic的Claude Code快速模式比普通模式贵得多,OpenAI也有优先队列,本质都是这条曲线的商业化体现。
从汽车旅馆到半导体智库:一个自学者的逆袭
谈及Dylan Patel的个人经历时,他分享的成长轨迹与传统分析师截然不同。他从小在父母经营的汽车旅馆长大,对面是自家加油站——他开玩笑说,自己训练的第一个神经网络,是根据顾客外貌预判他们要买哪种烟。
八岁时,Xbox 360的“红圈死亡”故障迫使他拆机维修,从此打开了硬件世界的大门。12岁起,他活跃于各类技术论坛。大学毕业后,他在量化风险公司工作,因不满成果被抢功而离开。
2020年,他更频繁地在网上发表深度分析,被人肉搜索后索性改用真名,在24岁生日那天创立了SemiAnalysis网站。此后他开着皮卡、睡在车顶帐篷里,在美国国家公园间流浪了六个月,边旅行边写博客;随后又去拉丁美洲旅居近一年,每年参加超过40场全球供应链会议。
如今,SemiAnalysis已成为半导体与AI基础设施领域最具影响力的研究机构之一,团队近90人,年营收据传已接近1亿美元。

访谈全文如下:
节目简介
Dylan Patel谈硬件软件协同设计:AI真正的百倍提升
Sequoia Capital · Training Data · 2026年6月30日
主持人:Shaun Maguire 与 Sonya Huang(红杉资本合伙人)
SemiAnalysis创始人Dylan Patel认为,AI领域最大的收益并非来自更快的芯片,而是来自软件与硬件的协同设计——将模型、内核与芯片进行整体优化,能将这里2倍、那里2倍的提升,最终转化为100倍的跃升。
他解释了为何DeepSeek的专家模型是专为英伟达Hopper架构设计的(以及TPU为何难以运行它),为何OpenAI更稀疏的模型与Anthropic更密集的模型将二者引向了不同的硬件路径,以及所谓的"CUDA护城河"从来都与CUDA本身无关。
Dylan还详细介绍了InferenceX——这是他打造的一个"动态基准测试"项目,每天在价值超过5000万美元的捐赠硬件上运行最新模型,追踪每单位质量成本每年约下降60倍的趋势。他提出,推理市场将比石油市场更大;算力短缺持续存在,是因为模型扩展有价值工作的速度快于算力增长的速度;此外,他也解释了为何黄仁勋正在大力扶持新兴云服务商,以构建一个多极化的算力世界。
说话人1(Dylan Patel) 说话人2(Shaun Maguire) 说话人3(Sonya Huang)
说话人2 00:28
我们现在在SemiAnalysis的办公室,嘉宾是Dylan Patel。我是红杉资本的合伙人Shaun Maguire,这位是Sonya Huang。你所做的事情真的令人叹为观止。五年前,半导体在西方并不算性感,在东方倒是很受重视,但西方人似乎早已淡忘了这个领域——你没有。你非常看好它,并打造出了这个领域可能是最顶尖的研究公司,从非常技术性的细节到供应链,再到更宏观的图景,一直在为整个世界提供教育。有传言说SemiAnalysis近期年收入已突破1亿美元,不知道是否准确,但不管数字是多少,你们表现都极为出色。
说话人1 01:31
消息的准确性嘛,和信息本身一样。
说话人2 01:32
你懂的。另外还有传言说你可能会创立一只风险投资基金,我在业内也经常听到大家希望能与SemiAnalysis建立合作关系。你已经建立了非常值得信赖的品牌,无论你下一步做什么,目前的一切都很成功,这显然只是你旅程的开始。恭喜你取得这些成就!但这一切是怎么发生的?你能先介绍一下自己的背景,是怎么走到今天这一步的吗?
汽车旅馆里长大的孩子
说话人1 01:59我从小在一个小型家族企业里长大,我父母经营一家汽车旅馆,我们就住在里面,对面是我们家的加油站。我开玩笑说,我训练的第一个神经网络就是根据顾客进门时的外貌特征来预测他们要买哪种烟——因为烟都摆在货架顶端,我个子太小够不到,每次都得把踏脚凳挪过去。从技术上说,以我那个年龄卖烟也不合法,但管它呢。
比如,如果走进来的是一位卷头发的白人老太太,我就把踏脚凳挪到骆驼牌那边;如果是不同年龄、职业或种族的顾客,我就挪到对应的位置。我说这是我训练的第一个神经网络,因为如果等顾客开口再去挪,效率太低——提前预判效率更高,薄荷味还是百支装,全都不一样。
修Xbox的契机
说话人1 03:09我觉得这是我训练的第一个神经网络,但更重要的是,我在家族企业里、在汽车旅馆里长大。真正让我进入硬件世界的,是我八岁生日前后的一件事。
Xbox 360在我生日前的四月份发布了,我向父母要求把它作为圣诞礼物——我虽然心里觉得他们不太可能买,但还是开口了。结果圣诞节他们真的给了我。没过几个月,我住在阿拉巴马州、同样住在汽车旅馆的表弟要来我家过春假,我们打算一起玩。他介于我和哥哥之间,但对游戏机兴趣不大,而我之前一直跟他吹嘘有Xbox。结果,Xbox坏了。
说话人1 04:07
那个硬件故障叫"红圈死亡",长话短说,我不得不把它拆开,短接温度传感器,才把它修好。在那之前我试过很多其他办法,折腾了很久。这就是我走进硬件世界的方式——像打开了潘多拉的盒子。
从网络论坛到半导体
说话人1 04:23
到我12岁的时候,我大量泡在各种论坛上——阅读、发帖,那是Reddit和其他各类论坛兴起的时期。我成了Android、Apple、Google,以及硬件、手表、英特尔、英伟达、AMD等各类论坛的版主。我密切关注智能手机如何从简单的产品演变为在架构层面甚至超越PC的设备,同样也追踪着GPU的演进。
我始终带着经济视角来看待这些,因为家族生意的背景让我从小就关注经济效益。当时互联网上很多"极客"喜欢AMD的GPU,我自己也买过一块,因为性价比确实高。但从纯技术层面讲,我始终认为英伟达更强——他们用更小的芯片实现了更好的性能和能效,利润率也更高。所以我那时候经常讨论英伟达的利润率比AMD好这件事。
说话人2 05:32
那时你才12岁?
说话人1 05:33
我12岁开始担任版主,但这一切贯穿了我整个青少年和高中时期。
说话人3 05:39
你还有什么别的奇特爱好,还是说只专注于半导体?
说话人1 05:42
我玩了大量星际争霸,一度在北美天梯打到了宗师级别。
说话人3 05:48
就是那种对很多事情都能痴迷到极致的人。
说话人1 05:50
对,就是痴迷。
说话人2 05:53
那你的学习成绩怎么样?
说话人1 05:54
还行,大多数科目都是A,但有些我觉得无聊的课——比如西班牙语——成绩就不太好。顺便说一句,我现在西班牙语说得很流利,所以当时不好好学真的挺蠢的。
说话人2 06:16
也许正因为你已经会说,才不用心学。
说话人1 06:18
不,我西班牙语是后来才学会的。总体来说,成绩还可以,对亚裔父母而言算是合格,比同学里大多数人强,但也没有死命拼到满分那种程度。
从量化分析师到创业者
说话人3 06:33好的,所以你基本上是在互联网上自学成才,建立了这方面的专业知识。那你什么时候决定创立SemiAnalysis的?创业过程中最大的意外是什么?
说话人1 06:42
我上了大学,拿了几个和半导体无关的学位,然后在一家小型量化风险公司做了两年量化分析师。之后,几件事同时发生了。
一方面,我被公司薄待了——我通过挖掘市场中的风险漏洞为公司创造了超过一千万美元的无风险收益,但成果被别人抢了功。虽然最终得到了一定补偿,但我对那家公司的信任感已经荡然无存。
另一方面,我的外祖父母一直和我们住在一起,住在汽车旅馆里。我和他们感情很深。那时外祖母患上了老年痴呆症,忘记了我是谁,后来从楼梯上摔落,遭遇了悲剧,离开了我们。这些都发生在2020年初。此外还有一些感情上的变故。种种事情交织在一起,让我陷入了很低落的状态。
接着新冠疫情暴发,我哥哥让我去纳什维尔和他一起住,说隔离就几周,过完就能回来——这话说得太早了。隔离持续了很长时间。住在哥哥家几个月,一切都是他和他当时的未婚妻(现在的妻子)说了算,我只能小心翼翼地生活。
说话人1 08:09
我对工作已经没什么牵挂了,所以比平时发了更多帖子。我一直都在大量发帖、大量炒股,也在疫情里做空做多赚了不少,半导体短缺那段时间也参与其中。
就在这个时候,网上有人在争论中人肉搜索了我,把我的真实身份和匿名账号挂钩并公开了。当时我吓坏了,停止发帖大概停了三周。然后我想通了:有什么好怕的?于是我开始用真名写博客,正式建立了"Semi Analysis"这个网站。在我24岁生日那天,我发布了两篇文章。
因为是实名、并且投入了比平时更多的心血,这两篇文章获得了大量关注。不是通讯简报,但确实引起了很大反响。你现在回头去看的话,文章本身算不上出色,但在当时已经是网上能找到的关于这个领域最好的内容了。我就这样持续写下去,咨询业务也随之涌来,从2020年下半年开始不断增长。
无固定居所的调研公路之旅
说话人1 09:16那段时间我的状态也很迷茫,不知道自己真正想做什么。于是我把东西都收拾起来——开着我的皮卡,买了一顶可以安装在车厢上的帐篷,还买了一个充气床垫,就这样上路了。
我每周有两三四天住在某个随机的旅馆里,每晚把价格砍到大概30美元,白天处理工作上的事情。周末就去读书,经常坐在某个国家公园里读教科书,或者边徒步边听半导体、AI相关的有声书。就这样在路上漂了六个月,跑遍了美国各大国家公园,自我教育的深度大幅提升。整段旅程中,我一直在发博客,当时所有人都在问我:"Dylan,你到底在干什么?"
说话人2 10:03
那时候Starlink还在非常早期的阶段。
说话人1 10:05
就是那么早。大家都觉得我在做一件莫名其妙的事。后来我先和朋友,再和前女友去了拉丁美洲旅行,差不多待了一年。从2021年底到2024年,我依然完全没有固定住所,每年参加超过40场全球各地的会议——只要是供应链上某个环节的会议,我觉得有意思就去。
去了第一场会议之后,我就上瘾了——你能直接和专家对话,而且在半导体领域,大多数人都是老一辈,很少见到对这个领域真正充满热情的年轻人,所以他们特别愿意跟你分享。
说话人2 10:52
想多问一句,供应链上有没有哪个环节或者哪场会议,特别颠覆了你对半导体世界的认知,或者你觉得现在依然被严重低估的?
说话人1 11:06
行业展会和会议的层次差别很大。我个人最享受的是NeurIPS这类活动——两万名AI研究员聚在一起,年龄层和我接近,既能认识一线研究者,学到很多东西,还有很多聚会,非常有意思。
另一个极端,比如日本某个化学领域的小型会议,只有300位日本男性,其中来自ASML、台积电、英特尔的大约各二十人,只有这些人说英语,其他人全程讲日语。虽然如此,这类会议仍然很有意思。
说话人1 11:30
我有一个能力,就是不管对方背景如何,我都能和他们建立联系,找到共同感兴趣的话题,通常是技术方面的内容。我认为最有意思的会议,既有像NeurIPS这样的大型活动,因为那里有最前沿的进展;也有SPIE这样的深度小众会议——IEEE是国际电气工程师协会,SPIE则是另一个体系,它的会议技术细节极其深入。
说话人1 12:16
我参加的每一场SPIE会议,比如先进光刻会议或光罩会议,第一次去的时候有90%的内容听不懂,读了大量资料、建立了一些认知框架之后,第二次能听懂大约一半,第三次能听懂大约75%。直到现在,我去了还是有很多内容不能完全理解。
相比之下,去NeurIPS这类会议参加几次之后,你大致能理清神经符号推理等各类概念的脉络,可以比较快地建立整体认知框架。但供应链的某些领域极其深奥和技术性,需要大量时间才能真正理解其中发生的事情。
参加会议的目的不只是理解论文本身,更重要的是理解那些研究如何与现实技术相交叉,它们与当前状态有何不同。这些都是研究论文本身不会告诉你的。
说话人1 13:13
但你可以直接问人、建立联系,逐渐了解供应链——哪家公司供货给哪家公司,虽然这在任何公开信息里都查不到。你会了解到某种化学品大概的价格区间,某种设备要用多少,诸如此类的细节,就是这样慢慢积累起来的。
说话人2 13:28
对,还有那种让人印象深刻的故事——某种化学品突然断货,完全打乱了供应链的某个环节,然后你才发现全世界只有三家公司生产那种化学品。
说话人1 13:41
我印象最深的一个故事,是在那场几乎只有日语的日本会议上,一位日本人用非常蹩脚的英语告诉我:他父亲曾在20世纪80年代从事这个行业,当时全球唯一生产某种化学品的工厂发生了火灾,直接导致内存价格翻了两三倍。我当时就想:这和今天的世界没什么两样。
说话人2 14:03
确实,历史总是惊人地相似。
InferenceX与基准测试
说话人3 14:04推理市场会成为地球上最大的市场吗?你同意还是不同意?
说话人1 14:11
Token的使用显然将是最大的市场,由Token创造的价值也将是最大的。Tokenomics、AI的广泛采用,是当下最重要的确定性趋势。无论是开放模型还是封闭模型,AI推理都将成为世界上规模最大的细分市场之一,远比石油市场更大。我认为AI推理将占到GDP的相当比重。
说话人3 14:35
你在InferenceX上所做的工作已经成为业内标准。能介绍一下你为什么创立它、它具体做什么,以及大家对推理性能基准测试最常见的误解是什么吗?
说话人1 14:47
SemiAnalysis的工作有两类:一类是为机构客户和订阅用户提供研究,另一类纯粹是出于好奇——觉得某件事有意思,就去搞清楚,然后公开发布。我们在GPU基准测试、训练性能和推理性能方面都做了大量这样的工作。
我们看到的问题是,推理基准测试是静态的、时间点性的——你做了测试,花时间发布出来,但很快就过时了,因为模型一直在变。感觉每周都有新模型发布,无论是中国的模型还是其他,就在今天,Opus 5和Fable也刚刚发布。与此同时,软件层也在不断更新——PyTorch、vLLM、SGLang、新驱动,这些库的更新频率基本上是每周两次。软件在持续迭代,推理性能也在随之变化,各种推理优化也层出不穷。
这种不断突破的势头一直在推动效率提升、成本下降,这就是为什么同等质量的模型成本每年下降约60倍——这是个惊人的数字。要跟上这种节奏,静态的时间点基准测试是远远不够的,你需要的是动态运行的、持续更新的基准测试,即在最新硬件上持续运行最新模型。
于是我们启动了InferenceX这个项目,并从整个生态系统中获得了广泛支持——CoreWeave、Crusoe、Nebius、Oracle、微软、亚马逊、谷歌、OpenAI都向我们捐赠了算力。
说话人1 16:25
同时我们也与SGLang、vLLM,以及现在的Radix Arc、Interact等推动开源工作的私人公司展开合作。英伟达、AMD、谷歌、亚马逊也正在加入,我们还将测试TPU和Trainium。目前已有超过5000万美元的硬件捐赠给我们,等TPU和训练测试上线后,捐赠总额实际上会超过1亿美元,约15种不同芯片类型每天都在最新模型上运行这些基准测试——Moonshot最好的模型、阿里巴巴最好的模型、约五家不同中国实验室的最好模型,以及最好的美国开源模型,如GPT、Nematron等。这些基准测试每天以自动化方式运行,在专门分配给我们用于推理基准测试的服务器上跑,横跨大量不同的配置和优化类型,所有结果和配置均公开。
说话人1 17:28
这样一来,我们就有了帕累托最优曲线。很多时候,人们在比较推理性能时,会拿别人的次优点与自己的最优点进行比较——就好比让我开保时捷,和职业赛车手开同一辆车,我肯定开得更慢,这道理是一样的。所以我们做的是:为"响应速度"(latency,即系统响应我的速度)和"批处理规模"(batch size,即同时服务用户数量)这条曲线上的每一个点,都创建了开源容器,对应的是最优配置。
现在,任何想要最优性能点的人,都可以直接去InferenceX下载并运行,甚至可以设置自动更新,始终保持接近峰值的推理性能。
说话人3 18:13
在你看来,吞吐量与响应速度之间的这条曲线是最重要的曲线吗?
说话人1 18:19
我认为是的。硬件基础设施、模型、应用层的几乎所有决策,都是由这条曲线决定的。
如果某个场景需要极低延迟,不在乎成本,就把批处理规模设得很小,并大量使用推测性解码或多Token预测等技术。而如果是批量处理大量文档,根本不在乎响应速度,就把用户尽量打包,不需要那些以牺牲成本为代价来提升个人用户速度的技术,因为你根本不在乎一个文档跑了一整夜才处理完。
现在我们对待AI基础设施的方式是"一刀切",但随着时间推移,会越来越细化——有些是批处理工作,有些需要即时响应,整条曲线对用户都是有意义的。我们在Anthropic那里就能看到这一点:Claude的快速模式比普通模式贵得多,OpenAI的优先队列也是同样逻辑。
说话人3 19:17
简单问一下,成本是怎么体现在这里的?
说话人1 19:20
举个假设的例子:我有100个用户同时请求,每个用户每秒可以处理10个Token,总计每秒1000个Token——这是曲线的一端,速度很慢,每用户10 Token/秒。另一端是只有1个用户,速度达到250 Token/秒。中间有一些帕累托最优点:普通用户可能需要50到100 Token/秒,我能同时服务一定数量的用户。
曲线两端分别是"总计每秒1000 Token(多用户低速)"和"总计每秒250 Token(单用户高速)",中间有一条曲线。有些工作场景会选择低速模式,因为同样的硬件可以处理1000 Token而不是250 Token,成本低4倍。而有些用户愿意多付4倍的钱,因为他们在乎的是时间而不是价格——使用Token的人本身成本很高,或者反馈循环的速度对他们而言很关键。
说话人2 20:20
如果让你预测,时间框架自己定——10年或15年——你认为届时有多少比例的推理算力会部署在太空中?可以是0%、50%,或者99%、90%?
说话人1 20:33
这个问题很难回答。
说话人2 20:34
时间框架随你定。
说话人1 20:38
我非常喜欢SpaceX,如果能买股票,我会毫不犹豫地认购IPO——不是投资建议。我认为在未来三到五年内,太空数据中心不会有实质性的影响。但从20年的视角来看,我认为绝大多数算力将部署在太空。关键变量是在地面上建设电力的成本,以及地面上能承载多少电力。
说话人3 21:25
你的预测是多少吉瓦?
说话人1 21:27
我认为到2030年,仅OpenAI和Anthropic两家合计就会有超过100吉瓦的算力,再加上Meta、谷歌等等,用于推理的算力总量将是天文数字。到2040年,可能会达到太瓦级别,届时带来的生产力提升将是惊人的。到2040年,我认为超过一半的新增算力会部署在太空;但到2030年,这个比例还不到1%。
说话人3 21:56
你认为每瓦算力所对应的智能水平一直在提升吗?现在似乎和人类大脑之间仍然存在巨大差距。你觉得我们能弥合这个差距吗?如果能,增益将从何而来?
说话人1 22:09
这在很大程度上取决于你在做什么任务。比如用于做数学的TI-84计算器,在每瓦算力的"智能"方面远超人类,而那已经是30年前的产品了——当然那是特定领域的智能,不是通用智能。
InferenceX的一个功能,就是测量所有硬件的功耗和成本。我们不只提供"吞吐量 vs. 响应速度",也提供"成本 vs. 响应速度"和"功耗 vs. 响应速度"。
说到每瓦智能的提升:我前面提到每年成本下降约60倍,功耗方面的提升大约是40倍左右——部分效率来自非功耗维度,但在每瓦智能上确实有巨大进步,今年、去年、前年都是如此,我预计这一趋势会持续下去。
至于距离人类大脑有多远,我们还差好几个数量级。但好在这不太重要——我们可以给计算机投入大量电力,比维持人类大脑运转要容易得多,毕竟不需要应对疾病、挑食、睡眠等问题。
说话人2 23:18
我想在这个话题上再多问一个问题。在我看来,提升每瓦智能或每美元智能,大概有三个层次的输入:硬件改进(硬件本身效率提升)、底层系统优化(内核级改进、矩阵乘法库优化等),以及高层的模型层算法改进。
在过去三年里,我的直觉是大多数收益来自硬件层,另有一些来自模型层。你认同这个判断吗?你觉得未来会呈现出什么样的格局?内核级别还有多少潜力可以挖掘?
说话人1 24:17
Shaun,我完全不同意你的观点。
说话人2 24:20
太好了,这正是我们请你来的原因。
说话人1 24:22
我认为可以从这三个层次来分析。从Hopper到Blackwell,大约是过去三年的跨度,在DeepSeek最优化部署下,性能提升约为30倍——在InferenceX上可以看到。但从三年前到现在,每瓦智能的整体提升远超30倍,其中很大一部分来自模型层。
三年前的水平是GPT-4,现在即便是一个270亿参数、仅有20亿活跃参数的小型Qwen模型,表现都远超当时。模型层有巨大的提升,硬件层也有相当可观的进步,但真正的关键在于协同设计层——这才是最重要的。
以DeepSeek为例,它是目前最广为人知的公开案例,可以清楚地看到:DeepSeek V3中所有专家的矩阵形状都专门为Hopper架构优化,V4则为Blackwell芯片优化。有趣的是,TPU客观上是非常优秀的芯片,承担着DeepMind全部的运算,也是Anthropic预训练阶段的主力——但TPU在运行DeepSeek时表现很差,反而在其他类型的模型上有着Nvidia无法比拟的优势。
这种深度优化涵盖了矩阵形状、网络IO模式、collective通信方式、注意力机制的算术强度等诸多方面,模型、硬件和中间的基础软件已经紧密地协同优化,你很难把各层的贡献单独剥离出来分析。
说话人2 26:16
我的理解是,这方面中国做得比西方好很多。DeepSeek似乎是第一个真正做到这一点的模型。
说话人1 26:28
我不一定这么认为。更可能的情况是西方没有公开他们在做什么。OpenAI从未透露GPT-4o有多稀疏、矩阵形状是什么,但实际上GPT-4o的规模和DeepSeek V3大体相当,甚至还略小一些,而且发布时间还早一点。
说话人2 26:48
你的看法是,这三个层次的进步一直在同步发生,大致处于相似的量级,而最大的收益来自同时对三个层次进行协同优化?
说话人1 26:58
我会说模型层的收益多于软件基础设施层和硬件层,但每一层都有创新在发生。真正最大的收益,以及顶尖实验室的核心竞争力,在于同时协同优化三个层次。
Anthropic虽然使用多种硬件,但推理主要在GPU上完成,训练则主要用TPU——GPU更通用,但他们优化了硬件、模型和所有相关环节。OpenAI之前的模型更针对Hopper优化,现在更多针对Blackwell。谷歌同样如此:Gemini 2深度优化了TPU v6e,下一代Gemini则专门针对下一代TPU架构。
说话人1 27:56
很多模型都是在特定硬件上协同优化的,一旦移植到旧硬件上运行,效果往往大打折扣。软硬件协同设计是这其中最重要的事情,这也正是我日常工作中最令我兴奋的部分。
说话人1 28:17
每一层都有创新在发生,而真正的突破性进展,是当你跨越几个层次进行协同设计时——原本可能只是这里2倍、那里2倍的改进,叠加之后不是简单相乘的8倍,而是100倍。这就是实验室层面和英伟达这样的公司令人兴奋的地方。英伟达并不直接在模型层做协同设计,但从模型层一路延伸到芯片层,他们都在优化。台积电也是如此,不只优化制造工艺,而是从耗材、工具,一直到客户告诉他们的芯片设计需求,整个抽象栈都在协同优化。
说话人2 29:00
在这条优化链上,某个环节总会出现瓶颈,成为拖累整体进展的短板,需要被拉起来。
说话人1 29:08
对,然后就是各种临时补丁。
说话人2 29:09
正是。如果让你预测,在整个技术栈的任意层面——可以包括供应链——你最密切关注的、未来一年内最关键的瓶颈是什么?不一定局限于供应链或规模层面,而是实际技术层面。
说话人1 29:37
内存是一个显而易见的答案,大家都在谈,但我想从技术角度来说,而非供应链角度。内存容量和带宽的提升一直非常缓慢——NAND存储单元大约是25年前发明的,DRAM单元大约是40年前发明的,在存储单元本身层面一直没有重大突破。
未来几年将有一个重要创新:不再把HBM单独堆叠在芯片旁边,而是直接把内存堆叠在芯片上,这将使带宽大幅提升。这个方向上有一些有趣的公司和概念验证项目正在推进。
另一个瓶颈是功率密度。过去二十多年,数据中心和桌面芯片有一个几乎不变的规律:每平方毫米约1瓦。一块100平方毫米的芯片,功耗通常接近100瓦。最新的英伟达和TPU芯片仍然大致在这个区间。芯片正在走向1400瓦,英伟达Rubin下一代可能达到2000瓦,Rubin Ultra甚至可能达到4000瓦,但本质上是靠增加硅面积来实现的。
真正令人兴奋的是,目前正在研发的技术能让每平方毫米泵入远超1瓦的功率。这意味着同等性能所需的硅面积更小,虽然运行功耗更高、在某些情况下效率更低,但减少了所需的硅面积,有助于突破现有的上限。
说话人1 31:29
随之而来的是散热挑战、电磁干扰等各种工程难题,这正是为什么我们在每平方毫米1瓦这个门槛上卡了这么久——它是一个极其困难的工程问题。
说话人1 31:42
但令人振奋的是,全世界都在努力突破这些限制。在供应链的另一个维度,人们谈论能源瓶颈,认为难以解决。其实也有一些相对直接的方案可以考虑:比如美国有大量用于卡车的柴油发动机,可以在生产线上相对容易地改造为燃气发动机,然后连接到电动马达上反向驱动——让电动马达发电而不是驱动车轮,这样就能通过美国本就可以大规模生产的引擎来发电。
说话人1 32:24
这样做的维护似乎很麻烦,因为一个数据中心可能需要数百台这样的设备。但其实可以直接从汽车修理店招募技工来负责维护。我并不是说这很简单——我自己肯定做不到——但这是一个工程上可行的路径。
说话人2 32:41
你说出了一个很重要的观点:正因为西方过去二三十年没有真正重视半导体乃至更广泛的硬件领域,所以缺乏持续的创新投入,最优秀的人才也没有被吸引到这里。
说话人1 32:57
为什么要去做硬件,当你可以去做广告呢?
说话人2 33:00
没错。
英伟达GPU与TPU之争
说话人3 33:03好,换个话题。英伟达GPU vs. TPU,你怎么看?
说话人1 33:08
大家都想从中选一个,但这其实是一个关于市场格局的问题。往后看两年,谷歌通过供应链会生产超过一千万颗TPU,英伟达会生产数以千万计的GPU,两者都将成为规模超过一千亿美元的生态系统,谷歌每年通过TPU创造的价值超过千亿美元,英伟达更是远超这个数字——我不做具体预测。
说话人2 33:34
这是思想实验,不是收入预测。
说话人1 33:42
两者各有绝对优势。英伟达会说:我们有交换机、我们是通用硬件;TPU会说:我们更优化、能效更高、网络拓扑对某些架构的适配性更好。双方都有站得住脚的理由。
我可以一本正经地和你争论GPU远优于TPU,也可以反过来论证TPU远优于GPU。但这一切都取决于软硬件协同设计。OpenAI目前的模型演进方向,可能让他们使用TPU成为一个糟糕的决策;而Anthropic和谷歌的模型演进方向,可能让使用GPU训练也同样是个糟糕的决策——当然作为矩阵计算本身是没问题的。
稀疏模型与密集模型
说话人3 34:36根本的区别是什么?
说话人1 34:37
有很多方面。最简单的一个就是矩阵乘法单元的大小不同,进而影响矩阵运算的形状、注意力机制的结构方式、专家模块的组织方式等。
说话人3 34:52
所以你认为OpenAI和Anthropic在模型架构上正在走向截然不同的路径?
说话人1 34:56
我认为他们的模型架构差异相当大。OpenAI的模型更加稀疏,这有其独特的优势;Anthropic的模型虽然也是稀疏的,但整体上更密集,这带来了不同的优势。
此外还有网络拓扑的差异。英伟达的芯片都通过NVLink交换机连接,最多可以互连72个GPU;谷歌的ICI则没有交换机,但可以在超高带宽下连接8000个芯片——代价是必须经过中间芯片来路由,因为没有直接交换机。这些架构上的权衡,反过来影响了模型设计的选择。所以并不能简单地说谁优谁劣,因为你无法孤立地评估硬件,它天然延伸到了模型层。
CUDA护城河正在转移
说话人3 35:49
我记得很长一段时间,大家都认为英伟达的可编程性和CUDA生态是巨大的护城河。但在我看来,过去大约六个月,这个叙事似乎已经开始改变了。模型公司不再在意要不要为其他芯片编写自定义内核——愿意的话,就支持四五种芯片。Codex这类工具在做大量优化工作方面已经相当出色。而且模型公司的数量并不多,大概就几十家,每家都需要高度可编程性的假设本来就站不住脚。因此,"数以万计的大客户都需要良好兼容性"这个前提本身似乎正在动摇。
说话人1 36:34
确实如此。CUDA的软件护城河至少部分已经被拆解,因为模型本来就很擅长写代码,所有软件终究都会被商品化。但我认为,人们所说的"CUDA护城河",其实与CUDA本身关系不大。
真正的护城河在于:DeepSeek、Kimi、智谱AI、阿里、腾讯、小米——这些公司的模型都是专门针对GPU协同设计的。因此,如果你想在TPU上运行这些模型,在某些情况下效果相当差。谷歌只能建立自己的开源模型生态,这就是Gemma模型的意义所在。
最终结果是:护城河并不在于CUDA这门编程语言,而在于下游产品对英伟达硬件的深度优化。这些公司只是选择了开源,Nematron也是如此。而那些使用这些模型的下游用户——推理API提供商、RLHF公司、为企业定制开源模型的公司——都因此被迫使用英伟达,不是因为他们需要自己写CUDA内核,而是因为专家模块的维度、隐藏层的大小等形状参数,都更适合在英伟达GPU而非TPU上运行。
反之亦然——如果谷歌真正开源了质量很高的模型,人们拿来用了之后,发现在英伟达GPU上跑得不好,就会去买TPU或租TPU来跑。
对小团队来说,他们会想用vLLM、SGLang、PyTorch这些开源工具。但大型实验室不一定要用这些——OpenAI很早就从PyTorch上fork出去了,Anthropic和其他大型实验室也不依赖开源实现,而是基于自己fork的版本独立构建。
说话人1 38:32
因此,大型实验室的逻辑越来越变成:选择最好、最具成本效益的硬件,然后围绕那个硬件协同设计模型和基础设施软件,并用AI来辅助编写所有这些软件。
Cerebras的速度与局限
说话人3 38:46
你怎么看Cerebras?
说话人1 38:46
我认为Cerebras是一家非常有创新性的公司。在某些细分市场,他们做得很好——超低延迟推理。我认为这是一个很大的市场,我们在SemiAnalysis基本上只用快速模式。
说话人3 39:02
顺便说一下,我很欣赏你对投入产出的精细核算——不知道是某一期特别做了这个,还是你们一直如此。
说话人1 39:13
我们做得相当仔细,谢谢。那是我们发布的"Dark GDP"报告里体现的。我们每周五也会追踪每个人的Token消费,如果有人突然飙升,就去问他做了什么。
说话人1 39:25
如果解释合理,那就没问题。我认为快速模式对于高端任务明显是值得的,我能想到很多场景,超快的Token速度确实有价值。但反过来说,也有很多场景根本不需要这么快,用户不愿意为此付费,就会选用GPU或TPU。
Cerebras面临的一个主要风险是:能发挥快速模式价值的,往往是最好的模型,而小模型未必需要快速推理。金融市场、高频交易或中频交易等场景或许是例外,但在基于SRAM的芯片(比如Cerebras和Groq)上运行非常大的模型、超长上下文,在技术上非常困难。
如果未来模型变得更大——不是千亿级别参数,而是10万亿以上参数级别,再加上百万级别的上下文长度——那在Cerebras上可能就跑不下来了。从目前的使用数据来看,用户始终偏好实验室最好的旗舰模型,即便它们更贵。就在今天发布的Fable,就已经有大量用户从此前的版本切换过来,尽管价格更高。
说话人3 40:53
是按照美元收入来衡量,而不是Token数量?
说话人1 40:57
谁会在乎Token数量呢?看的当然是美元。就好比我不在乎卖出了多少辆Mini Cooper或者丰田凯美瑞——如果单价是5倍但销量只有一半,那也没关系。美国最赚钱的市场是皮卡,这道理是相通的,我说的是类比关系。
说话人2 41:19
你始终把经济学和技术结合起来分析,这是你最突出的差异化优势之一,也是你做得最好的地方之一。这两件事能同时关注的人极少。
说话人1 41:32
谢谢。我觉得SemiAnalysis内部有一个很有意思的现象:我们90个人里,很大一部分是整个供应链的技术专家和工程师,另一大部分曾在对冲基金工作。于是你经常看到这样的争论:工程师说"这个技术太厉害了",前对冲基金的人说"但是成本呢",就这样有机地吵起来。我们内部文化很随意,你能想象,考虑到我当年是论坛版主,这种氛围很自然。
说话人2 42:02
看来你挺享受这种状态的。
说话人1 42:04
俗话说,不要和猪摔跤,因为猪本来就喜欢在泥地里打滚。
ROI争论与犀利观点
说话人2 42:08
在进入下一个问题之前,我想问一下:在半导体领域,有没有什么话题特别让你抓狂?比如有人说了什么,让你觉得"这人根本不懂"?
说话人1 42:26
最让我抓狂的是"AI没有ROI"这句话。其次是否认模型进步——那些说"模型没有变好、没有真正的推理能力、不会思考、快到顶了"的人。问题是,从能力曲线来看,一直都是向右上方延伸的。他们说"看,这个基准测试没有提升",那是因为已经饱和了,达到了90%以上。去看新的基准测试,那些正在快速突破的。这才是关键所在。
说到底,半导体非常复杂,我不责怪任何人有所欠缺——我自己每天都在向行业里的人学习。我研究这个领域大概有18年了,但即便如此,昨天我还刚了解到一种年销售额约1亿美元的化学品的存在,完全不知道它的存在和用途。在数千亿美元规模的行业里,1亿美元的小品类多了去了,但每一种芯片的制造都离不开它。半导体有大约1000道工序,没有人能掌握全部细节。
最让我觉得好笑的,是当一个人手握所有事实,却得出了完全错误的结论。
说话人2 44:01
这在我们的工作里也是常态。
说话人1 44:04
这种时候,我的态度不是生气,而是尽量快速更新认知。
未来十年的技术押注
说话人2 44:10
因为AI是目前世界上最重要的事情,近期瓶颈是我们日常谈论的重心。但有没有更长远的事情让你感到兴奋,比如十年维度的?我们提到了轨道数据中心,还有硅光子——在十年时间跨度上,你认为它是被高估了还是被低估了?还有其他方向吗?
说话人1 44:33
从太空角度来看,太空数据中心在十年维度上令我非常兴奋——太空数据中心、小行星采矿等等,我对SpaceX的愿景充满期待。
说话人1 44:47
在半导体层面,市场的重大变化往往取决于某件事提前或推迟一年发生。比如共封装光学(co-package optics),大家都知道它在这个十年内一定会实现,争论只是在2027年、2028年、2029年还是2030年。但总会到来。
更有趣的是,有些公司同时在芯片层、软件抽象层和模型层进行创新。你们投资了Divyansh Rao(Divyansh)的公司吗?
说话人2 45:12
是的,我们投了。
说话人1 45:12
他尝试同时在硅层、软件抽象层和模型层上进行创新。他完全清楚这不是两三年内就能见效的事,而是一个长期赌注。这类想法——比如模拟计算与基于能量的模型一同出现——是非常令人兴奋的事情,虽然大概率不会成功,但充满想象力。
说话人2 45:40
确切地说,不会在短期内成功。
说话人1 45:42
对,肯定不会在短期内成功。我非常相信他。我最早认识他是在2020年,我当时还是匿名账户,在网上怼了他,他开始回复,我就把对话搬到私信,再约了一个通话,他是我在整个半导体行业认识的第一个真正重要的人。
说话人2 45:56
他的一个特质让我印象深刻——他总在努力帮助年轻一代,识别人才。
说话人3 46:08
在MosaicML方面,他也超前于时代太多了。我记得那时候还是2019年。
说话人1 46:11
当时我还是匿名账户,就在网上怼了他,他回复了,我就把对话引到私信,然后约了通话。那是我在整个半导体行业里真正认识的第一个重要的人。
生态系统的终局
说话人3 46:27
你认为生态系统的最终形态是什么?每家实验室、每家超大规模云服务商都有自己的芯片吗?训练用自家芯片似乎现在已经开始成立了。你认为最终每家超大规模云都有自己的芯片,至少用于推理,训练则可能仍然去找英伟达?
说话人1 46:44
我认为每个人都会去尝试,也不会停止尝试。但最终,供应链的能力和可引入的技术决定了你能走多远,行业越大,供应链多元化的趋势就越明显。
说话人1 47:00
现在,几乎所有人的芯片结构都大同小异:中间是大型逻辑计算芯片,左右两侧是HBM,上方是网络接口,下方是PCIe及其他IO。这个结构对训练芯片、TPU和英伟达GPU基本一致,大多数初创公司也是如此——除了Groq和一些做特殊架构的公司。
说话人1 47:22
随着时间推移,我们会看到硬件架构和模型架构越来越分化,人们会进行协同优化。有些人会陷入局部最优——就好比梯度下降,大家都在寻找最优解,但有些人会收敛到局部极小值。
问题在于,英伟达由于拥有海量客户,每个客户都在设计阶段给予反馈,他们的通用计算平台能兼顾更多需求,其"全局最优"虽然可能比不上专用芯片的"局部最优",但专用芯片的局部最优可能恰恰是错误的方向——今天看起来很完美,但随着AI的发展,实际上需要的是另一条路。
说话人1 48:22
所以我认为通用AI计算会有一个很大的市场。和实验室的人聊天,他们甚至不知道一年后自己会用什么架构,他们有很多研究押注,但不知道最终会走哪条路。一般情况下,他们了解自己手上有什么硬件,并在此基础上尽量协同优化。
说话人1 48:42
但如果某个模型架构出现重大突破——比如用新机制替换注意力机制,谁都无法预测——最好的硬件选择就会随之改变。那么,人们会为了一个更专用的资产做五年的硬件投资押注吗?还是会保留一部分通用算力?这就是为什么谷歌愿意以每GPU每小时11美元的价格从xAI租用GPU——这个价格已经非常惊人了。
说话人1 49:19
而且尽管谷歌自己有TPU,这里面仍然存在一些值得深思的问题:为什么他们要这么做?事实上,谷歌有三个不同的TPU设计项目——与Broadcom合作的一个架构,与联发科合作的是不同架构,第三个则是公开披露的研究版本。这是完全不同的三种架构,不只是换了代工厂这么简单。我认为大家都意识到局部最优的风险,所以每家公司都会有自己的ASIC项目,每年投入数十亿乃至数百亿美元——谷歌可能是数百亿美元级别。
说话人1 50:01
但同时,他们也会有不依赖TPU的工作负载。谷歌内部有些非Gemini、非DeepMind的项目主要用GPU而不是TPU。不同的应用场景——药物研发或Waymo——可能需要不同的架构选择。针对科学研究的AI和针对通用智能的AGI模型,算法模式可能完全不同。随着市场越来越大,细分市场会不断涌现,每家公司都能找到自己的利基,即便大部分市场份额最终仍然归英伟达和训练用TPU所有。
算力短缺与新兴云服务商
说话人 3 50:47
好的,我们来看看数据中心的建设情况。从各方数据来看,如果你看那些图表,每计算小时的成本来看,我们正处于一场严峻的算力紧缺之中。而且这似乎是供需两侧同时承压——长期运行的智能体需求急剧攀升,与此同时,大量数据中心的建设都在推迟。你认为这种算力紧缺会持续相当长一段时间,还是说在某个节点会得到缓解?
说话人 1 51:09
每个季度,我们部署的算力都远超上一季度,新建的数据中心也比上一季度更多。今年,即便考虑到各种延误,也将有20吉瓦的算力上线;明年,扣除延误因素后,这一数字将超过30吉瓦。当然,任何事情都会有延误,这是客观规律。至于算力紧缺会不会伴随我们余生,这取决于模型的发展走向。
就像Claude 5、Fable 5这些模型的潜在市场规模,并不只是Opus的两倍。这些模型已经好太多了,能处理的任务数量也远远超出,其可寻址市场的规模远不止两倍。但在过去六七个月里,全球的算力并没有翻倍——从Opus发布到现在,4.6、4.7、4.8版本都有所进步,而Fable和Mythos则是一次大幅跨越式的提升,但全球算力并没有在同期翻倍甚至翻四倍。然而,AI能够完成的有价值任务的数量和价值,却确实翻了倍乃至更多。
说话人 1 52:15
现在的问题是接下来会发生什么。Anthropic在第二季度已经实现盈利——不含股权激励的净利润为正;我认为到第三季度,甚至含股权激励的利润也可能转正。他们的盈利能力就有这么强。就API价格而言,Opus 4单个Token的利润率在80%以上。他们与大客户签订了许多合作协议,通过Bedrock和Vertex等渠道的合作方式会让整体毛利率有所摊薄,但他们每个Token的利润率依然极高。
正因如此,即便算力紧张,他们也完全有能力以高于市场价的价格购买GPU。他们之前以高于市场价从SpaceX购买了GPU,价格比谷歌的方案贵,但那是因为合同签得早。这是一种财务健康、具备正毛利率的公司才能做到的事,融资阶段的初创企业或毛利为负的公司未必能如此操作。
从成本收益角度来看:我每租一张GPU,因为我已经没有富余算力了,可以立刻将上面的token卖出去;无论是推理还是训练,每一次算力投入都能立刻产生正毛利。如果我当前跑着75%的毛利率,即便算力成本翻倍,我仍然有50%的毛利。而且对他们来说,扩充算力节点这件事,如果是租用模式,也不需要太多人力介入。
说话人 1 53:38
所以归根结底,净收入还是在增长的。在这种情况下,我愿意以任何我能承受的价格租用GPU。
说话人 3 53:47
我有个反向的问题:在某个时间点,这波算力建设狂潮会不会突然崩塌?今天早些时候,我看到一条推文,Crusoe公开表示有客户要求暂停某个数据中心的建设。整个生态系统里每个人现在都像上了杠杆一样——必须建、加速建、不停建。高杠杆加高增长,作为投资人,我对这种组合感到非常不安。
说话人 1 54:08
等等,高杠杆加高增长意味着少量股权有巨大的上行空间。
说话人 2 54:13
你不是……
说话人 1 54:13
债权投资人,你是股权投资人。
说话人 2 54:16
(表示认同)
说话人 1 54:18
去学学私募股权的杠杆收购吧。
说话人 3 54:24
私募股权,好吧。
说话人 2 54:26
她在股权这条路上走太久,忘了债的那一套。
说话人 3 54:28
好,我主要关注的还是营收端。你有没有看到任何风险信号?你对这个问题是否感到担忧?
说话人 1 54:33
我明白你的意思,这其实又回到了模型的核心问题上。如果模型能创造的总经济价值——就是我们之前提到的"暗GDP"报告——如果这些模型所能完成的工作量,没有比算力供给增长得更快,那局面就会逆转。而在过去六个月里,天平一直是倒向另一边的——模型可处理的工作量,其可寻址市场的扩张速度,超过了算力的增速,所以价格才会上涨。
当然,也完全有可能某天模型进步突然停滞。你去问Anthropic或OpenAI的人,也许他们有些一厢情愿,但几乎所有人都说:不,模型还会继续进步。现有方法在某个地方可能会遭遇瓶颈,但目前我们仍然能看到快速改进的清晰路径。事实上,模型进步的速度比六个月前或一年前还要快,因为存在我所说的"递归自我改进"——工程师用模型来辅助编写基础设施代码,从而更快地推出下一代模型。这样一个类似递归自我改进的飞轮正在转动,模型因此越来越好,而且越来越快。
说话人 1 55:48
但归根结底,资本是个大问题,这也是谷歌要募资的原因。他们持有大量SpaceX股份,大约占公司5%左右吧?
说话人 2 55:57
可能稍微多一点。
说话人 1 55:58
是的,我记得是——
说话人 2 55:59
大概是10%。谷歌当年以100亿美元估值投了10亿美元,拿到了10%,后来被稀释了一些。但那绝对是史上最成功的投资之一,干得漂亮。
说话人 1 56:11
所以,他们账上有大约1000亿美元可以在解禁后九个月内套现,加上日常产生的大量毛利润,但他们还是在做财务预测之后得出结论——我们需要融资,于是进行了增发。这听起来不可思议,但这也说明了他们预计需要花多少钱。资本确实是个大问题。Meta也宣布要增发股票,市场不太买账,但所有这些公司都会去融资,无论是债权还是股权。资本的水龙头终归有一天会拧小,但眼下,亚马逊每增加一张GPU、每增加一个推理或训练单元,都能带来更高的营收,每个新增算力单元都能产生毛利润。
说话人 2 56:53
我想在这里补充一个问题。在我们讨论这些的过程中,我脑子里一直有一个想法。我拿石油做个类比:沙特阿拉伯每桶石油的开采成本远低于许多其他国家,而且沙特石油中的杂质含量极低,提炼更为容易。
那么我的问题是:在即将上线的这20吉瓦算力中,各个吉瓦之间的质量有多大差异?你认为哪个指标最能说明问题?比如,谷歌的每吉瓦算力是否比大多数新兴云服务商的价值高出两倍?因为谷歌有光学交换机,有多年积累的建设经验,懂得如何做电力平滑处理。
我想提出的另一种假设是:真正擅长建设数据中心的公司,应该全力以赴、尽可能多建,因为需求旺盛,他们的竞争优势也更大。而我们或许正开始看到一些早期信号,那些相对不擅长的参与者开始遭遇挫折。我不知道实际情况如何,只是好奇大家怎么看。
说话人 1 58:18
在这方面确实有一些衡量指标。Trainium向Anthropic和OpenAI出租的价格,是低于每吉瓦100亿美元的;而GPU在过去六个月的市场狂热之前,通常是在每吉瓦120亿到130亿美元左右成交的。这是新兴云服务商对比亚马逊的租金差异。现在亚马逊的GPU也大概是130亿美元。
说话人 2 58:42
我的理解是,亚马逊对这块业务是有一定补贴的,实际价差可能更大。
说话人 1 58:52
Trainium低于100亿美元,但其中涉及一些复杂的机制,本质上是看算下来到底多少钱——
说话人 2 58:56
而且,我的理解是,Anthropic在让Trainium真正可用于训练方面发挥了重要作用,比如编写各种底层库等。我听到的反馈是,Trainium是真的很好的硬件,而且在快速进步。Anthropic现在也大量在用,希望我们能看到这反映在价格上涨上。
说话人 1 59:19
那份协议有一个底价机制——如果效果不好,价格会更低,直到合同取消;如果效果很好,价格会相对高一些,但有效价格基本上是低于100亿美元每吉瓦的,这就是Trainium的实际情况。而GPU方面,SpaceX那笔交易的价格是每吉瓦约250亿美元,即每兆瓦每年2500万美元,是谷歌的方案——这个差距非常悬殊。
当然,如果亚马逊今天再卖Trainium,价格肯定会超过100亿,因为目前算力供不应求。但数据中心领域已经出现了类似的分化——在托管托管模式下,不含算力只租场地和电力,数据中心通常按每千瓦每月多少美元定价。以前是每千瓦每月60美元。
说话人 1 01:00:12
现在的成交价格大约在120到160美元之间,而且不同质量的数据中心差异显著。我见过信用评级较差的客户签到200美元的案例,也见过质量较好的数据中心低至100美元的情况;在印度,由于电网不稳定、网络连接质量一般、设施相对普通,价格可以低至80美元,但好歹算是个数据中心。
说话人 1 01:00:37
所以数据中心之间的价差已经非常悬殊。在数据中心建设这件事上,常见的坑就是直接失败——有很多人夸下海口说要建,比如某四人小团队,说"我们订了涡轮机,付了定金,要建一个数据中心",然后就是不断推迟,最终烂尾。
说话人 1 01:00:57
所以你需要对团队能力进行加权评估,同时考虑时间滞后因素。我们的数据中心模型就是这么做的——我们追踪每一个数据中心项目,根据他们采用的设备等各种信息对每个项目逐一评估。
关于谷歌,你提到的一点很有意思:在一个1吉瓦的数据中心里,他们实际上会安装1.5吉瓦的硬件。由于他们对从工作负载到电力管理的整个链路都有深刻理解,所以能够灵活调配电力分配。
说话人 1 01:01:23
通常情况下,1吉瓦的算力设施在功耗上的实际利用率大约是60%到70%——注意这里说的是功耗利用率,不是硬件利用率,硬件始终有人在租用。但谷歌能把功耗利用率提升上来,也就是说在1吉瓦的额定容量下,他们能用满整个1吉瓦。
还有一种玩法,包括谷歌在内,是与电力公司签协议:电网稳定时能供1吉瓦,但一年中有三天可以临时提升到2吉瓦。他们就会说"那就给我2吉瓦,必要时你告诉我降载"。
说话人 1 01:01:50
要做到这一点,需要对工作负载进行精细化管理,配备备用电源、现场发电机等一系列基础设施,才能真正稳定运行2吉瓦。能做到这些的运营商,可以收取更高的价格。
说话人 1 01:02:05
比如,虽然额定只有1吉瓦,但借助储能、燃气等手段处理掉那三天的超用问题,我实际上可以对外销售2吉瓦;或者,我在本地建了自备电源,在没有其他人能供电的地方拥有了1吉瓦的能力,因而能够快速交付。这未必会带来更高的单价,但我可以卖出更多的吉瓦。有时候这两者是交织在一起的——你卖出了更多吉瓦,而每个吉瓦的定价可能各有不同。
说话人 1 01:02:29
在数据中心和能源这一层面,我认为更多是有和没有的问题,以及项目会不会延误,更像是一个二元判断。但在算力侧,我觉得确实存在更多有意思的差异化空间。同样是1吉瓦交给Anthropic,产生的营收客观上高于交给OpenAI的情况;而这两家目前似乎都能把手头所有算力用满,因为存在限速、Token上限等问题,尤其是Codex 5.5发布后,需求更是大涨。同样地,如果把1吉瓦交给SpaceX——
说话人 2 01:03:03
一旦他们开动,那产出相当可观。我的判断是,他们对硬件的利用效率可能超出大多数人的预期。我认为人们往往低估了他们从Starlink积累的丰富网络运营经验,以及从特斯拉延伸过来的电力管理能力。
说话人 1 01:03:25
他们团队的背景简直令人叹服。
说话人 2 01:03:28
对我来说,那可能恰恰是很多分析遗漏的一个维度,我也不确定,但感觉确实如此。
说话人 1 01:03:37
还有一点很重要:当CoreWeave建起1吉瓦的算力时,尽管他们GPU的性能和可靠性客观上优于亚马逊、谷歌或微软——我们做过实际测试——但问题在于,谷歌会在算力交付前六个月就把合同签出去,然后需要拿着这份有信用背书的合同去融资,再用融到的钱支付已经下的采购订单。而SpaceX的做法是:这台机器现在就跑着,买吧。
在拥有强大资产负债表的前提下,这种能力的差距是巨大的。这也会大幅提升你的每兆瓦营收水平。
说话人 3 01:04:15
那么,新兴云服务商(Neo Cloud)的机会为什么会存在呢?如果你五年前问我,我会说超大规模云厂商在这方面根本无解。而你刚才也提到CoreWeave的性能比超大规模云厂商更好。这个机会在宏观层面和执行层面上是怎么产生的?
说话人 1 01:04:29
2023年,我写了一份报告,让亚马逊对我很不爽,标题叫《亚马逊云危机》。
当时我分析的是:亚马逊之所以是最好的云平台,是因为他们有Nitro网卡——它能提供租户隔离,所有虚拟化层都跑在网卡上,因此可以把所有CPU核心都卖出去。他们还有自研SSD,买的是原始NAND颗粒,自己组装,成本更低。他们有Graviton自研CPU,摊低了每核心的成本。这些种种优势让他们能够卖出更多核心、提供更好的安全性和网络性能,存储方面也更具竞争力——但这一切都是针对传统CPU云计算场景构建的。
在AI云场景中,这些优势反而成了性能的拖累。Nitro网卡对AI性能有负面影响,虽然经过几次迭代已经改进了不少,但仍然不是最优的。此外,很多安全机制在AI场景下也用不上——因为不存在多租户共享一张GPU或一台多GPU服务器的情况,没有人租一个72卡机柜里的单张GPU,都是整柜、整群租用,而且都是长期合同。GPU租赁市场的这些特性,让超大规模云厂商的很多传统优势失去了用武之地,有些甚至变成了负担。
谷歌和亚马逊的定制网络在传统CPU计算场景下表现优异,但对AI训练未必适用。微软的情况则是:自建数据中心本来能节省成本,但他们的数据中心建设团队能力其实并不突出。需求稳定的时候还好,但当他们要在年内临时大幅提升交付量时,就力不从心,不得不去购买大量新兴云服务商的产能。
另外就是上市速度。在大型组织里,没有人会因为"数据中心建得更快"而致富。但你看Crusoe,Chase和团队里其他人,如果他们提前交付算力,是真的可以大赚一笔的,因为他们都是高杠杆的股权持有者。
说话人 2 01:06:47
他们是股权持有人。而且,你懂的,他们很多都是从比特币圈出来的——虽然这话不太适合公开说。
说话人 1 01:06:52
他们的主要数据中心负责人其实是从微软过来的,所以也不全是那个路子。
说话人 2 01:06:56
我就是开个玩笑。但有一点是真的:在高度波动的市场里摸爬滚打,确实能学到很多。
说话人 3 01:07:05
那你认为,Jensen(黄仁勋)是在下一盘大棋吗?
说话人 1 01:07:07
Jensen非常厌恶一种世界格局:超大规模云厂商垄断一切。这就是为什么他会向一些看起来不那么有把握的AI实验室砸钱——他在全世界各地游说,说"你应该投这家公司",因为他想创造一个多极化的世界。这也是他为什么喜欢中国AI实验室——他想要多极化。如果只有OpenAI、Anthropic和谷歌的模型主导市场,他就完了;如果只有超大规模云厂商建算力,他也完了。所以他必须把资源配置的方向引向新兴云服务商,帮助他们构建集群,想方设法支持这个生态。
说话人 1 01:07:46
因为今天,卖给Crusoe的一张GPU、卖给CoreWeave的一张GPU、卖给谷歌或亚马逊的一张GPU,对他来说是同一个价格。但五年后,Crusoe和CoreWeave的存在,意味着谷歌TPU的市场地位会更弱,亚马逊Trainium的影响力也会更弱。而推理端有更多由非闭源模型实验室承接,对他也更有利。所以,新兴云服务商的生态就是这样一片野蛮生长的丛林,很多新兴AI实验室同样获得了英伟达的投资。这个圈子是一片西部荒野,有很多会倒下,但也会有一些真正优秀的团队脱颖而出——比如Crusoe,一群最初搞加密货币、后来转型建数据中心、利用废弃天然气的人;比如CoreWeave,起家于一群对冲基金——
说话人 2 01:08:30
他们最初也搞过比特币挖矿,然后才转型的。
说话人 1 01:08:31
对,但他们最终建起来了,很多同一时期起步的人就是失败了。
说话人 2 01:08:40
这两支团队都非常出色,值得高度肯定。
说话人 1 01:08:45
我想说的是,这就像往水里撒了很多诱饵,最强的鱼才能活下来。新兴云服务商是这样,他希望新兴AI实验室也是这样。我们且看有哪些新兴AI实验室能真正冒出头来。Thinking Machines已经有了几亿美元的年经常性收入,这相当令人印象深刻——尽管媒体上净是"他们流失了多少人才"的报道,但这个产品上线不到六个月就做到了几亿美元ARR,相当不错。我们也期待其他新兴AI实验室能有类似的表现。Jensen想要的就是这样一个多极化的世界。
说话人 2 01:09:20
衷心祝贺你的成就。最后我想说的是,听众从你今天的分享中大概能感受到你有多拼,但我知道你已经埋头苦干超过十年了,才换来了最近这几年站在正确的时间节点上。你所取得的成就令人叹服,而我知道这仅仅是个开始。非常感谢你今天来参加分享。
说话人 1 01:09:42
谢谢大家,太棒了。