近日,英伟达以50亿美元入股英特尔,并宣布在定制数据中心与PC产品上展开合作。这被称为近年来半导体领域最大的惊喜之一,业内人士更是直言一场“不可能的结盟”正加速成型。
对此,硅谷顶级风投a16z及SemiAnalysis在一场深度对话中指出,英伟达此举体现了其CEO黄仁勋的一贯风格——敢于在关键时刻押注未来。这种"赌上整个公司"的执行力,正是其在AI时代占据主导地位的关键因素。
9月22日,硅谷风投巨头a16z普通合伙人Erik Torenberg与SemiAnalysis创始人、CEO、首席分析师Dylan Patel、a16z普通合伙人Sarah Wang以及a16z合伙人、英特尔数据中心和人工智能业务部门前首席技术官Guido Appenzeller一起举行了一场访谈。在访谈中,他们一起探讨了英伟达核心战略的、构建的护城河、黄仁勋的领导力,以及与其他云大厂的竞争和合作等。
(图片来源:A16Z访谈截图。从左到右依次为:Erik Torenberg、Sarah Wang、Guido Appenzeller、Dylan Patel)
SemiAnalysis首席分析师Dylan Patel在访谈中指出,英伟达与英特尔"不可能的盟友"关系反映了英伟达CEO黄仁勋一贯的"全公司押注"策略称。a16z合伙人Sarah Wang将黄仁勋比作半导体界的巴菲特,认为其投资决定具有强烈的市场信号效应。
对于英伟达的核心战略特征,Dylan Patel认为主要包括以下三点:
直觉驱动的激进决策:黄仁勋凭借强烈直觉,在关键时刻进行巨额投资,如在Xbox订单确认前提前采购、在加密货币泡沫时说服供应链扩产等
快速执行能力:英伟达几乎总能在第一次就成功交付芯片,避免了竞争对手常见的多轮版本迭代问题
生态系统投资:通过投资CoreWeave等新云服务商,培育多元化客户基础,避免过度依赖传统超级云厂商
在谈及与云巨头的竞合格局时,Dylan Patel指出,英伟达正在重塑云计算竞争版图。
“在传统的微软、亚马逊、谷歌之外,Oracle凭借与OpenAI签署的3000亿美元合同异军突起,成为AI云计算的重要玩家。亚马逊虽然在早期AI基础设施布局上落后,但凭借最大的数据中心容量正在重新加速。预计2026年超级云企业的资本支出将达到4500-5000亿美元,远超华尔街预期的3600亿美元,这些支出的大部分仍将流向英伟达。”
另外,英伟达通过平等定价策略(以反垄断为由给所有客户相同价格)和分配权控制,在维护与大客户关系的同时,扶持新兴云服务商,构建了既竞争又合作的复杂生态。这种策略让英伟达在AI基础设施"千兆瓦时代"中继续保持主导地位,同时为应对巨额现金流部署挑战提供了多样化选择。
以下为访谈要点总结:
SemiAnalysis创始人Dylan Patel
关于英伟达的战略:
- 玩游戏的目标是赢,而你赢了的原因,是为了能继续玩下去。对他来说,一切都是为了‘下一代’。......他的关注点永远是‘现在 + 下一代’,其他都不重要。
- Jensen(黄仁勋)就是那种疯狂到敢把整家公司都压进去的人。比方说,他们会在芯片还没测试成功之前,就先下了大订单,把公司账上所有的钱都砸进去。
- 他们有种精神,‘管它呢,先发货(ship it)’,‘尽快做量’,‘尽快做出来’,‘别让不必要的功能拖延’,确保不需要改版本,好让他们能尽快响应市场。
- 关于Volta,那是英伟达第一个带有tensor核心的芯片……就在送去fab(工厂)之前的几个月,他们加了tensor核心,决定‘管它’——改了架构。如果他们当时没这样做,也许别人就能抢到AI芯片的市场领导权。
英伟达的未来:万亿美元级的“多头逻辑”
- 英伟达的说法更猛:他们说未来 AI 基础设施的年支出将达到‘每年数万亿美元’,而他们要吃下很大一部分。
- 无论是让AI代理人帮你写代码,还是你在和你的AI女朋友Annie聊天,这一切背后都是英伟达在运行。
- 你看马斯克最近说的,他说‘特斯拉之所以值得十万亿美元,是因为人形机器人’。那如果所有这一切都要靠英伟达来训练……那 英伟达也值十万亿美元咯?
与云大厂的竞合关系
- 所谓超级云企业,也就是微软、CoreWeave、亚马逊、谷歌、Oracle,还有Meta...投行的共识预期是:这些公司明年的总资本支出大概在3600亿美元左右。而我自己的估算接近4500到5000亿美元,这些支出的大部分仍将流向英伟达。
- 你买GPU的方式,就像是在买可卡因。你会打电话给几个人,发信息给几个人,问:‘哎,你有多少?多少钱?’
- “以前他对超级云服务商给的是大批量折扣。但现在因为他可以以反垄断为理由,他说‘每个人价格都一样’。
以下为访谈视频文字稿全文(AI辅助翻译):
为了更好地理解英伟达50亿美元入股英特尔的这笔交易,硅谷风投巨头a16z普通合伙人Erik Torenberg将与SemiAnalysis首席分析师Dylan Patel、a16z普通合伙人Sarah Wang以及a16z合伙人、英特尔数据中心和人工智能业务部门前首席技术官Guido Appenzeller近日举行了一场深度访谈。在访谈中,他们一起探讨了这笔交易对英伟达、英特尔、AMD、ARM意味着什么;英伟达的护城河和黄仁勋的领导力;以及GPU、大型数据中心和人工智能基础设施的未来。
下文中的D指的是Dylan Patel;S:Sarah Wang;G:Guido Appenzeller;E:Erik Torenberg。
访谈视频开头
D:你买GPU的方式,就像是在买可卡因。你会打电话给几个人,发信息给几个人,问:“哎,你有多少?多少钱?”
G:如果你最痛恨的两个死敌突然联手了,那就是你可能遇到的最糟糕的消息。我完全没有预料到这种事会发生。我觉得这是一个惊人的发展。
S:就像沃伦·巴菲特买入一只股票一样。黄仁勋就是半导体世界里的“巴菲特效应”。
D:一切仿佛成了诗——兜兜转转,结果却是英特尔现在有点像是爬着去找英伟达。
英伟达和英特尔:不可能的盟友
E:Dylan,欢迎再次做客我们的播客节目。
D:感谢邀请,我很高兴再次来这里。
E:嗯,刚好我们这次录音的时候正赶上一个重大新闻——Nvidia 宣布向 Intel 投资 50 亿美元,并且双方将合作开发定制数据中心和 PC 产品。你怎么看这次合作?
D:我觉得这事真的很有意思,甚至有点搞笑。Nvidia 投资的消息刚公布,它的投资就已经涨了 30%。50 亿美元投资,现在账面上已经赚了 10 亿美元了,对吧?我觉得有意思的是,他们(Nvidia)确实需要他们的客户深度参与。所以当潜在客户参与进来,并承诺采购某些产品时,这就非常合理了。
而这件事也挺有戏剧性的,因为以前 Intel 因为反竞争行为曾经被起诉,当时的事情是 Intel 把图形功能集成在主板芯片组里,而不是让独立显卡来做,当时 Nvidia 还因为这个从 Intel 那里拿到了和解赔偿,对吧?当时图形处理还没有完全从 GPU 分离出来,很多都在主板芯片组上,那个芯片组还包括 USB、IO 等等。
所以现在 Intel 要做 chiplet(小芯片),然后跟 Nvidia 的 chiplet 封装在一起,做成一款 PC 产品,这就有点“命运轮回”的意味了。现在反过来了,Intel 像是在“爬着”来找 Nvidia 合作,但其实这也可能是目前市场上最好的设备。我不想要一台 ARM 的笔记本,因为它很多事做不了。而一台 x86 架构的笔记本,再配上完整集成的 Nvidia 显卡,那可能就是市面上最好的产品。
E:那你对这次合作感到乐观吗?你觉得它会顺利推进吗?
D:嗯,当然,我是很希望它成功的。说实话,我是一个对 Intel 永远保持乐观的人,我必须得乐观(笑)。我之前的预期是,Intel 和政府方面希望通过结构化的方式来操作,比如让客户和供应链巨头直接给 Intel 投入资本。
但这次其实是相反的,Nvidia 是通过购买股票来投资,并持有部分所有权,但并没有真正稀释其他股东的股份。其他股东可能会在 Intel 之后向资本市场融资时被稀释,不过好消息是,因为已经先宣布了这些合作项目,这有助于提振市场信心。
这些投资金额其实还算小。Nvidia 是 50 亿美元,软银是 20 亿美元,美国政府是 100 亿美元……这些放在整个半导体产业里还不算太大,对吧?我上次说 Intel 至少现在需要 500 亿美元以上的资金,现在看来,当它们去市场融资时会好一点。也许他们会再宣布几个类似的大单,比如,有很多传言说特朗普参与了这轮拉拢企业投资的行动。现在 Nvidia 投进来了,政府也投了,那下一个是不是 Apple 会来投?是不是也会和 Intel 合作?谁要是进来了,都会进一步增强投资者信心。然后 Intel 就可以去市场上增发股份或发债融资。
S:就像“巴菲特效应”那样,对吧?Jensen(黄仁勋)就像是半导体界的巴菲特(笑)。
S:Guido,你之前是 Intel 数据中心和 AI 业务部门的 CTO,你怎么看这件事?
G:我觉得这对消费者是个很好的消息,特别是在短期内。特别是针对笔记本市场来说,让 Intel 和 Nvidia 合作简直是太棒了。
不过我也在想,Intel 内部的图形和 AI 产品会怎样发展。他们可能会暂停或者干脆放弃现有的方案。现在他们确实没什么能打的产品了。比如 Gaudi F4 基本上已经是个“死项目”;而他们内部的图形芯片也从没真正在高端市场竞争成功过。
从这个角度看,这样的合作对双方都有好处。说实话,Intel 的确到了需要一股“新鲜空气”的时候了。他们现在真的挺绝望的。
对AMD和ARM的影响
G:我觉得这事对 AMD 是毁灭性的。试想一下——如果你的两个宿敌突然联手,这简直是你能听到的最糟糕的消息。AMD 已经够挣扎了,它们的显卡硬件不差,但软件堆栈完全不行,在市场上的渗透率也很低。现在这边又来了个更大的问题。
至于 ARM,我觉得他们也有点“凉了”。ARM 一直以来的最大卖点是:我们可以和任何“不想与 Intel 合作”的公司合作。可现在 Nvidia 搞不好就是将来最危险的 CPU 竞争对手之一了,而 Nvidia 现在突然能接触到 Intel 的技术,甚至有可能在 CPU 上发力。这等于是打乱了整个牌局。
我完全没预料到会有这么一出,这太出人意料了。但我觉得这次发展太精彩了,真的。
Jensen(黄仁勋)的下一步:Nvidia(英伟达)战略
S:嗯,其实我们稍微跳出眼前的新闻吧,虽然现在确实有很多值得聊的事情。上一次你来节目时,我们也聊到了 Nvidia。你当时提到了 Nvidia 未来的几条可能的发展路径。
能不能再给我们讲讲你心目中的多头情景和空头情景?
D:他们当前的股价其实已经反映了很多预期。但有趣的是——目前华尔街各大投行对“超级云”企业的资本支出预期,其实远低于我的判断。
所谓超级云企业,也就是微软、CoreWeave、亚马逊、谷歌、Oracle,还有 Meta —— 我把这六家都算作“超级云”,虽然严格意义上 Oracle 和 Core 以前不算,但现在它们是 OpenAI 的“超级云提供商”。
投行的共识预期是:这些公司明年(2026年)的总资本支出大概在 3600亿美元 左右。
而我自己的估算接近 4500到5000亿美元。这个数据是基于我们对数据中心、供应链的研究,还有逐个追踪每一个数据中心项目所得到的。
G:你这个数字是指 Nvidia 的支出吗?
D:不是,是这些超级云公司的总资本开支。这个开支会流向很多企业,但绝大多数仍然会流向 Nvidia。
现在 Nvidia 的处境并不是“抢占份额”,而是随着整个市场一起扩张,并守住现有份额。
所以问题的关键在于:这些超级云厂商以及其他用户的资本支出会以多快的速度增长?
D(继续):我之所以把 Oracle 和 Core 也算作超级云,是因为它们已经成了 OpenAI 的基础设施提供者。你看 Oracle 的公告就知道了。
其实我不太明白为什么很多人没意识到这有多疯狂——他们做了整个股票市场历史上最离谱的一件事:Oracle 公布了 四年的业绩指引!这是前所未有的。
这直接让 Larry Ellison 成为了世界首富。
还有,OpenAI 和 Oracle 签署了高达 3000亿美元的长期合同,问题是:OpenAI 真的能支付得起这笔钱吗?包括通过融资和自身的收入增长。
这笔合同未来会达到每年 800亿到900亿美元的付款规模,就看你信不信这个增长速度能实现。
现在市场上有很多预测。比如:
有人认为 OpenAI 到 明年年底(2026年) 的年化营收(ARR)会达到 350亿美元;有人说 400亿;还有人说 450亿。
今年他们大概做到 200亿 ARR。所以如果这个增长趋势继续下去,那所有这些收入和融资所支出的,最终都会流向算力,归于 Nvidia。
我们看到 OpenAI 上一轮融资给投资人看的财务预测中,他们表示明年会“烧掉” 150亿美元 —— 实际上可能接近 200亿。
你把这些加起来,OpenAI 每年大概会花掉 150~250亿美元,而且直到 2029年 才可能实现盈利。
而且不只是 OpenAI,Anthropic、xAI、其他所有 AI 实验室都在这样“烧钱”。
所以非常有可能整个 AI 市场的支出真的能达到 5000亿美元以上 —— 明年不是 3600 亿,而是 5000 亿。
而 Nvidia 的说法更猛:他们说未来 AI 基础设施的年支出将达到“每年数万亿美元”,而他们要吃下很大一部分。
这就是多头逻辑(bull case):AI 真的太变革性了,世界将被数据中心覆盖,而你生活中的一切交互都由 AI 驱动 —— 无论是让 AI 代理人帮你写代码,还是你在和你的 AI 女朋友 Annie 聊天,这一切背后都是 Nvidia 在运行。
G:你这个多头逻辑我理解,但我觉得最核心的问题是“价值创造”是不是确实存在。我个人觉得,这个价值是确实存在的。AI 有可能创造数万亿美元的价值。
所以问题变成:Nvidia 最终的“天花板”会在哪里?
D:那就取决于你是否相信“爆发”(takeoff)场景。
如果你相信所谓的“AI 爆发”:强大的 AI 会催生更强大的 AI,进而又创造更强的 AI……每一代智能体都推动经济进一步发展。
想象一下:你能雇佣一群猴子干活,和雇佣一群人干活,产出当然不同。那如果你雇佣的是 AI,价值创造可能就远超人类。
所以从这个角度看,价值创造可能是“几百万亿美元”级别的。
就拿一个简单场景来说:如果我们能让每一个白领因为 AI 的帮助而“效率翻倍”,那这个增量的价值就已经是“数百万亿美元”了,不是吗?
但问题是,什么叫“效率翻倍”?
你跟现在实验室的人聊一聊,他们会说,这已经不仅仅是“效率提升”了,而是直接替代!
是“比人类好十倍”的 AI。
如果白领劳动者完全依赖大语言模型(LLM)的连续生成来维持生产力,那么你几乎可以给世界上每一个知识工作者“征税”,因为他们的工作都运行在 AI 上了。
而知识工作者占了世界大多数工种。
S:所以说你自己猜一个数吧:Nvidia 到底还能涨到什么程度?
D:我不知道啊,那为什么我们不造个“马特里奥什卡脑”(matrioska brain)呢?(注:一种设想中的围绕恒星建立的巨大超级计算系统)
也许机器会先说:“人类不需要存在了,我要更多算力”。
G:等等,那至少也得等人类殖民火星吧?
D:对,TBD(待定)啦。说真的,我觉得现在这个变化速度,已经让我们很难预测五年以外的事情。
线性时间都已经太远了。还是交给经济学家去预测吧。
我只关注一些更“着地”的事:比如供应链,还能看三四年。但第五年之后……那就真的只能靠“YOLO”(随机应变、顺其自然)了。
所以我尽量让自己专注在供应链上,再看 AI 的采用速度、价值创造、使用量这些可以量化的事情。
再往后……比如我们是不是都要接入 BCI(脑机接口)?我不知道啊。
人形机器人要来了吗?你看马斯克最近说的,他说“特斯拉之所以值得十万亿美元,是因为人形机器人”。那如果所有这一切都要靠 Nvidia 来训练……
那 Nvidia 也值十万亿美元咯?
我不知道,太科幻了。那种讨论我没兴趣。
S:说得太对了……大家多读点科幻小说吧。
英伟达的护城河:他们是如何建造的
S: 所以,我们就顺着你刚刚说的那条线继续聊下去吧。你刚刚说了句看似随口一说的话,就是“Nvidia现在的市占率已经这么高,基本不可能再增长了”,对吧?我们上次也谈到过Nvidia的护城河,这显然跟它保持高市占率有很大关系。
我很喜欢你刚刚讲到的华为的发展故事。那你能不能也带我们回顾一下,Nvidia是如何一步步建立起自己的护城河的?
D: 这个过程其实特别精彩,因为你知道的,他们一开始失败了很多次,也赌了整家公司很多次。Jensen(黄仁勋)就是那种疯狂到敢把整家公司都压进去的人。
比方说,他们会在芯片还没测试成功之前,就先下了大订单,把公司账上所有的钱都砸进去,或者说,他们会在项目还没中标之前就先备好货。我听过一个“传闻”——其实也不算传闻,是业内很有经验的前辈说的,他应该知道内幕。他说,Nvidia当年还没拿到微软的Xbox订单,就已经先下了采购量。就是说黄仁勋就是那种,“管他的,上了再说,YOLO(一生只活一次)”的人。
当然,我相信这里面还有些细节,比如可能微软给了他们口头意向之类的,但他下单的时间点的确是在确认订单之前。
再比如说,加密货币泡沫时期——有好几轮这种泡沫吧——Nvidia拼命说服整个供应链,说这不是靠加密货币支撑的需求,而是游戏、数据中心和专业图形工作站的“真实需求”,所以你们要扩大产能。
于是大家就真的上了,砸了很多资本开支,扩产开新产线。他们都是按件计价的,Nvidia把芯片买下来,卖出去,大赚一笔。
然后当泡沫破灭的时候,Nvidia只需要冲销一个季度的库存就行了。但其他人呢?那些生产线全闲着了。
AMD当时做了什么?其实他们的芯片在加密挖矿方面效率更高,从单位硅面积的算力效率来看是更好的,但他们就选择了理性行事,没有扩大产能。他们的逻辑是“我们不想赌这个泡沫”。
所以这就像是在铁还热的时候,你要不要赶快下锤子的问题。Nvidia做了,他们成功了。
最近也是类似的情况。他们下的产能订单,大部分人都不信,比如他们给微软的预测比微软自己的内部预期还高。
微软都觉得:“我们不需要这么多吧?”但Nvidia却坚持:“不,你们会要这么多的。”甚至还提前下了非取消订单(NCNR:Non-Cancelable, Non-Returnable),这在供应链里是很严重的事情——你取消不了,也退不了。
我记得我在台湾有次问过这个问题,当时是CFO Colette和CEO Jensen都在场。场子里基本上都是搞金融的,问的问题都很无聊,还离财报发布只剩3天,所以他们也啥都不能回答,SEC不让。
然后我就问了这么一个问题:Jensen你是那种很靠“感觉”、很有远见的人,而Colette作为CFO肯定是特别重视数字的,那你们两个风格这么不同怎么合作?
Jensen就回答:“我讨厌表格(Excel)。我根本不看。我就是‘知道’。”
所以说,最厉害的创新者往往都有很强的直觉。比如他能凭感觉判断什么时候应该提前下订单,哪怕这些订单最后可能得冲销。历史上他们确实有过很多次冲销的情况,累计起来是几十亿美元的损失。
是的,可能有人会说这点钱不算啥。但这得看你怎么衡量。当初比特币泡沫破了,他们的库存冲销就是几十亿美元,那会儿Nvidia的市值还不到1000亿美元,所以那时确实不算小事。
但跟他们后来赚到的钱比起来,那些损失就像是花小钱博大钱。
我觉得他们当时做的一切都是对的,反观AMD的选择就错了。
你想啊,半导体是个周期性行业,很多公司都撑不过一个周期就破产了,这也是为什么行业不断出现整合。
从风险回报的角度看,Nvidia这些赌注都非常值得。
G: 是的,但你从另一个角度看,比如你是个CEO,你想给华尔街一个稳定可预测的季度财报,那这些动作就显得太激进。
这也是现在他们内部可能出现张力的原因。
D: 对,我们也做了个视频,模仿李光耀演讲那种风格的剪辑,配上音乐,最后一幕是黄仁勋。他说,“玩游戏的目标是赢,而你赢了的原因,是为了能继续玩下去。”
他把人生比作弹珠台(pinball machine):你赢了,就可以继续下一局。
对他来说,一切都是为了“下一代”。不是15年以后的世界,因为5年后一切就全变了。所以他的关注点永远是“现在 + 下一代”,其他都不重要。
S: 是的,从风险回报的角度看,他赌的真的都赌对了。
D: 是啊,而且几乎没有人敢这么赌。他们是唯一一个市值超过100亿美元的“年轻”半导体公司了。
你看,MediaTek成立于90年代初,Nvidia也是。而其他巨头基本都是70年代创立的。
G: 对,大多数大公司确实都更老。
D: 所以说,这更让人敬佩。
这些年来Jesen(黄仁勋)是如何改变的
S:我觉得你刚刚提到的一个观点特别好——他是那种“赌上整个公司”的人。而且,就像你说的,他其实有几次是赌错了的。比如在手机业务上,对吧?那个到底发生了什么?(Mobile,right? Like what the hell happened with mobile?)就是失败了。但他还是继续那样赌。
我记得Mark曾经跟Eric有一段对话,说到“创始人领导”的企业——你会始终记得当初你冒着巨大风险把公司从零做起来的那段经历。但如果你是后来空降的CEO,很多时候你的任务就是“照章办事、维持现状”。
但在Jensen的情况里,他记得所有那些他们差点破产的时刻。所以他会说:“我还得继续下赌注,就像当年一样。”
那你觉得,他这些年有什么变化?毕竟他是现在在任时间最长的CEO之一了——已经三十多年,快追上Larry Ellison了。你觉得他在这三十年里有啥变化?
D:呃,我的意思是,显然啦,我才29岁,我根本不知道他当年是啥样子(笑)。
我只能说——我看了很多他的老访谈,哈哈哈。
S: 对,他当CEO的时候你还没出生(笑)。
D:没错没错。Nvidia成立的时候我还没出生。我是1996年出生的(笑)。
S:那你可以谈谈你最近几年对他的观察?
D:对,我觉得甚至从我看过的那些老视频来看,他的变化还是挺明显的。
他现在整个人的“气场”和“风格”变得更有魅力、更有型了。
(he's just like sauced up and dripped up)
他的个人魅力是明显增强了。虽然他本来就挺有魅力的,但现在完全像个“摇滚明星”了。
而他十年前就已经是个“rockstar”,只是那时候大家还不一定看得出来。
我记得我第一次完整看他的直播演讲,是在CES(国际消费电子展)——应该是2014或2015年吧。
当时他在讲台上讲的是AI——什么AlexNet啊、自驾车啊,全部都是AI的内容。
但你知道的,那可是消费电子展,我当时还是个青少年,天天混在Reddit游戏硬件论坛里,我就觉得——
“你可不可以先搞清楚你的听众是谁?我们来是听游戏GPU的啊!”
我当时一半觉得:“哇,这也太牛了吧。”另一半却在想:“你倒是赶紧发布新显卡啊!”
然后你看论坛上,大家的反应是——
“这啥玩意儿?我要的是显卡消息!”
“Nvidia又要价格刺客了。”
他们一向秉持“我们按价值定价,还要再加点,因为我们够聪明”的策略。
我猜黄仁勋真的就是靠直觉来定价的,尤其是在游戏卡这块。
他会在发布会前一刻还在改价钱。
所以这基本就是个“凭感觉”的操作。
但你说他有没有这种直觉?肯定有。
只是那时候很多人会觉得:
“啊,Jensen说的不对啦,他哪懂啊。”
但现在呢,只要他一开口——大家都是:
“大师说话了,肃静。”
所以也许只是因为他这些年“赌对”的次数太多了,大家才开始相信他是真的懂。
如你所见,这段对话更多是在探讨“黄仁勋从创业CEO变成当今AI时代标志性企业家的过程”,包含他风格、直觉、魅力、与早年的反差等。
Jensen Huang(黄仁勋)的领导力和公司文化
S:是的。最近 X 上有一篇帖子说,他(Jensen)已经晋升到了“神模式(god mode)”里 CEO 的那一小群里,但就是这个帖子在说:“到底谁是神?谁是其他的神?”
呃,是 Zuck(扎克伯格)。呃,谁是其他的神?Elon。Elon,Elon、Zuck 和 Jensen。不错。不错的组合。
好吧,一起成为神的队伍。所以我们向硅谷祈祷。对,是不是有点像现在就是这种感觉?
完全是。呃,再说一个问题,人们提到了他的 CFO,Colette(凯勒特)。呃,你知道,Nvidia 有一群非常忠诚的团队,虽然所有的 OGs(元老级人物)现在都可以退休了。呃,现在在 Nvidia 有没有人类似于 SpaceX 的 Gwyn Shotwell,或者以前 Apple 有 Tim Cook 对 Steve Jobs 的那种核心人物?
D:我是说,他(Jensen)有两个共同创始人,对吧?那不可忽视。
呃,其中一个你知道的,长期以来没有参与了,但另一个直到几年前还参与。对吧?
所以并不全是 Jensen 一个人在掌舵,是不是?
完全不是。呃,尽管他确实是主导了一切。
在硬件方面有好几个人。我一直——呃,有一个人对我来说在 Nvidia 里面几乎是传奇般的。你跟工程团队聊,他领导了很多工程团队。
他是一个非常低调的人,所以我其实不想说出他的名字。公平来说。但你知道,他他——他的角色实际上类似于首席工程官(chief engineering officer)。他的组织里的人会知道他是谁。
我觉得确实有这些类型的人。
但你知道他是非常忠诚的 Nvidia 的。并且有不少这种类型的人。还有另一个人,也就是说,他们里面有些人真的会说:“我们必须马上把这块硅片(silicon)推出来,我们削减功能也行。”
那个人就因为这个著名。Nvidia 内部所有技术人员都讨厌他。
这是另一个非常忠诚 Nvidia 的人,一直在公司呆了很久。
但你知道,当你有这样一个有远见的公司并向前发展的时候,有一个问题是:你会被这些细节弄晕,是吧?你会说:“哦,我要把这个做完,它必须完美,非常惊人。”
就是这样的人,但这些人显然离 Jensen 很近,因为 Jensen 本人也相信这些事情,是吧?他相信要有远见、要看未来,但同时也会说“算了,我们切功能,明天出下一代 (ship)”,对吧?像,“现在出货”、“出货快一点”。
在硅片这样的领域,这真的很难做。
而且 Nvidia 一直以来,从最早的日子开始就很令人印象深刻。他以前就谈过,他们的第一个成功的芯片,他们快没钱了,他不得不去找其他人融资来完成开发。即便那时他们钱也刚够。因为他们之前已经有失败的芯片了。那个芯片回来之后必须要能用,否则就没戏。
他们那时候因为资金紧张,只能付得起所谓的 mask set 的费用。基本上就是把这些 stencil(图案模板)放进光刻机里,然后告诉它哪里是图案,然后做刻蚀、沉积材料、刻蚀、再沉积、再刻蚀,在那些位置一个层一个层地堆上去,做出一个芯片。
这些 stencil 是每个芯片都定制的,是吧?成本现在是几十亿、几十亿美元的规模。呃,但即便在那时候,虽然没那么多钱,也还是很多钱。
他们当时只能做一组 mask set。但半导体制造的常态是,你尽可能做模拟仿真,尽可能做所有验证,但你会把设计送出去,总要改的。总会有问题的。要把设计改回来。要修改一些东西。因为仿真永远仿真不完全。
而 Nvidia 的特点是,他们往往第一次就做到对的。
是的。即便是像 AMD 或 Broadcom 或其他那些执行力很强的公司,他们常常要发布“A版”(A)然后是字母 A 后面加数字,或者是 B 加数字。“A”是晶体管层,然后数字部分是连接所有晶体管的连线层(metal layer)。
Nvidia 会先把“A”层,也就是晶体管层做好并且量产推上去,然后再在 transition(转换)到 metal 层之前暂停一点,以防他们真的需要修改 metal 层。
所以一旦他们确认它能用,就可以迅速大量生产,而其他公司常常是在 “哦,芯片出来了,不好,Z 这个版本不行,我们要做 tweak(微调)”,再“哦,A 不行,我们再改,再拿回去……”。这叫 stepping,对吧?
我们当时都非常羡慕 Nvidia。他们几乎总是在第一次就交付。我们不行就是不行。那数据中心 CPU 团队有一个产品,我记得我们那边有 A1、A、Z,一轮又一轮改晶体管层之类的,到 E2——那已经是非常多版本了。
当 AMD 市占率快速提升,正赶超 Intel 的时候,Intel 正是在 E2 的阶段 —— 15 次版本 stepping,这导致市场占有率比别人慢很多。因为每一次 stepping 都会延误一个季度,对吗?那是灾难性的。
所以这就是 Nvidia 的另一个事情:他们有种精神,“管它呢,先发货(ship it)”,“尽快做量”,“尽快做出来”,“别让不必要的功能拖延”,确保不需要改版本,好让他们能尽快响应市场。
关于 Volta,那是 Nvidia 第一个带有 tensor 核心(tensor cores)的芯片。你知道在 P100 Pascal 那一代,他们看到了所有 AI 的东东。他们决定要全力投入 AI,就在送去 fab(工厂)之前的几个月,他们加了 tensor 核心,决定“管它”——改了架构。
如果他们当时没这样做,也许别人就能抢到 AI 芯片的市场领导权。对吧?所以有很多这样的时刻。他们做了大变动,但往往也有很多微小的 tweak(调整),比如数字格式或者某些架构细节。Nvidia 在这些方面非常快。
G: 还有另一个疯狂的地方是,他们的软件团队能跟上这一切。对吧?我是说,如果你刚发芯片,而且根本不需要 stepping 就能上市,那么你必须有 driver(驱动)准备好,以及所有在这之上的基础设施—这一点非常令人佩服。
Nvidia(英伟达)的未来:现金、数据中心与 AI 基础设施
S:是的,我我喜欢你刚才说的那个点,因为你想一下 Nvidia 一次又一次受到顺风推动(tailwind),但我觉得你们两个都在说 —— 你得跑得够快,执行得够好,并且要利用这些顺风。呃,而且如果你想到……顺便说,我很喜欢你讲的那个 CES 的故事。我只是想象十多年前他在那儿讲自动驾驶汽车。呃,但你知道,如果你想着把电子游戏那股顺风钉准了,VR,比特币挖矿,显然还有 AI 现在。呃,你知道,Jensen 今天谈的东西之一是机器人、AI 工厂。呃,也许我对 Nvidia 的最后一个问题是,你觉得未来十到十五年是怎样?呃,我知道五年外面的事情很难说。呃,但像 Nvidia 的业务会长成什么样子?
D:这是一个真正的问题,我每次跟 Nvidia 的一些高管聊的时候都会问这个问题,因为我真的想知道。你知道,他们显然不会完全回答,但问题是:你要拿你的资产负债表(balance sheet)怎么办?你是那种现金流最高的公司之一,你有如此多的现金流。呃,现在超级云服务商(hyperscalers)都把他们的现金流压得很低,因为他们在大量投入 GPU。呃,你要拿这些现金流怎么办?对吧?就算在这次“起飞”(takeoff)之前,他(Jensen)那会儿也没被允许收购 ARM,对吧?呃,那么你用所有这些资本和所有这些现金做什么?对吧?
即使 Nvidia 最近宣布对 Intel 投资 50 亿美元,也有监管审查,对吧?呃,在公告里写着“这是要接受审查的”,对吧?就像,嗯,我想那个最终会通过,但他不能买一个很大的东西。他要在资产负债表上拿上数百亿美元现金。你怎么办?是开始自己建 AI 基础设施和数据中心吗?也许。呃,但如果别的人能做这一块,你为什么要自己做?
他确实在投资这些,对吧?不过都是小额投资,对吗?你知道,就像他最近支持 CoreBackstop,因为现在很难找到大量 GPU 来用于“突发容量”(burst capacity),对吧?就说:“嘿,我想训练一个模型三个月,我有基础容量不够,我不知道实验结果,但我想训练一个大模型三个月。”我们从我们的投资组合里知道是这样的,嗯,是的。
所以 Nvidia 看到这个问题,他们认为这是初创公司面临的真实问题。这也是为什么各个实验室(labs)有那么大的优势。呃,但是如果我现在能……你知道,大多数硅谷的公司在一轮融资里把 75% 的预算花在 GPU 上,对吧?或者至少是……是的。在 CD(Compute Domain?)里。如果你能在一次模型运行里用三个月耗掉 75%,对吧?你知道,是的。呃,并且真正能扩大规模,有某种有竞争力的产品,然后你有这个模型,然后你再去融资,或者开始部署,对吧?呃,你拿到它之后你做什么?
是开始买一大堆人形机器人然后部署吗?但他们并没有真的为这些机器人做出很好的软件。他们在模型那层下面做得很好,呃,他们部署资本的地方是一个问题。他,他们一直在供应链上下投资一点,对吧?投资那些新的云端公司(neoclouds),投资一些模型训练公司。是的,但再说,这是小钱。他如果愿意,当然可以参与整个人工智能公司的融资回合(fundraising round),他没有那么做,对吧?然后真的让他们使用 GPU,或者说他可以参与 OpenAI 那样的回合,他可以完全参与这些回合。你觉得这些是他应该做的吗?我我的意思是……好问题。嗯,我不知道。对吧?
我觉得他可能会在下一个融资回合中引用你的问题,我们再聊这个。啊不管怎样,他可能真的让风险投资行业死掉,把最好的融资回合都拿下,业务量做得大。是的,你知道,你可以做种子轮(seed rounds),然后让 Jensen 标注价值(mark up)。那就是为什么……
不,我不认为……我不喜欢他去“挑赢家”(picking winners)这个方向,因为他有各式各样的客户遍布整个生态系统。如果他开始挑赢家,他的客户可能会更焦虑,因为他们会觉得“诶,如果你开始偏向某公司,我就要考虑 AMD,或者某个 startup,或者自己内部做”。对吧?买 TPU(张量处理器 Unit)无论是什么东西。你知道,人们会担心。他不能只是投资这些,你知道的。他可以做一点,对,一两个几亿美元给 OpenAI 或 XAI 这种轮次是可以的。对,CoreWeave 是这样,对吧?是的。大家都在吵这个事。但他投资了一两亿,加上租了一个集群用于内部开发目的,而不是租用超级云服务商的群集,这对 Nvidia 来说更划算,对吧?比让云服务商来租用对他们来说更便宜。就是这些。
或者说,他真的在支撑 CoreWeave 那么多?或者其他客户或者 neoclouds?是有一些投资,但更像是“这个云端公司不错,我们就投入该轮的 5% 或 10%”。对吧?并不是说他占了那个融资回合 50% 以上。
S:他也在重塑他的市场吗?我意思是,几年前这些 GPU 卡的大订单还只有四五个,而你刚刚列了六个。这个程度,是不是有战略意思?
D:是的,是的,我认为绝对有。他并不需要投入很大资本就能做到这一点。比如,他比别人先下 Chip one(某个芯片公司)订单?我不知道。是的,那不是重点。但如果你看看他花在 neoclouds 上的资本总额,是几个十亿,但如果他想,他有很多其他杠杆可以用。对。分配权(allocations)正如你提到的。
D:好的一点是,你知道,以前他对超级云服务商给的是大批量折扣。但现在因为他可以以反垄断为理由,他说“每个人价格都一样”。嗯,很公平,很很公平,对吧?
D:那么他应该用这些资本做什么?或者说什么能指导他的资本运用?我是说,我觉得你知道,有人会说他应该投资数据中心,只投资数据中心那一层,而不是数据中心里面放的云层(cloud layer)或里面运行的服务。这样更多的人建数据中心,如果市场需求继续增长,数据中心和电力就不会成为瓶颈,对吧?投资在数据中心和电力上。
我对他们说过,他们应该投资数据中心和电力,而不是云层,因为云层还是比较容易受到竞争影响,是补充性的(complement)和有点商品化(commoditized)。我不会说当云是商品化,但它确实有很多竞争者现在做得不错。嗯,而且你也把商业地产、其他基础设施投资公司教育进来,让他们进入 AI 基础设施这个领域。所以我不认为你应该投云层,对吧?嗯,是投资数据中心和电力吗?是的。
D:投资是因为那是真正限制你增长的瓶颈吗?嗯是的,首先是人们想花多少钱和能花多少钱,其次是能否把它们放在数据中心里。哦,然后像机器人之类的领域,我认为那里也有他可以投入的地方,但没什么事情是非得要三千亿美元资本去做的。那么你用这资本做什么?我真不知道。我真的觉得 Jensen 肯定有某种想法,有某种有远见的规划,因为那塑造公司,对吧?
他们可以继续……你知道,我提过每年自由现金流 200 亿、250 亿美元的自由现金流。他们拿这些钱做什么?就只是一直回购股票吗?像苹果那样走这条路?苹果那十年没干什么有趣的事情就是因为他们的领导人不再有远见。Tim Cook 很擅长供应链。但他们只是把钱花在股票回购上。他们真的没在自动驾驶汽车上成功。嗯,我们看看 AR/VR 会怎么发展。嗯,我们看看可穿戴设备(wearables)对吧。但像 Meta 和 OpenAI 可能比他们更好,我们拭目以待……
D:所以他投什么,我一无所知。但是什么需要那么多资本是个难题,而且真正能获得回报的东西更难。因为容易的事情是成本资本(cost of equity)——我就一直回购,不改变公司文化。我觉得那也是一个问题,对吧?突然间你投入很多东西,公司开始做两三件完全不同的事情,那是非常难以持续的。但是他们确实在做很多不同的事情。对吧?我意思是,一方面你说你在建 AI 基础设施,又说人形机器人遍布全球,那也算是 AI 基础设施,或者说数据中心和电力就是 AI 基础设施,对吧?你知道,人形机器人完全可以,但如果你突然要倒腾混凝土,建发电厂,那是完全不同的文化,是完全不同的人群,要难得多。
G:而且看,记住在 Intel 的时候,我们最大的问题之一是我们的客户基础很糟糕。对吧?对。我是说,我们把大部分芯片卖给超级云服务商,而他们集中得太厉害,他们自己造芯片,然后你被压价。所以说,诚实地说,把资金用来分散客户基础在 2014 年的时候你们就该这么做,把价格定得高一点,让利润率到 80%。那个时候世界会怎么做?没啥。利润率那会儿挺不错的。那不是问题的问题。问题主要是利润率是 60、65,现在到 80。对。哦,天哪。
超级云服务商:亚马逊、Oracle 与云端战争
S:好吧,等一下。我觉得 Guido 的评论实际上是一个非常好的过渡(segue),可以带我们进入我们想要跟你谈的另一个话题,也就是超级云服务商(hyperscalers)。呃,我喜欢看 semi‑analysis 的原因之一,是你们会做那些超出共识的判断,而你们往往是对的。呃,其中一个最近的判断就是……常常就是这样。但你(Jensen 命中率)很高。呃,但我眼里最吸引我的,是亚马逊的 AI 重振(AI resurgence)。呃,所以我想跟你稍微聊聊这件事,因为,呃,我觉得我们觉得挺有意思的,我们在一线帮助我们的投资组合公司在挑选他们的合作伙伴。呃,我们有一些微观数据(micro data),但你可以先说说为什么你觉得它们落后。
D:是的。所以在 2023 年第一季度,我写了一篇文章叫做 “Amazon 的云危机”(Amazon's cloud crisis)。呃,是关于这些 neoclouds 要把亚马逊商品化(commoditize Amazon)的。呃,是说亚马逊的整套基础设施在以往的那一代计算时代非常好,对吧?他们做的那个弹性网络结构(elastic fabric)、ENA 和 EFA,对吧?他们的 NIC(网络接口卡)啊 protocol(协议)啊,以及他们做自定义 CPU 等等,对吧?这些在之前那一代“横向扩展”(scale‑out computing)的时代非常合适,而不是这次“纵向扩展”的 AI 基础设施时代。
而 neoclouds 要把他们变成商品化,他们的硅片团队(silicon teams)更专注于成本优化,而今天游戏规则是“单位成本最大的性能”(max performance per cost)。呃,这通常意味着即使成本翻倍,你要把性能提升得更多,比如三倍,因为那样性能对成本的比率仍然下降(也就是说成本/性能比更好)。呃,这是今天 Nvidia 硬件的游戏规则。
结果证明这个判断非常好。很多人当初都说我们错了,因为那时候亚马逊是被看作最好的股票之一,微软还没有真正起飞,Oracle 等等也还没什么动作。自那以后,亚马逊是表现最差的超级云服务商之一。契机就是:亚马逊仍然有结构性的问题,对吧?它们仍然使用弹性网络结构(elastic fabric),虽然这在变好。呃,在网络方面仍然落后于 Nvidia,在网络硬件上仍然落后于 Broadcom 的那种,也落后于 Arista 型的网络,NYX(可能指某种网络硬件或协议)。呃,他们的内部 AI 芯片还可以,但主要的是他们现在开始觉醒了(waking up),实际上开始能够捕获业务(business)。
这次判断的主要内容是,自那篇报告以来,AWS 的年对年收入增长一直在放缓(decelerating),收入一直在持续下降。我们的重大判断是,它将重新加速(re‑accelerating),对吧?那是因为 Enthropic(可能指 Enthropy 或者某个我们调研里追踪的数据中心/基础设施公司)是因为我们在数据中心做了大量工作,对吧?追踪每一个数据中心何时上线(goes online)以及里面有什么。当这个上线的时候,通过成本的流透(flow through on cost),如果你知道芯片成本、网络成本、电力成本,呃,你大体知道这些东西的利润率,然后你就可以开始估收入。
所以,当我们把这些东西都组合起来,对我们非常清晰的是:AWS 的收入增长在这一个季度将见底(trough),对比年对年基准,这是未来至少一年的最低点。对吧?呃,然后它会重新加速到年增长率(YoY)超过 20%。嗯,因为这些大型数据中心,他们已经上线,有 Cranium(或许是某个内部或者第三方基础设施名)和 GPU,呃,这取决于哪个客户。
经验是,没有某些客户那样好,比如说 Core(可能指 CoreWeave 或者 CoreLabs 或类似公司)之类的那些。但游戏规则现在是容量(capacity)。呃,Core 只能部署这么多。他们能获得的数据中心容量有限,虽然建设速度很快。但世界上拥有最多数据中心容量,并且即使到今天虽然接下来两年可能会被别人赶上,但根据我们看到的,仍然是亚马逊。其实亚马逊依然拥有最多“空闲”(spare)数据中心容量,这些容量将在接下来的一年 ramp(投入)到 AI 收入里。
我问一个问题,是这些容量是正确类型的容量吗?因为对于今天高密度 AI 构建(high density AI build‑outs),你需要非常强的冷却系统。你需要附近有足够水源,你需要有足够电力供应,是吗?这些数据中心容量在对的地点,还是说类型不对?
所以在这个意义上,从电力保障到变电所(substations)、到变压器(transformers)、到能够把电源线路(power whips)给机架(racks)提供电力,现在显然这些方面都要保障。数据中心容量会不同,对吧?呃,你知道,从历史上看,亚马逊其实有世界上最高密度的数据中心,对吧?呃,他们在别人还在 12 千瓦的机架功率时,就已经做到 40 千瓦机架了。如果你曾经走进大多数数据中心里,会觉得挺凉爽、挺干的。如果你走进亚马逊的数据中心,你会觉得像沼泽。感觉就像我长大的地方,对吧?就是潮湿和热。因为他们正在优化每一个百分比(every percentage)。所以你的意思是说,亚马逊的数据中心并没有配备针对这种新型基础设施的设备,但相比 GPU 的成本来说,比如说搞复杂的冷却安排,这其实算是小事,对吧?
呃,你知道,我们几个月前对 Aera Labs 做了一个判断,当他们(Aera Labs)当时估值在 90 的时候,然后下个月因为亚马逊向他们下订单,那估值涨到 250。呃,因为亚马逊在和他们下了订单。但亚马逊的基础设施有些地方,我就不详细说了,但机架基础设施真的要求用很多 Sterolabs 的连接产品。呃,冷却方面也是一样,需要用更多这种东西。但再说,这些东西在成本上比起 GPU 来说是不重要的部分。呃,你知道,你可以建,对吧?
我的问题更多是这样的,看,我可能现在在很多地方就需要一条大河靠近用于冷却,对吧?在很多地区我根本拿不到足够的水。你知道,也许电力情况也是在相同区域。
他们有两个规模达“2 gigawatt”(2 千兆瓦)级别的地点,他们那里的电力全都安置好了,电力安全保障(power secured)。湿式冷却器(wet chillers)和干冷却器(dry chillers)都准备好了。一切一切都没问题。只是效率不是那么高,但你知道,那也没关系,对吧?他们会 ramp 收入,他们会增加收入。呃,不是说我一定认为亚马逊内部模型(internal models)一定优秀,或者说他们内部的产品比 Nvidia 的 TPU 更有竞争力,或者硬件体系结构是最好的。我不一定这么认为。
呃,但他们可以建很多数据中心,并且可以把它们填满、出租出去,对吧?这其实是一个相当简单的假设(thesis)。
超级数据中心时代
S:“Enthropic(或者你说的是 Trēnium / TranAIum?)在和 Trēnium 共设计(co‑design)方面到底有多重要?因为我记得我们有一个投资组合公司,是在 2023 年夏天。他们被邀请去 AWS。他们花了一周时间,总共大概八个小时,试图弄清楚 Trēnium,当时几乎不可能弄通。嗯,这家公司显然之后没有回去再试过。不过,到目前为止你听到的情况,那个体验有多不同?还是说还很糟糕?就那样?嗯,明白了。”
D:“你知道,用起来确实挺难的。呃,所以有一种论点是,每个做推理(inference)的公司,包括 AI 硬件初创公司,都会说:‘我最多运行三四个模型,我完全可以手工优化所有东西,为所有东西写内核(kernels),甚至写到汇编级别,怎么会那么难?’是挺难的。确实挺难的。呃,但你往往为了生产级推理(production inference)会这么做。就像,你不会用那种高易用性的库(ease‑of‑use libraries),像 Nvidia 的那种 cuDNN 这类库,非常容易生成内核那些对吧。你不会……或者说你不会用这些易用性库。你在运行推理的时候,要么……你在用 cutlass,要么自己写 PTX,要么在某些情况下,有人甚至下降到 SAS(可能是说更低层级的汇编或者硬件近层)级别。嗯,比如说当你看 OpenAI 或者 Anthropic,当他们在 GPU 上跑推理,就是这么干的。呃,一旦你深入到那个层级,生态系统就没那么棒了。不是说使用 Nvidia GPU 现在很容易。我是说,因为你对硬件架构有直觉理解,因为你在这上面工作很多人也工作很多,你可以跟别人交流。但归根到底,这并不容易。对吧?而且你知道,Anthropic 用 TPU 或者 TranAIum 的时候,有些架构比 GPU 更简单。呃,核心(cores)更大、更简单,而不是具备所有这些功能。嗯,你知道,更不通用(less general),所以写代码稍微简单一些。嗯,有 Enthropic(或者 Trēnium)里的人在推特上说,当他们做那种低层级(low level)的时候,因为简单,他们反而更喜欢在 Trēnium 或者 TPU 上做。
“现在要明确的是,尤其是 Trēnium,确实很难用 — 并不是适合胆小者(not for the faint of heart)。嗯,它非常难,但如果你只是运行一个模型,如果我是 Anthrop ic(Anthropic 的人)而且我必须运行 Claude 4.1、Opus 或 Sonnet,然后算了,我甚至不跑 HighQ,我就跑在 GPU 或者 whatever 的设备上就行,对吧?我只是跑两个模型。实际上,算了,我在 GPU 上也跑 Opus,也用 TPUs。Sonnet 是我流量的大部分。这样我可以花时间去弄它。”
“那架构每四六个月改变一次吗?对吧?说实话,有时候并没有改变太多。我觉得从 3 到 4 那次肯定有变化。嗯,我是说定义架构变更(architectural change),你知道,高层面上那些基本构件(primitives)在过去几代之间差异并不是那样大。老实说,我对 Anthropic 那边的模型架构了解不算很深。但我觉得从我在别的地方看到的,有足够的变动,以至于你程序这一步就要花时间。嗯,而真正关键的是,如果我是 Anthrop ic,我现在有 AR(Annual Recurring Revenue 或类似指标) 70 亿或者不只 10,明年年末可能是 20 或 30,对吧?我的利润率是50%到 70%。嗯,那我需要 Trēnium 的投入(tranium 或者类似的硬件),对吧?那个我能在 Sonnet 上跑,而且大部分用例都用 Sonnet‑3、5 或者说 Sonnet‑4、5 那些型号。对吧?那我可以花时间,那个硬件是能跑通的。是的,完全可能。”
硬件周期:GB200、Blackwell 与下一代
S:也许谈谈你们做的一些非共识判断(non‑consensus calls),然后我会聊聊另一个云端(cloud)的事情。呃,在六月的时候,你们说 Oracle 将会赢得 AI 计算市场。然后在这个播客里,我们已经提过 Oracle 获得了巨大的跳跃(the big jump),显然这是一个市值超过 5000 亿美元的公司取得过的单日最大涨幅。我想,2023 年第一季度,Nvidia 的涨幅是不是更大?可能那次更大一些。好吧,可能有点比那次小。好吧,我觉得差不多。我们会查事实。这真是惊人。但呃,你知道,显然这是一个大手笔的承诺。这么说,你可以带我们走一遍当初你为什么做那个判断,然后为什么你觉得 Oracle 在这么竞争激烈的领域能做得这么好?
D:是的,所以 Oracle 他们是行业里拥有最大资产负债表(balance sheet)的公司之一,而且他们对任何类型的硬件(hardware)不是教条式坚持某一种,对吧?呃,他们不执着于某一种网络技术。他们会部署通过 Arista 的以太网(Ethernet with Arista)。他们会用他们自己的白盒网络设备(white boxes)来部署以太网。他们会部署 Nvidia 的网络。呃,Infiniband 或者 Spectrum X。他们有非常好的网络工程师。他们的软件整体也非常出色。对吧?再说比如 Cluster Max——他们是 Cluster Max 金牌(gold)的,因为他们的软件很强。有几样东西他们需要加进来,使他们更强,他们正在添加这些功能,对吧?呃,升级到白金级(platinum),对吧,那是 Core 所在的那个层次。
所以当你把两件事情结合起来的时候,对吧?比如 OpenAI 的计算需求疯狂。呃,微软这边是有顾虑的。呃,他们不愿意投资,因为他们不相信 OpenAI 真能支付那笔钱。对吧?我前面提过,那个 3000 亿美元的合同,OpenAI,你没有 3000 亿美元,但 Oracle 愿意承担这个赌注。当然,这个赌注有点安全网,因为 Oracle 真正需要的是保证数据中心容量(secure the data center capacity)。对吧?所以,这就是我们当初是怎样做出那个判断的。我们一直在告知我们的机构客户,尤其是超级云服务商(hyperscalers)、AI 实验室、半导体公司或是数据中心模型里的投资人,因为我们在追踪世界上每一个数据中心。呃,Oracle 本身也不完全自己建所有的数据中心,对吧?顺便说一下,他们是与其他公司共工程(co‑engineer),但是他们自己并不物理上建所有的。他们在评估新的数据中心和设计它们方面非常灵活。
所以我们看到了很多不同的数据中心。Oracle 在深度讨论中在抢地盘,签合同等。于是我们有,“呃,这里一个 gigawatt,那边一个 gigawatt,又一个 gigawatt”,对吧?呃,Abilene,呃,两 gigawatt,对吧?你知道,他们有这么多个场地在签合同、在讨论中,我们在注意这些。然后我们有时间线,因为我们在追踪整个供应链。我们在追踪所有许可(permits)、法规文件(regulatory filings)、你知道,用语言模型、用卫星照片不断地,还有冷却器(chillers)、变压器设备、发电机等供应链。
我们能够做出比较强的估算,每一季度(quarter by quarter),在每一个这些场地里会有多少电力设施上线,对吧?所以,有些我们已知的这些场地直到 2027 年才 ramp(增加装机容量或开始投入使用),呃,但我们知道 Oracle 已经签下了合同。对吧?呃,我们知道签下的合同,然后我们知道装机路径(ramp path)。所以问题就变成,比如说你有一个 megawatt,为了简单起见,这是很多电力,但现在在 gigawatt 的时代,这不算太多,但如果你说 megawatt,对吧?你用 GPU 填满它,这个 megawatt 的 GPU 要花多少钱?对吧?或者说其实算起来更简单,如果我说像一个 GB200(或者你说是 GV200?)对吧,每个 GPU 是一瓦(1 watt),但当你谈整套系统(整个系统,包括 CPU、其他部分)时,大约是 2000 瓦。同时你懂得,嗯,为每个 GPU 的资本开支(CAPEX)是 5 万美元,对吧?GPU 的成本不止于 GPU 本身。还有所有周边设备,对吧?呃,所以 5 万美元 CAPEX 对应 2000 瓦。那么 1 万瓦(10000 watts)里一个 GPU 是 2.5 万美元,对吧?呃,然后 GPU 的租赁价格是多少?呃,如果你签一个非常长期的协议(long‑term deal),量大价优,在 270(美元/单位?)那一带,260 那个区间。嗯然后你最终会得到:“哦,每个 megawatt 租一个 megawatt 的成本大概 1200 万美元。”对啊。呃,然后每个芯片都不一样。所以我们追踪每个芯片,它的资本开支是多少,网络设备是什么。所以你知道每个芯片是什么样的,你可以预测哪些芯片会装在哪些数据中心,那些数据中心什么时候上线,每季度会有多少 megawatt。然后你会得到“啊,Stargate 这个场地在这个时间段上线。他们到某个时间开始租用。每个 Stargate 场地用多少芯片。”对吧?呃,所以因此,这是 OpenAI 为了租赁它要花多少钱。然后你把这些都拆开来,我们能够预测 Oracle 的收入非常确定性地,并且我们非常接近他们在 25、26、27 财年的公告收入预测,对吧?我们在 28 年也非常接近。对我们来说令人惊讶的是,他们宣布了一些我们在 28、29 年(的数据中心)还没查到的场地,但我们会找到的,当然。
那么用这种方法论,你可以看到“嘿,你都签了哪些数据中心,有多少电力,这些合同签了多少, 上线之后会带来多少增量收入”,这就是我们做 Oracle 投注(bet)的基础。呃 显然在我们的通讯里(newsletter)我们披露的细节少得多,但你知道就是这个判断,对吧 ——“嘿,他们有这些容量,他们要签这些合同”。
在我们的通讯中我们谈了两件主要的事情。我们谈了 OpenAI 的业务,也谈了 ByteDance 的业务。呃 并且预计明天,呃星期五会有关于 TikTok 的公告,等等。但 ByteDance 那边,Oracle 也将租出大量数据中心容量给 ByteDance,对吧?于是我们在那里也用同样的方法论。呃 你知道,对 ByteDance 来说,他们是盈利公司,所以他们付钱可能性很大。对 OpenAI 来说,就没有那么确定。因此在你向更后的年份看预测(forward years)里,例如 28、29、30 年,是否 OpenAI 会存在,是否能付得起她签给 Oracle 的那些 80 多十亿(80+ billion)美元/年的合同费用,这里有误差条(error bars)。
如果那发生的话,那么 Oracle 的下行风险(downside)也部分被保护了,因为他们只签数据中心合同,而那只是成本的一小部分,对吧?GPU 是一切(大头)。GPU 是他们在开始租之前一两个季度就买的。对吧?所以他们并不是说,如果合同没成交他们就被卡在一堆买来的资产上变无用资产。对,是的。是的。
还有一个角度:OpenAI 和 Microsoft 曾经是专属计算提供者,对吧?然后他们提交某些文件说他们想多元化(diversify),这把他们推向其他提供商。是的,所以微软曾经是专属计算提供者,后来重新组织(reorged)成拥有优先拒绝权(right of first refusal)。呃,你知道,然后微软,是不是你最后一个选择什么的?不不,还是优先拒绝权,但就像微软这些两个并不互斥。嗯,如果 OpenAI 说:“我们要签一个每年 800 亿合同或者 3000 亿合同,接下来五年你们要不要?”他们(对方)可能会说:“不,你们听着,好吧,没问题。”对吧?就像这样,然后他们去 Oracle。对吧?OpenAI 就好像说:“我们需要一个资产负债表能真的付账的人。”对吧?因为然后他们从 OpenAI 能赚很多钱,无论是在 compute(计算)上、基础设施上以及其他这些东西上。但总得有人有资产负债表。嗯 OpenAI 没有。Oracle 有。呃 尽管就他们签的规模而言,我们也有另一条信息源是他们在跟债务市场(debt markets)谈判,因为 Oracle 实际上随着时间推移确实需要通过举债来支付这些 GPU。现在他们可能今年明年靠自己的现金可以付清所有的东西,但到 2027、28、29 年他们会开始依靠债务来为这些 GPU 付账。这是 Core(可能指 CoreWeave 或类似的云基础设施公司)曾做的事情,很多 neoclouds 都是债务融资的。
即使是 Meta,他们为他们在路易斯安那的大型数据中心也是通过混合债务方式(wet and gut debt / or mix debt)来融资。并不是仅仅因为便宜,而是在财务上真的更优于用现金回购股票,因为债务比股票回报率便宜。就像一种金融工程(financial engineering)的东西。但你知道,谁会在这里面?可能是 Amazon,可能是 Google,可能是 Microsoft —非常短的名单—或者 Oracle 或 Meta,对吧?Meta 显然不行。微软放弃了。Amazon、Google 和 Oracle,对吧?这就剩这些。Google 会是一个尴尬的位置。是的,Google 会是个尴尬的搭子。Amazon 会是一个不错的搭子,但你知道,就是这样。
xAI和Colossus 2
S:好,那我想,也许既然我们聊到这些超级大型的数据中心建设,你们刚刚发布了一篇关于 xAI 和 Colossus 2 的文章。你们现在是不是已经不那么容易被这些在六个月内建成的庞然大物震撼到了?还是你们依然觉得这非常了不起?
D:你知道的,我常说,AI 研究人员是第一批以“数量级”思维模式来思考问题的人。而在此之前,人类通常都是以“百分比增长”来思考的——工业化以来就是这样。而再往前,人类基本只会考虑“绝对数值”。
也就是说,人类的思维方式正在进化,因为变化的速度加快了,一切都变成了“指数级”的变化。
比如说,当 GPT-2 使用那么多芯片训练的时候,那真的很令人震撼;然后 GPT-3 又训练在更大规模的系统上。你知道,比如说 20,000 块 H100。再到 GPT-4,用的是更多的 K100s。那时候我们就会说:“哇靠!”
然后接着我们进入了“10 万块 GPU 的时代”。我们当时还写了些关于 10 万卡集群的分析。但现在,世界上已经有十个这样的 10 万卡集群了。
所以我们就开始觉得:“好吧,这已经不稀奇了。”——现在 10 万块 GPU,代表的其实是超过 100 兆瓦的电力需求。而我们现在内部 Slack 群和其他渠道里都已经是,“哦,我们又发现一个 200 兆瓦的数据中心了。”——然后就会有人发个“打哈欠”的表情。
我就会说:“兄弟,你认真的吗?”
现在只有在达到“千兆瓦规模”的时候我们才会觉得“哦,这还有点意思”。现在是“千兆瓦时代”了。
当然,也许过不了多久,我们连千兆瓦都觉得无聊了。但现在这个指数级的发展真的疯狂。资本支出也一样——比如 OpenAI 曾经做的百亿美元级训练项目已经很疯狂了。但现在我们在谈的是“千亿美元级的训练”。
你看,我们现在的思维是对数级的。但,是的——只有在像马斯克那样做事时,我们才会真的觉得震撼。
Elon 在田纳西州孟菲斯的项目就是个例子。第一次真的让人震惊:六个月内搞定 10 万块 GPU。
他是在 2024 年 2 月份买的工厂,在六个月内就训练出了模型。搞了液冷——这是首个大规模为 AI 做液冷的数据中心;使用了各种疯狂的新做法,比如把柴油发电机装在户外,使用 CAT 的涡轮机,为了拉电力做各种应急部署;甚至连工厂旁边的天然气管道也拿来用。
所以他说干就干,为了 10 万块 GPU,也就是 200-300 兆瓦的规模。而现在他又在以同样的速度推进千兆瓦级项目。
你会以为第二次比第一次更厉害对吧?但我们有点麻了……好像是个孩子吃太多糖,吃到后来连苹果都不爱吃了(笑)。
所以,是的,马斯克搞的千兆瓦数据中心确实厉害。
但他在孟菲斯的这个工厂引起了不少抗议。人们说:“你把空气都搞脏了。”
但你去看看孟菲斯那一片区域?那里有一个千兆瓦级的燃气发电站,基本给整个区域供电;还有整个孟菲斯城市的污水处理厂;还有露天采矿区——各种脏乱的基础设施,都是维持国家运转所必需的。
但一提到马斯克要搞个几百兆瓦的发电项目,大家就抗议了。
所以他不仅要应对技术问题,还得搞政治、公关,各种市政纠纷。连 NAACP(有色人种协进会)都来抗议他了。
有些地方政府也对他意见很大,于是他没法在原地址再扩建了。
但他还是要把数据中心建得尽可能近,因为他希望这些中心之间能有超级高速的带宽连接。
而且他在那边的基础设施已经挺成熟了,所以他又买了另一处配送中心——仍然在孟菲斯。但孟菲斯一个很大的优势是,它离密西西比州非常近。
他新买的地离密西西比边境只有大约一英里,而他就在密西西比买下了一座发电厂。
因为密西西比州的管制政策跟田纳西完全不同——在那边搞事容易多了。
所以如果你问:“谁最擅长调动资源、快速推进建设?”——也许,马斯克真的是最强的。
他的模型不一定是最好的,至少现在不是。你可以说 Grok-4 曾经短时间领先过。但就从执行力角度看,他能以惊人的速度把这些庞然大物建起来,真的非常令人佩服。
而且他是完全从第一性原理出发去干这事。大多数公司一遇到“哦,这里没电了,不能建了”,就会放弃,另找新地。
而他不是。他会说:“那我去隔壁州搞一块地就好了。”
我最喜欢的是:他现在就在密西西比,而阿肯色州也在旁边。万一哪天密西西比不配合了……
未来所有数据中心都得建在几个州的交界处?“四州交汇点”可能是最佳监管解。
“有没有美国哪有五州交界的地方?”“我只知道有四州交界的。”“搞不好以后 Reddit 上会说:我要去那买地盖数据中心。”
给初创公司的一些建议
S:好吧,我想,在新硬件这个话题上讲一点,你写过一篇分析 GB200 的 TCO(总拥有成本)。呃,我有个问题是代表我们的一些投资组合公司问的,看起来你们已经在帮他们了。呃,但我觉得有个结论非常有意思,是 GB200 的 TCO 大约是 H100 的 1.6‑6 倍。呃,所以显然,你知道,那就成为了切换到新硬件至少要有性能提升与成本比率优势的基准。也许你谈谈你看到的,呃,从性能的角度,以及你会建议投资组合公司(portfolio companies)——也就是比 xAI 小规模的那种公司——考虑新硬件时应该怎么做,当然要注意到产能限制(capacity constraints)。
D:是的,我的意思是,呃,这确实是一个挑战,对吧,是呃 —— 随着每一代 GPU 性能变得快得多,你就会觉得你想要那个新的那一代。呃,你知道在某些指标上你可以说 GB200 比上一代快三倍,或者快两倍。其他指标上你可以说它比上一代快得多,对吧?呃,所以如果你做预训练(pre‑training)对比推理(inference),对吧?你可以先运行所有东西一段时间,对吧?是的。如果你能运行一段时间或者只是做推理,并利用巨大的 NVLink 或者 NVL72,你知道,呃,有些方法你可以说 GB200 比 H100 只快两倍。在这种情况下,1.6 倍的 TCO,是值得的,对吧?值得切换到下一代,但边际收益比较小。
它边际性更强。呃,不是大爆发(不是一个巨大变化)。然后还有另一种情况,如果你在运行 DeepSeek 推理(DeepSeek inference),每个 GPU 的性能差异是六倍、七倍以上,并且会继续优化,呃,你知道,为 DeepSeek 推理优化。所以问题是,呃,然后就是“我只付 60% 更多钱,却能获得 6 倍性能”,对吧?那就是每美元性能 4 倍或 3 倍的提升,绝对是对的。如果你在做 DeepSeek 的推理,那可能也包括 RL(强化学习),对吧?
那么问题来了,另一个问题是,GPU 是新的。你知道,还有 B200、还有 GB2000、还有 B2000。从硬件角度看,B200 比较简单。它只是一个箱子里有 8 块 GPU。所以在推理时性能提升并不那么多,但你拥有稳定性,对吧?是个 8 GPU 的箱子。它不会那么不可靠。GV200 系列仍然存在一些可靠性挑战。这些问题正在被解决,一天天变好。呃,但仍然是挑战。
你知道,当你有一个 GB2 或者一个 H100 的 8‑GPU 箱子或者 H200 的 8 GPU 箱子,如果其中一个 GPU 坏了,你就要把整个服务器下线(take the entire server offline)。你得去修它,对吧?所以如果你的云(cloud)系统够好,他们会替换它,对吧?
但如果是 GB200,那你有 72 块 GPU,如果其中一个坏了,你现在怎么处理?你把整个 72 块都拆掉换新的吗?这是故障的影响范围(blast radius)问题,对吧?不是的。GPU 的故障率顶多和以前差不多,可能更糟,因为每一代东西都变得更热、更快,等等。所以即使你假设故障率完全相同,从“一坏 8 块”变到“一坏 72 块”,问题就非常大。
所以现在很多人做的是,他们把一个高优先级(high priority)的工作负载放在 64 块 GPU 上,然后剩下的 8 块 GPU 用来跑低优先级(low priority)工作负载。这就意味着“好,有这么个基础设施挑战”:我必须要有高优先级任务,也必须要有低优先级任务。当有一个高优先级任务出故障时,不是把整个机架(rack)下线,而是你把一些 GPU 从低优先级中挪到高优先级任务里去,然后让坏的那块 GPU 放在那里,等以后修机架的时候再一起换。这种模式。
而且就像这样,这会让“预训练性能提升三倍或两倍”的那种说法被打折,因为停机时间高,或者不是所有 GPU 总是在用,或者你没有基础设施处理优先级任务切换。不是不可能,实验室(labs)能做到,对吧?就是如果你是云服务商就非常难。因为你可能还得租借备用闲置 GPU(spare ones),可能用 spot instance 或者别的方式来做冗余。
不,不,不,因为它是 NVLink 连接的一个连贯域(coherent domain)。你不想让任何人碰那些链接(NVLink)。所以终端客户(end customer)不需要把它们闲置为备用那种状态。那更糟糕。不,终端客户通常会说“我想要这些”,而你就得,嗯,你知道,服务等级协议(SLA)和价格等等都考虑到这些,对吧?
所以一般情况下,当你用云的时候,有 SLA,对吧?呃,是说:“我的上线时间(uptime)将是 99%”,你知道,诸如此类。对吧?或者在这一段时间内。呃,对于 GB200 来说,是 99% 对 64 块 GPU 而不是 72 块;然后是 95% 对 72 块。这在每一家云服务商那里都不同,每个云的 SLA 不一样。但他们都对这个调整过,因为他们在说,“看,这硬件就是比较娇气”,你还要它吗?你知道,我们会给你补偿,在这 64 块里总有 64 块会工作,对吧?不是总有 72 块。
所以有这个“娇贵”的性质(finicky nature),而终端客户要能够处理这种不可靠性。你要有能力处理。
而终端客户可能就继续用 V100 或者以前的 GPU 吧,直到他们准备好或者基础设施建立好。性能提升没那么大。但你想要这个 72 GPU 域(domain)的原因是你可以获得这些性能收益,对吧?
但你必须足够聪明才能做到这一点,这对小公司来说非常有挑战性。
完全同意。所以 Nvidia 刚宣布那些 Reuben prefill 卡(Reuben prefill cards),像 CtX、CX、CPX、CPX。那样的产品。好吧,你怎么看这个?会不会自我蚕食(cannibalize)以前的产品?
伙计,说真的,我不知道昨天午饭吃的是什么,但我知道每个芯片型号(chip model number),哈哈哈。像,你梦想被破灭了,我们被搞坏了。活在梦想中。
不,不,不,不,不。呃,你知道,为什么你要预先宣布一个产品,在某些用例下是五倍快的?那是不是就有那么明显?哦,我觉得,我觉得像历史上 AI 芯片以前都是“AI 芯片”,对吧?呃,然后我们开始很多人说这是训练芯片,这是推理芯片。其实训练和推理在需求上切换得非常快,以至于现在它们要求很多重叠。实际上现在还是一个芯片。呃,确实在工作负载层有差别。但即使在训练里,推理现在也占主导地位,因为强化学习(RL)多数情况下是生成环境里的东西,然后试图达成某种奖励,对吧?所以它还是推理。训练现在也越来越被推理主导。
推理有两个主要操作(operations),对吧?呃,有预填充(prefill)缓存(KB cache)那部分,对吧,所有文档之间做注意力(attention),在所有的 token 之间,无论你用什么样的 attention。然后是解码(decode),自动地一个 token 一个 token 地生成输出。呃,这些是非常非常不同的工作负载。
所以最初基础设施(ML 系统技术)那边的想法是:“好,我把每一个前向传递(forward pass)的 batch size 都做很大,也许我同时让 32 个用户并发运行”。这样你知道,现在我还有 900 多剩余,对吧?那个剩余部分就做 prefill,如果请求来了,就把它们分割 chunk(分块)预填。有一种叫 trunk prefill,你先预填请求的一部分。这样 GPU 的利用率非常高。
但这样会影响 decode 工作(那些一个个生成 token 的那部分工作人员)。这些人的 TPS(每秒 token 数)变慢。Token per second 对用户体验非常重要,和其他一切都相关。所以于是就出现了这样的想法:“好吧,这两种工作负载差异这么大而且确实不同,那为什么不完全拆开它们?”你 prefill 用一组 GPU,decode 用另一组 GPU,是吗?几乎每个实验室、几乎每家公司都这样做。OpenAI、Anthropic、Google 几乎所有人都在做这一套:prefill/decode 分离(disaggregated prefilled decode)。
为什么这样有好处?因为你可以自动扩缩资源(autoscale)。对吧?比如突然输入很长的 context,你就给 prefill 分配更多资源。噢,突然我的输入短输出长(short input, long output),我就给 decode 分配更多 GPU。
这样我可以保证“第一个 token 的时间”(time to first token)足够快,这是用户体验很重要的因素。否则用户会说:“算了,不用这个 AI 了。”decode 的速度也很重要,但不如第一个 token 来得重要。
通过把 prefill 和 decode 分开做,这些都是在同样的基础设施里,你可以做到这个对吗?所以现在问题变成下一个逻辑步骤是什么。那些工作负载差异如此之大,decode 的那边你必须加载所有参数和 KV 缓存(cache)来生成单个 token。你会把几个用户的请求 batch 在一起,但很快你会用完内存容量或者内存带宽,因为每个人的 KV cache 不一样。是的。嗯,对所有 token 间的注意力计算来说是这样。
而 prefill 的时候,我甚至可以每次只服务一个或两个用户,因为如果他们发送给我一个 64,000 上下文(context request),那是很多 FLOPS(浮点运算),对吧?呃 64,000 上下文请求。我会用比如说 Llama 70B,因为用 70 亿参数做数学比较简单。呃 那是每 token 大约 140 giga‑flops。70 乘以 64,000,那个数字是很多很多 paraflops。你可能 GPU 用一秒钟就能跑完 prefill,对吧,取决于 GPU。
那只是一个前向传递(forward pass)。所以我不一定关心你多快把所有 token 或者所有参数载入 KV 缓存,我关心的是所有 FLOPS 的量。于是这会带我们到 CPX 的那种思考方式。
我说这个长长的解释是因为很多人不一定理解 CPX 是什么。我很多客户甚至在我们发多次说明(notes)之后说:“我还是不太明白。”我就想:“好吧。”呃 “注意(attention) is all you need(注意力机制就是你需要的整个模型)”,你不能期待……我意思说,比如一个网络专家可能会说:“我不知道这些细节。”你知道,attention 是 all you need,对吧?或者想一想一个投资人:他们可能会说,“为什么要有两个芯片,我为什么要建数据中心差异化?”你知道,我得把一切都解释给他们听。
或者在斯坦福至少 25% 的学生,不是计算机科学专业学生,而是所有学生里的 25%,都读这些论文,读 “attention is all you need”,对吧?这些是字数主要的课题。我觉得这很厉害。对不起,那个中东国家我忘了是哪。那里 AI 教育从大约八岁就开始,在高中阶段学生必须读 “attention is all you need”。哇。我听人说他们的礼拜(Santa? 或者 satna?)要读 “attention is all you need”。我不确定。总之,在教育方面自上而下的强制性政策,也许有效,也许无效。你知道,也许有人在家教孩子。我不知道。我上的是公立学校。但回到你读者的问题。
是的,呃,就硬件周期这个话题,我想我其实解释一下 CPX 是什么。CPX 是一个非常“为计算优化”的芯片(compute optimized chip),对吧?你知道,用于 prefill 和然后 decode 的那种。
然后 decode 通常说的是那种常规带 HBM(High Bandwidth Memory,高带宽内存)的芯片。HBM 是 GPU 成本中超过一半的部分。如果你把 HBM 剥离出去,呃,那么你能给客户提供一个成本更低得多的芯片。或者说,如果 Nvidia 拿相同的利润率,那么这个 prefill 芯片的成本就低得多,现在整个流程就更便宜、更高效率。更长上下文(long context)也能被采用。
GPU 市场现状
S:好吧。是的。我很喜欢我们要深入到这些细节,因为我有一个更“高空”(10,000 英尺-view)的问题要问你,呃,是这样的——我没有像你那样一直紧跟半导体市场。我可能是从 A100 那一代开始关注的。呃,我记得在 2023 年 6 月的那个夏天,我在帮 Gnome at Character(公司名)找 GPU,那时候唯一重要的是交货日期(delivery date),因为那时候产能紧缺严重。呃,然后过去两年你看到的演变是,比如说 6 到 12 个月之前,人们会向 20 家 Neoclouds 发 RFP(采购询价请求),对吧?在某种程度上唯一重要的是价格。人们真的在为 GPU 发 RFP。
D: 哦,所以,为了说清楚,我对你怎么买 GPU 的看法是,这就像在买可卡因(cocaine)或别的毒品。呃,这是别人跟我形容的,不是我在买毒品。有人告诉我这样比喻。我当时就想:“卧槽,这比喻太贴切了。”你打电话给几个人,你发短信给几个人,你问:“哟,你有多少?价格多少?”就像,完全一样。这就像买毒品那种操作。哦,对不起,对不起。我不是说我在买毒品。我只是说 … 到今天为止,就是那种方式。你发 Slack 消息给像 30 家 Neoclouds,也包括一些最大的那些,然后你就发消息说:“嘿,这客户要这么多,这是他们要的配置。”然后那些云厂商就回报价。我认识这个人,我认识那个人。嗯,所以我觉得其实这个描述非常准确。我发过不计其数的端口代码(port codes?)或者 Cluster Max 的原始贴子,因为我觉得那篇把情况拆得很清楚。
S: 但也许我结束前问你一个问题,现在我们有 Blackwells(Blackwell GPU 产品)上线了,我们现在处于哪种时代?是有点回到 2023 年夏天那种“GPU 极度紧缺”的时代吗?还是我们刚好进入了某个新的周期?你怎么看我们现在在哪?
D: 是个非常好的问题。对于你的一家投组合公司我们有个案例是这样的:在他们跟 Amazon 遇到困难之后,我们尝试说,“好吧,我们给你找 GPU。”原来可达成的交易没了,但我们找到别的交易,对吧?结果发现好多主要的 Neoclouds 的 “hopper 容量”(hopper capacity)都卖光了。嗯,而且他们的 Blackwell 容量要过几个月才上线。呃,所以有点挑战。对吧,因为推理(inference)的需求今年暴涨了。对吧?这些推理模型,嗯,营收今年攀升得很厉害。然后还有一个情况就是 Blackwell 虽然要上线,但部署并不容易,所以需要一点时间,有一个学习过程(learning curve)。所以好像过去你买 Hopper GPU、建数据中心、几个月内运作起来,那很快;但 Blackwell 那边,因为是新的 GPU,有可靠性挑战,有成长阵痛(growing pains),花的时间更长。
所以就有一个落差(gap):有多少 GPU 正式投入市场,同时营收开始拐点上升(inflex / inflect)。很多容量被迅速抢走。事实上 Hopper 的价格在三四个月之前甚至五六个月之前已经触底。是的。其实它们现在价格有一点回升。它们还是那种,不太太难买,但也不是非常容易。
我不觉得我们完全回到 2023–2024 那种 GPU 极度紧张的时代,但如果你要很多 GPU,要大规模,那确实很困难。如果你只要少量 GPU,那还比较容易。是的。哇,这真是个时代。我们要 wrap(结束)了吗?Dylan,这又是一次瞬间经典(instant classic)。非常感谢你来播客。我们聊了两个小时,兄弟。什么?我错过了?感谢你。我们停不下来。非常谢谢你。