根据HPCwire报道,在最近的财报电话会议上,全球首富、特斯拉首席执行官埃隆·马斯克用几句话总结了英伟达企业级 GPU 的短缺问题。
“我们使用了大量 Nvidia 硬件。我们将……以 Nvidia 向我们提供硬件的速度提供硬件。” 马斯克说道。“我不知道他们是否能为我们提供足够的 GPU……但他们不能。他们有很多顾客。” 他后来补充说。
马斯克只是等待 Nvidia 用于人工智能的 GPU 的众多客户中的一个人。
Nvidia 首席执行官黄仁勋表示,ChatGPT 是人工智能的 iPhone 时刻。Nvidia GPU 是企业硬件领域的 iPhone。Nvidia 不会优先考虑仅向拥有大量现金的客户提供有限的炙手可热的 GPU 供应。Nvidia 在提供 GPU 之前会筛选客户的计划、用途和工作负载。这样做的目的是确保工作负载与 GPU 的功能保持一致,并确保客户是 Nvidia 硬件的良好管理者。
Nvidia 首席财务官 Colette Kress 在本周花旗全球技术大会的分析师会议上表示,客户需要满足特定的 Nvidia 指导方针才能考虑使用 GPU 。
想要买H100?先回答这些问题
一、您有 PO 或采购订单吗?
这是 Nvidia 礼貌的说法:“给我钱吧。” (氪金?)
Kress表示,采购订单可以让人们深入了解该公司的计划以及英伟达在这些计划中所扮演的角色。她表示,采购订单有助于英伟达从头开始为客户进行规划。
“我们与许多大公司合作多年。它们确实帮助我们了解规划流程和工作,这是我们流程的一部分。这种方法也某种程度上帮助了我们。”Kress说。
英特尔首席财务官 Dave Zinsner 表示,了解客户的计划为追加销售更多产品(软件或基础设施)以满足特定要求打开了大门。
Nvidia 还销售其人工智能软件、CPU 和网络硬件以及 GPU。
二、您准备好接收 GPU 了吗?
Nvidia 希望了解处理 GPU 超高速的计算设置以及处理 H100 引起的热浪的冷却要求。
建立数据中心并不是一个快速的过程;克雷斯说,这需要时间和计划。一些客户还希望在设置的后期添加计算和网络。
“我们正在寻找您期望何时需要我们在……您的数据中心提供服务,”Kress说。
三、您的模型有多大,需要多少计算?
Nvidia 与一些公司密切合作,了解他们的人工智能战略计划以及模型的规模和计算要求。
该公司的 A100 和 H100 GPU 已用于训练 GPT-3.5 和 GPT-4 等模型,这些模型拥有数十亿个参数。
但对于一些较小的模型,Nvidia 会推荐其他 GPU。Kress 根据其数据中心的型号和设置给出了 L40S 的示例。
“你可以采用 OEM 或 ODM 服务器——我们可能会推出 100 台——他们将能够在该配置中放入四张 L40S [卡]。对于小型模型来说,这是一个很棒的服务器,不仅可以进行训练,还可以进行推理。” Kress说道。
四、不忽视小客户
在Kress的演讲中,她强调英伟达并不会忽视小客户,例如CoreWeave 就通过了 Nvidia 的测试,是拥有几个 H100 GPU 的幸运小型云提供商之一。该云提供商仅提供 GPU 计算,Nvidia 已持有该公司的少量股份。
“CoreWeave ……专门从事加速计算;这是他们的目标。CoreWeave 在采用速度和设置速度方面也拥有相当多的技能,”Kress 说。
该云提供商已与大客户合作建立计算基础设施。
“他们很小,他们确实有一些分配,但是……非常小,”Kress说。
谁在获得英伟达GPU?
Nvidia 正在全球范围内向客户和行业分配 GPU。
Nvidia 将最多的 GPU 分配给云服务提供商,为公司带来了最大的收入。谷歌正在为客户提供 A3 超级计算机,该计算机拥有多达 26,000 个 H100 GPU 和 26 exaflops 的计算能力。AWS 在 7 月底才发布了其第一个 H100 EC2 实例,微软很快也紧随其后,推出了 ND H100 v5 系列 Azure 虚拟机(该虚拟机已完成测试)。
继云提供商之后,第二大 GPU 分配给了消费互联网公司和大型企业。
“CSP 还向企业销售产品,并为研究提供计算支持,为大型大学提供支持,也为企业提供服务,”Kress 说。
不过,从Kress的报告中我们可以看到,Nvidia 的 GPU 很快就被抢购一空,这种情况将持续到 2024 年第二季度末。从 2024 年第三季度末到中期,库存水平将保持在 43 亿美元至 52 亿美元之间。明年的。
“每个季度末我们手头上的库存都相当平稳,”Kress说。
但英伟达正在努力通过增加 CoWoS 封装(将内存和芯片结合在一起)的供应来缓解短缺问题,以帮助制造 GPU 的台积电。英伟达正在与现有合作伙伴以及寻找新的合作伙伴合作,以帮助解决台积电增加产能的压力。
“即使我们进入 2025 财年,我们预计 [CoWoS] 供应量每个季度都会增加。而且我们确实预计,随着我们整体 CoWoS 产能的增加,某些大型 [合作伙伴] 会加大力度,”Kress 说道。
Nvidia 已将其 GPU 采购承诺在 2024 年第一季度提高至 153 亿美元,在第二季度提高至 193 亿美元,这表明将有更多 GPU 进入市场。
Kress说:“我们还与一些供应商做出了长期购买承诺和预付款,以确保我们能够帮助他们,因为他们能够满足他们的需求。”
英伟达制造合作伙伴台积电董事长刘德音表示,“目前,我们无法100%满足客户的需求,但我们尽力支持80%左右。我们认为这是暂时的现象。我们扩大先进芯片封装产能(CoWos)后,一年半之内应该会得到缓解。”
除了严格审核GPU购买者的资格外,据theinformation的最新报道,英伟达正在利用其在人工智能硬件领域的主导地位来产生云软件收入。此举使英伟达与购买其芯片的传统云提供商展开竞争。
从英伟达租用硬件?
Theinformation报道指出,去年,英伟达向亚马逊网络服务和其他云提供商提出了一项不同寻常的提议——英伟达希望能够在云提供商的数据中心中租用英伟达支持的服务器,这样它就可以将相同的服务器租给人工智能软件开发商。这些开发商包括一些世界上最大的云客户。值得一提的是,这些提供商长期以来一直是英伟达专用人工智能服务器芯片的最大买家。
随着讨论的进展,英伟达的影响力不断增加。自 11 月份 OpenAI 的 ChatGPT 推出以来,人工智能软件开发人员对 Nvidia 支持的服务器的需求激增,云提供商很快就跟不上了。 在那个微妙的时刻,英伟达找到了一种本质上与云提供商争夺客户的方法。
英伟达的王牌是该公司发布的一款备受期待的新型人工智能芯片 H100,这是传统云提供商所需要的。据一位直接了解该决定的人士透露,微软、谷歌和甲骨文同意了 Nvidia 的提议,但 AWS 没有。
此举展示了英伟达如何利用其在人工智能硬件(即图形处理单元)领域的主导地位来追求新目标:通过与其芯片的企业用户的直接关系获得云软件收入。这个权力游戏并不一定会夺走云提供商的现有收入,因为英伟达向他们支付服务器租金,然后向自己的客户收取溢价。但这种安排可能会削弱云提供商的影响力,并帮助英伟达向可能从 AWS、微软、谷歌和甲骨文购买该软件的客户出售自己的人工智能相关软件。
AWS 和谷歌云前经理约书亚·伯恩斯坦 (Joshua Bernstein) 表示:“它将 Nvidia 的品牌置于云提供商品牌之上。” 他表示:“这表明英伟达意识到自己在市场中的地位,以及需要采取哪些措施才能保持这一地位。”
Nvidia 的云服务名为 DGX Cloud,是 Nvidia 的野心超越销售芯片的最新例子。Nvidia 最近还开始向 Adobe、Getty Images 和 Shutterstock 等客户单独销售 AI 相关软件,这些客户表示他们正在使用该软件来构建 AI 模型。Nvidia 可以利用 DGX Cloud 的客户关系来销售更多此类人工智能软件。(Nvidia 发言人 Liz Archibald 表示,DGX 不是缩写词,这些字母不代表任何东西。)
当上个月在季度财报电话会议上被问及新的云服务时,Nvidia 首席执行官黄仁勋表示云提供商“喜欢它”。然而,参与的云提供商的发言人没有对本文发表评论,除了 3 月份发布的 Oracle 新闻稿外,没有一家提供商在其网站上宣传该服务,AWS的发言人也拒绝置评。
与云厂商,必有一战?
“我完全理解为什么亚马逊不参与 [Nvidia 云服务],因为归根结底,真正拥有客户关系的是 Nvidia,伯恩斯坦分析师史黛西·拉斯贡 (Stacy Rasgon) 表示。Rasgon 指出,相比之下,同意推出 DGX Cloud 的云提供商规模小于 AWS,因此理论上他们可以相对于 AWS 获得市场份额。
Nvidia 副总裁兼总经理 Charlie Boyle 在接受theinformation采访时反驳了 Nvidia 正在与传统云提供商竞争的观点,称新的云服务“并不是 Nvidia 控制客户而不是云提供商。这是一个共享的东西。” 在谈到 AWS 拒绝 Nvidia 服务时,他表示 AWS 一直是“伟大的合作伙伴……但每个人的业务都有自己的限制”。
新兴的 Nvidia 云服务可帮助客户开发人工智能模型,并为他们提供可为其业务定制的预训练模型。这些预先训练的模型包括 Nvidia 用于生成文本的 Megatron 530B 模型(类似于 ChatGPT),以及用于识别视频片段中的人物的 PeopleNet 视觉模型。
Nvidia DGX 云服务的客户已经包括一些云服务的最大买家,例如 IT 软件巨头ServiceNow、生物制药公司安进 (Amgen) 和保险公司CCC Intelligent Solutions。黄仁勋上个月告诉分析师,DGX Cloud 取得了“巨大的成功”,但没有透露其收入的具体细节。
同样重要的是,云服务使英伟达能够销售用于管理用于开发人工智能模型的大型数据集的软件。Nvidia 软件与 Databricks、Snowflake 以及微软的类似产品竞争。Nvidia 在 8 月份的季度报告中告诉投资者,向开发涉及人工智能或虚拟现实的应用程序的公司销售软件可能会带来 3000 亿美元的潜在收入机会。该公司首席财务官科莱特·克雷斯 (Colette Kress) 在 8 月份的季度财报电话会议上对分析师表示,软件业务每年创收数亿美元,与芯片业务相比只是九牛一毛,但仍有望实现增长。
对于传统云提供商来说,DGX Cloud 的崛起有可能将他们变成中介。例如,ServiceNow 使用 DGX Cloud 开发人工智能来总结 IT 请求并为客户服务聊天机器人提供支持。这家 IT 软件巨头的高级副总裁约翰·西格勒 (John Sigler) 表示,Nvidia 的服务使 ServiceNow 可以更轻松地在自己的数据中心以及跨多个云提供商同时运行其新的人工智能软件,因为它可以使用来自 Nvidia “单一软件平台” ”来管理流程。
因此,ServiceNow 不需要跟踪哪个传统云提供商在幕后为其人工智能开发提供服务器。“如果 [Nvidia 的云服务] 使用微软或谷歌的数据中心,那就完全没问题,” Sigler说。(根据 The Information 的数据,ServiceNow 每年在微软云服务上花费至少 7500 万美元。)
从英伟达的角度来看,在传统云提供商的数据中心内推出类似特洛伊木马的云服务是公平的。虽然 Nvidia 和云提供商彼此需要,关系变得更加复杂和有争议。AWS、微软和谷歌已经向云客户出售或正在开发自己的人工智能服务器芯片,希望减少对英伟达芯片的依赖,因此英伟达认为他们是竞争对手的想法是正确的。
Nvidia 已采取其他步骤来试图削弱传统云提供商,那就是支持他们的竞争对手。它向专门租赁GPU云服务器的新贵云公司提供了宝贵的H100 GPU芯片,包括CoreWeave、Lambda Labs和Crusoe Energy ,而传统云公司却在努力启动和运行自己的新 H100 服务器。
获得对英伟达芯片的特殊访问权并不是免费的。在强调其王者地位的一个不寻常的举动中,芯片设计者询问并收到了那些较小的人工智能云提供商的客户的姓名,原因无法得知。但这种做法让英伟达获得了更多有关未来可以向其出售服务的云客户的信息。
英伟达正处于前所未有的境地。迄今为止,它是 OpenAI 的 ChatGPT 引发的对话式 AI 繁荣的最大受益者。随着云提供商和其他公司竞相为企业和消费者推出新的人工智能服务,它已经产生了价值数百亿美元的新订单,使这家芯片设计公司的市值达到了超过 1 万亿美元。
我不是,我没有,别瞎说
没有证据表明 Nvidia 强迫传统云提供商推出 DGX Cloud,或强制要求他们将收到的 H100 芯片的一定比例分配给该服务。但由于对其芯片的需求超过了供应,美国联邦贸易委员会的反垄断监管机构最近在一篇博文中暗示,他们正在关注 Nvidia在 “高度集中的市场”中是否有不公平使用的迹象。该机构去年起诉英伟达,要求其停止收购芯片设计公司 Arm,英伟达最终达成了这项交易。
Nvidia 表示,其云服务主要旨在向云提供商展示在其数据中心配置 GPU 服务器的正确方法,以便它们更好地工作。这可以让 GPU在客户眼中比其他专注于人工智能的硬件更受欢迎。Nvidia 企业计算副总裁 Manuvir Das 本周在旧金山举行的高盛活动上表示,该公司 DGX Cloud 的目标是让云提供商说:“非常感谢 Nvidia,现在我扩大规模了。” 换句话说,云服务可以帮助英伟达保持其对人工智能硬件市场的控制。(Das 是向黄汇报的大约 40 名高管之一。)
据几位直接了解该服务的人士透露,Nvidia 的工程师利用他们对该公司芯片的深入了解来调整 DGX 云服务器,使其比云提供商租用的其他专注于人工智能的服务器表现更好。
Boyle 表示,Nvidia 使用其软件来提高 DGX 云服务器的性能。黄仁勋则在 8 月份的分析师电话会议上表示,来自 Nvidia 和云提供商“携手”提高驻留在提供商数据中心的 DGX Cloud 的 Nvidia GPU 服务器的性能。
不管怎样,至少一位 DGX Cloud 客户表示已经注意到了其中的差异。销售用于构建人工智能应用程序的软件的 Anyscale 联合创始人 Ion Stoica 表示,与传统云提供商为客户提供的 GPU 服务器相比,DGX Cloud 具有“高性能且在定价方面非常有竞争力”。
他表示,DGX Cloud 可能会成为一项大业务,因为 GPU 服务器很难找到,以至于公司正在使用多个云提供商来尽可能多地访问它们。他说,由于 DGX Cloud 跨多个云提供商运行,因此它可能成为人工智能开发人员的一站式商店。
Nvidia 还将 DGX Cloud 定位为客户快速访问 GPU 服务器的一种方式,而无需向云提供商做出大量的、多年的承诺来保证这种访问。DGX Cloud 客户可以快速租用具有 8 个 A100 GPU 的云服务器,每月起价 37,000 美元。Boyle 拒绝提供 H100 GPU 的定价。在 AWS,A100 GPU 服务器每小时的成本在 32 到 40 美元之间,即每月24,000 美元到30,000 美元之间。
“我们定价为优质服务,我们绝对不会在市场上试图与任何人进行价格竞争,”Boyle 说。
摩尔定律已失效,所以不要购买CPU
回到Kress的演讲,据报道,她在演讲中再次无情地扼杀了摩尔定律,表明CPU的时代已经结束,GPU的时代已经到来。
“摩尔定律的消亡确实引发了这样一种观点‘我们该如何处理我们的 CPU 服务器?这是一个可升级的解决方案吗?或者现在是转向加速计算的时候了吗?”
Kress 表示,与装满 CPU 的服务器机房相比,GPU 的性价比更高,并且可以在更小的空间内完成更多的计算。
“你必须能够提高性能……使用更少的能源,更快地完成任务,”Kress 说道,并补充道,“GPU ……可以做到这一点。所以我们认为这只是一个开始。”
与此同时,大多数小型 HPC 用户可能必须耐心等待 GPU 及其结果。
本文来源:半导体行业观察(ID:icbank),原文标题:《你想要H100吗?》