Nvidia 推出其第一代 Blackwell B200 系列处理器时遇到了阻碍,原因是产量问题,并且还出现了几份未经证实的服务器过热报告。然而,据 SemiAnalysis报道,Nvidia 的第二代Blackwell B300系列处理器似乎 即将问世。它们不仅具有更大的内存容量,而且性能提高了 50%,而TDP仅增加了 200W。
Nvidia 的 B300 系列处理器采用了经过大幅调整的设计,仍将采用台积电的 4NP 制造工艺(针对 Nvidia 进行优化的 4nm 级节点,性能增强),但报告称,它们的计算性能将比 B200 系列处理器高出 50%。性能提升的代价是高达 1,400W 的 TDP,仅比 GB200 高 200W。SemiAnalysis 称,B300 将在 B200 上市大约半年后上市。
Nvidia B300 系列的第二项重大改进是使用 12-Hi HBM3E 内存堆栈,可提供 288 GB 内存和 8 TB/s 带宽。增强的内存容量和更高的计算吞吐量将实现更快的训练和推理,推理成本最多可降低三倍,因为 B300 可以处理更大的批量大小并支持扩展的序列长度,同时解决用户交互中的延迟问题。
除了更高的计算性能和更大的内存外,Nvidia 的第二代 Blackwell 机器还可能采用该公司的 800G ConnectX-8 NIC。该 NIC 的带宽是当前 400G ConnectX-7 的两倍,并且有 48 个 PCIe 通道,而其前代产品只有 32 个。这将为新服务器提供显着的横向扩展带宽改进,这对大型集群来说是一个胜利。
B300 和 GB300 的另一个重大改进是,与 B200 和 GB200 相比,Nvidia 据称将重新设计整个供应链。该公司将不再试图销售整个参考主板或整个服务器机箱。相反,Nvidia 将只销售搭载 SXM Puck 模块、Grace CPU 和 Axiado 主机管理控制器 (HMC) 的 B300。因此,将允许更多公司参与 Blackwell 供应链,这有望使基于 Blackwell 的机器更容易获得。
借助 B300 和 GB300,Nvidia 将为其超大规模和 OEM 合作伙伴提供更多设计 Blackwell 机器的自由,这将影响它们的定价甚至性能。
Nvidia 的圣诞礼物:GB300 和 B300
在 GB200 和 B200 发布仅 6 个月后,他们就向市场推出了一款全新的 GPU,名为 GB300 和 B300。虽然表面上听起来只是渐进式的,但实际效果远超预期。
这些变化尤其重要,因为它们包括对推理模型推理和训练性能的巨大提升。Nvidia 为所有超大规模企业,尤其是亚马逊、供应链中的某些参与者、内存供应商及其投资者准备了一份特别的圣诞礼物。随着向 B300 的转移,整个供应链正在重组和转变,为许多赢家带来了礼物,但也有一些输家得到了煤炭。
B300 GPU 是基于 TSMC 4NP 工艺节点的全新流片,也就是说,它是针对计算芯片的微调设计。这使得 GPU 在产品层面上能够提供比 B200高 50% 的 FLOPS。部分性能提升将来自 200W 的额外功率,GB300 和 B300 HGX 的 TDP 分别达到 1.4KW 和 1.2KW(而 GB200 和 B200 的 TDP 分别为 1.2KW 和 1KW)。
其余性能提升将来自架构增强和系统级增强,例如 CPU 和 GPU 之间的功率浮动。功率浮动是指 CPU 和 GPU 之间动态重新分配功率
除了 FLOPS 增加外,内存还从 8-Hi 升级到 12-Hi HBM3E,每个 GPU 的 HBM 容量增加到 288GB。但是,引脚速度将保持不变,因此内存带宽仍为每 GPU 8TB/s。请注意,三星正在从圣诞老人那里获得煤炭,因为他们至少在未来 9 个月内无法进入 GB200 或 GB300。
此外,Nvidia 也因为圣诞节的气氛,所以定价也相当有意思。这改变了 Blackwell 的利润率,但以后再讨论定价和利润率的问题。首先要讨论的是性能变化。
为推理模型推理而构建
由于长序列长度会增加 KVCache,从而限制关键批次大小和延迟,因此内存的改进是 OpenAI O3 风格 LLM 推理训练和推理的关键。
下图显示了 Nvidia 当前几代 GPU 在 1k 输入token、19k 输出token上运行对token经济学的改进,这类似于 OpenAI 的 o1 和 o3 模型中的思路链。这个演示性的屋顶线模拟是在 FP8 的 LLAMA 405B 上运行的,因为它是我们可以使用 H100 和 H200 GPU(我们可以访问的 GPU)模拟的最佳公共模型。
从 H100 升级到 H200 纯粹是内存更大、速度更快的升级,有两个效果。
由于内存带宽更大,所有可比批次大小的交互性普遍提高了 43%(H200 @ 4.8TB/s vs H100 @ 3.35TB/s)。
由于 H200 运行的批处理大小比 H100 大,每秒可生成 3 倍的令牌,因此成本降低了约 3 倍。这种差异主要是因为 KVCache 限制了总批处理大小。
更大内存容量带来的动态变化似乎不成比例的好处是巨大的。对于操作员来说,这两款 GPU 之间的性能和经济差异比纸面上的规格所暗示的要大得多:
由于请求和响应之间等待时间过长,推理模型的用户体验可能会很差。如果您可以提供更快的推理时间,这将增加用户使用和付费的倾向。
3 倍的成本差异是巨大的。坦率地说,通过中代内存升级实现 3 倍性能提升的硬件是疯狂的,比摩尔定律、黄定律或我们所见过的任何其他硬件改进速度都要快得多。
我们观察到,最强大和差异化的模型能够比能力稍差的模型收取更高的费用。前沿模型的毛利率超过 70%,但落后模型的利润率低于 20%。推理模型不必是一条思路。搜索是存在的,并且可以扩展以提高性能,就像 O1 Pro 和 O3 中所做的那样。这使得更智能的模型能够解决更多问题,并为每个 GPU 产生更多收入。
当然,Nvidia 并不是唯一一家能够增加内存容量的公司。ASIC 可以做到这一点,事实上,AMD 可能处于有利地位,因为它们的内存容量比 Nvidia 更高,一般来说,MI300X 的内存容量为 192GB,MI325X 的内存容量为 256GB,MI350X 的内存容量为 288GB……不过圣诞老人黄有一只叫做 NVLink 的红鼻子驯鹿。
当我们转向 GB200 NVL72 和 GB300 NVL72 时,基于 Nvidia 的系统的性能和成本将大幅提升。在推理中使用 NVL72 的关键点在于它能够让 72 个 GPU 以极低的延迟处理同一个问题,共享内存。世界上没有其他加速器具有全对全交换连接。世界上没有其他加速器可以通过交换机完成所有缩减。
Nvidia 的 GB200 NVL72 和 GB300 NVL72 对于实现许多关键功能至关重要。
-
更高的交互性使得每个思路链的延迟更低。
-
72 个 GPU 分散 KVCache,以实现更长的思维链(提高智能)。
-
与典型的 8 GPU 服务器相比,批量大小扩展效果更好,从而降低了成本。
-
通过搜索更多样本来解决同一问题,可以提高准确性并最终提高模型性能。
因此,使用 NVL72 的token经济学要好 10 倍以上,尤其是在长推理链上。KVCache 消耗内存对经济来说是致命的,但 NVL72 是将推理长度扩展到高批次 100k+ token的唯一方法。
Blackwell 供应链为 GB300 重新设计
随着 GB300 的推出,Nvidia 提供的供应链和内容发生了巨大变化。对于 GB200,Nvidia 提供整个 Bianca 主板(包括 Blackwell GPU、Grace CPU、512GB LPDDR5X、VRM 内容,全部集成在一个 PCB 上),以及开关托盘和铜背板。
对于 GB300,Nvidia 不会提供整个 Bianca 主板,而是仅提供“SXM Puck”模块上的 B300、BGA 封装上的 Grace CPU 以及来自美国初创公司 Axiado 而非 GB200 的 Aspeed 的 HMC。
最终客户现在将直接采购计算板上的剩余组件,第二层内存将是 LPCAMM 模块,而不是焊接的 LPDDR5X。美光将成为这些模块的主要供应商。
交换机托盘和铜背板保持不变,这些组件全部由 Nvidia 提供。
转向 SXM Puck 为更多 OEM 和 ODM 参与计算托盘提供了机会。以前只有 Wistron 和 FII 可以制造 Bianca 计算板,现在更多的 OEM 和 ODM 可以制造。Wistron 是 ODM 方面最大的输家,因为它失去了 Bianca 板的份额。对于 FII 来说,Bianca 板层面的份额损失被他们是 SXM Puck 和 SXM Puck 所依赖的插槽的独家制造商这一事实所抵消。Nvidia 正试图为 Puck 和插槽引入其他供应商,但他们尚未下任何其他订单。
另一个重大转变是 VRM 内容。虽然 SXM Puck 上有一些 VRM 内容,但大部分板载 VRM 内容将由超大规模制造商/OEM 直接从 VRM 供应商处采购。10 月 25 日,我们向Core Research 订阅者发送了一份说明,说明 B300 如何重塑供应链,特别是围绕电压调节器模块(“VRM”)。我们特别指出了单片电源系统将如何因商业模式的转变而失去市场份额,以及哪些新进入者正在获得市场份额。在我们向客户发送说明后的一个月内,由于市场意识到了我们领先研究中的事实,MPWR 下跌了 37% 以上。
Nvidia 还在 GB300 平台上提供 800G ConnectX-8 NIC,在 InfiniBand 和以太网上提供两倍的横向扩展带宽。Nvidia 不久前取消了 GB200 的 ConnectX-8,原因是上市时间复杂,并且放弃在 Bianca 板上启用 PCIe Gen 6。
ConnectX-8 相比 ConnectX-7 有了巨大改进。它不仅拥有 2 倍带宽,还拥有 48 个 PCIe 通道(而非 32 个 PCIe 通道),从而支持独特的架构,例如风冷 MGX B300A。此外,ConnectX-8 还支持 SpectrumX ,而在之前的 400G 代产品中,SpectrumX 所需的Bluefield 3 DPU 效率要低得多。
GB300 对超大规模的影响
GB200 和 GB300 延迟对超大规模计算的影响意味着,从第三季度开始,许多订单将转向 Nvidia 新的更昂贵的 GPU。截至上周,所有超大规模计算公司都已决定继续使用 GB300。部分原因是 GB300 的性能因更高的 FLOPS 和更大的内存而提高,但也有一部分原因是他们能够掌控自己的命运。
由于上市时间的挑战以及机架、冷却和电力输送/密度的重大变化,超大规模企业无法在服务器级别对 GB200 进行太大的更改。这导致 Meta 放弃了能够从 Broadcom 和 Nvidia 多源获取 NIC 的所有希望,转而完全依赖 Nvidia。在其他情况下,例如 Google,他们放弃了内部 NIC,转而只与 Nvidia 合作。
对于超大规模的数千人组织来说,这就像黑板上的钉子一样,他们习惯于对从 CPU 到网络,甚至螺丝和金属板的所有东西进行成本优化。
最令人震惊的例子是亚马逊,它选择了非常次优的配置,与参考设计相比,TCO 更差。由于使用 PCIe 交换机和效率较低的 200G Elastic Fabric Adaptor NIC(需要风冷),亚马逊无法部署 NVL72 机架,如 Meta、Google、Microsoft、Oracle、X.AI 和 Coreweave。由于其内部 NIC,亚马逊不得不使用 NVL36,由于背板和交换机内容更多,每个 GPU 的成本也更高。总而言之,由于定制方面的限制,亚马逊的配置不是最优的。
现在,借助 GB300,超大规模数据中心运营商能够定制主板、冷却系统等。这使得亚马逊能够构建自己的定制主板,该主板采用水冷,并集成了之前采用风冷的组件,例如 Astera Labs PCIe 交换机。在 25 年第三季度,水冷更多组件以及最终在 K2V6 400G NIC 上实现 HVM 意味着亚马逊可以重新转向 NVL72 架构并大大改善其 TCO。
不过,有一个很大的缺点,那就是超大规模企业必须进行大量的设计、验证和确认工作。这无疑是超大规模企业有史以来必须设计的最复杂的平台(谷歌的 TPU 系统除外)。某些超大规模企业将能够快速设计,但其他团队速度较慢的企业则落后了。总体而言,尽管有市场取消报告,但我们认为微软是部署 GB300 速度最慢的企业之一,原因是设计速度太快,他们仍在第四季度购买一些 GB200。
由于组件从 Nvidia 的利润堆积中抽出,转移到 ODM 身上,因此客户支付的总价格相差很大。ODM 的收入会受到影响,最重要的是,Nvidia 的毛利率也会在一年内发生变化。
文章来源:半导体行业观察,原文标题:《英伟达GB 300细节曝光,下一代GPU怪兽》