一文读懂英伟达的“新GPU”：比H100快5倍？1200W的功耗？液冷？与MI300X比较又如何？

硬AI

2024/03/19 16:37

与竞品相比Blackwell性能表现出色，但要想要发挥Blackwell的最大潜力，转向液冷几乎成为必须。

作者：赵颖

来源：硬AI

“Hopper很棒，但我们需要更强大的GPU”，时隔两年黄仁勋在英伟达AI盛会GTC，重磅发布新一代Blackwell架构GPU。

随着生成式AI的兴起，英伟达正用更强大的芯片吸引客户，Blackwell架构被寄予厚望，性能方面实现飞跃。

据媒体周一分析，作为Hopper架构的后继者，Blackwell在性能提升方面表现出色，最高规格的Blackwell芯片浮点运算速度（FLOPS）大约快了5倍，能耗也进一步优化，与AMD MI300X GPU相比显现出强大竞争力，巩固了英伟达在性能和能效方面的技术优势。

性能提升的关键在于Blackwell价格设计，每款GPU实际上由两颗Compute Die集成，通过10TB/秒的NVLink-HBI（高带宽接口）技术连接，使得它们能够作为单个加速器工作。

此外，两颗计算芯片周围配备了8个8层堆叠HBM3e内存，总容量可达 192GB，带宽高达 8TB/秒。与 H100和H200 不同，B100和B200在内存和GPU带宽上保持一致。目前，Blackwell系列包括三个型号：B100、B200 和Grace-Blackwell Superchip（GB200）。

此外，想要发挥最大性能并非易事，需要考虑众多因素。尽管英伟达宣称新芯片算力能够达到 20petaflops，但这一性能指标是基于使用新推出的FP4精度，并采用液冷服务器的情况下测得的。想要发挥Blackwell的最大潜力，转向液态冷却几乎成为必须。若比较与上一代芯片H100的FP8性能，新芯片的速度仅提升约 2.5 倍。

GB200超级芯片性能强悍

英伟达最强大的GPU集成在GB200芯片中，类似于Grace-Hopper芯片，Grace-Blackwell Superchip将现有的72核Grace CPU与Blackwell GPU利用NVLink-C2C连接技术相结合。

不过，与单个H100GPU不同，GB200配备了两个Blackwell加速器——使其计算性能达到40petaflops，并拥有384GB的HBM3e内存。

先前的GH200被标注为 1000W——包括700W的GPU和300W的Arm CPU。因此，可以粗略估算，在全负荷下，GB200——包括两个 GPU，每个1200W，以及相同的 Arm CPU——可能的总功耗大约为 2700W。因此，英伟达直接采用液冷系统也就不足为奇了。

去掉笨重的热散布器，改为安装几个冷却板，英伟达能够将这两个加速器紧凑地安装在一个1U机架系统内，该机架能提供高达80千万亿次浮点运算的计算性能，或者以FP8计算达到40千万亿次浮点运算。

与上一代相比，这种双GB200系统能够提供比其 8U 10.2kW DGX H100 系统更多的计算性能——40 petaflops对比 32petaflops——同时所需空间减少到八分之一。

新一代NVLink连接方案使性能大幅提升

GB200构成了Nvidia NVL72机架级AI系统的核心，GB200 NVL72 则是一款机架级系统，它使用NVLink交换设备将36个GB200拼接成一个系统。该系统旨在支持大规模的训练和推理任务，可处理高达27万亿个参数的大语言模型。

根据英伟达介绍，在训练领域，该系统性能达到在FP8精度下能达到720petaflops。而在推理工作负载方面，该系统的计算能力可达FP4下的1.44exaFLOPS 。如果这还不够，八个 NVL72 机架可以互联，组成“巨无霸”DGX BG200 Superpod。

每个机架装配了18个节点，共计32个Grace GPU和72 个Blackwell加速器。然后，这些节点通过一系列九个 NVLink 开关进行互连，使得这些节点像单个13.5TB HBM3e 内存的 GPU 节点一样工作。

这基本上是 Nvidia 在之前的 DGX 系统中所采用的同样技术，使得八个GPU像单卡GPU一样运作。不同之处在于，Nvidia 利用专用的 NVLink 设备，实现了对更多 GPU 的支持。新一代NVLink为每个GPU提供1.8TB/s双向带宽，支持多达576个GPU间的无缝高速通信。

散热需求激增，液冷或成必备

尽管英伟达新一代产品并不强制要求使用液冷，但若想充分利用英伟达的旗舰芯片，液态冷却几乎是必选的。

对于 B100、B200 和 GB200，其主要区别在于功率和性能。据英伟达介绍，这些芯片的工作功率范围可在 700W 至 1200W 之间，视具体型号和冷却方式而定。

在不同的功率工作状态下，芯片的性能自然也会有所不同。英伟达指出，采用空气冷却系统的HGX B100 设备可以在每块GPU上实现14petaflops的速度，同时功耗与 H100 相当。这意味着，如果数据中心已能够支持英伟达的DGX H100 系统，那么引入B100节点应不会遇到问题。

而B200则更加引人关注，在采用空气冷却的 HGX 或 DGX 架构中，每块GPU能提供18petaflops的计算能力，同时功耗达到一千瓦。据英伟达称，DGX B200机箱配备8个B200GPU 的总功耗约为14.3kW，这意味着在机架功率和散热方面需要约 60kW 的额外容量。

对于专门为AI集群设计的新数据中心来说，这不是问题；但对于现有设施，挑战可能更大。

在AI数据中心领域，想要发挥Blackwell的最大潜力，转向液态冷却几乎成为必须。在液冷配置下，芯片在满负荷运作时的热输出可以达到1200W，同时实现20petaflops的性能。

与竞品相比，Blackwell仍具优势

虽然英伟达正主导AI基础设施市场，但它并非唯一参与者，重量级对手英特尔和AMD正在推出 Gaudi 和 Instinct 加速器，云服务商正推动自家定制芯片，AI创业公司如Cerebras和Samba Nova也在竞争中占据一席之地。

以AMD去年12月推出的MI300X GPU相比，Blackwell仍具备优势：

MI300X利用先进的封装技术，将八个CDNA 3计算单元垂直堆叠在四个 I/O 芯片上，这些芯片为GPU之间以及与192GBHBM3 内存之间提供高速通信。

在性能方面，MI300X在FP8 浮点计算中提供 30% 的性能优势，在与Nvidia H100为主的高性能计算集中型双精度工作负载中，几乎具有2.5倍的领先优势。将750W的MI300X与700W的B100对比，英伟达的芯片在sparse性能方面快了2.67 倍。

此外，尽管这两款芯片现在都包含了192GB 的高带宽内存，但Blackwell部件的内存速度快了 2.8TB/秒。而内存带宽已被证明是AI性能的关键指标，特别是在推理方面。例如，英伟达H200本质上是H100加强带宽的版本。尽管 FLOPS 相同，英伟达声称H200在如Meta的Llama2 70B模型中的速度是H100的两倍。

虽然英伟达在低精度领域保持明显领先，但可能牺牲了双精度性能，AMD 近年来在此类性能方面表现突出，赢得了多项高端超级计算机奖项。

分析预计，在2024 年对AI新品的需求将远远超过供应，在这种情况下，赢得市场份额并不总是意味着拥有更快的芯片，关键是哪些芯片能够上市发货。尽管Blackwell性能令人兴奋，但在买家拿到它们之前还需要一段时间，B200 和 GB200产能爬坡似乎要等到2025年初。

本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

一文读懂英伟达的“新GPU”：比H100快5倍？1200W的功耗？液冷？与MI300X比较又如何？

GB200超级芯片性能强悍

新一代NVLink连接方案使性能大幅提升

散热需求激增，液冷或成必备

与竞品相比，Blackwell仍具优势

Rubin备受期待之际，英伟达持续优化Blackwell，GB200能效三个月翻4倍

Vera Rubin实测性能首度披露，性能大幅提升！英伟达在AMD大会之前“砸场子”

AMD AI大会前英伟达秀亮CPU“战果”，Vera Rubin全面量产，超300合作伙伴部署

微软与AMD深化AI合作，Azure引入Helios机架级AI系统

英伟达补齐AI软件栈拼图：联手LangChain发布Agent蓝图，推理成本骤降10倍