作者:赵颖
来源:硬AI
“Hopper很棒,但我们需要更强大的GPU”,时隔两年黄仁勋在英伟达AI盛会GTC,重磅发布新一代Blackwell架构GPU。
随着生成式AI的兴起,英伟达正用更强大的芯片吸引客户,Blackwell架构被寄予厚望,性能方面实现飞跃。
据媒体周一分析,作为Hopper架构的后继者,Blackwell在性能提升方面表现出色,最高规格的Blackwell芯片浮点运算速度(FLOPS)大约快了5倍,能耗也进一步优化,与AMD MI300X GPU相比显现出强大竞争力,巩固了英伟达在性能和能效方面的技术优势。
性能提升的关键在于Blackwell价格设计,每款GPU实际上由两颗Compute Die集成,通过10TB/秒的NVLink-HBI(高带宽接口)技术连接,使得它们能够作为单个加速器工作。
此外,两颗计算芯片周围配备了8个8层堆叠HBM3e内存,总容量可达 192GB,带宽高达 8TB/秒。与 H100和H200 不同,B100和B200在内存和GPU带宽上保持一致。目前,Blackwell系列包括三个型号:B100、B200 和Grace-Blackwell Superchip(GB200)。
此外,想要发挥最大性能并非易事,需要考虑众多因素。尽管英伟达宣称新芯片算力能够达到 20petaflops,但这一性能指标是基于使用新推出的FP4精度,并采用液冷服务器的情况下测得的。想要发挥Blackwell的最大潜力,转向液态冷却几乎成为必须。若比较与上一代芯片H100的FP8性能,新芯片的速度仅提升约 2.5 倍。
GB200超级芯片性能强悍
英伟达最强大的GPU集成在GB200芯片中,类似于Grace-Hopper芯片,Grace-Blackwell Superchip将现有的72核Grace CPU与Blackwell GPU利用NVLink-C2C连接技术相结合。
不过,与单个H100GPU不同,GB200配备了两个Blackwell加速器——使其计算性能达到40petaflops,并拥有384GB的HBM3e内存。
先前的GH200被标注为 1000W——包括700W的GPU和300W的Arm CPU。因此,可以粗略估算,在全负荷下,GB200——包括两个 GPU,每个1200W,以及相同的 Arm CPU——可能的总功耗大约为 2700W。因此,英伟达直接采用液冷系统也就不足为奇了。
去掉笨重的热散布器,改为安装几个冷却板,英伟达能够将这两个加速器紧凑地安装在一个1U机架系统内,该机架能提供高达80千万亿次浮点运算的计算性能,或者以FP8计算达到40千万亿次浮点运算。
与上一代相比,这种双GB200系统能够提供比其 8U 10.2kW DGX H100 系统更多的计算性能——40 petaflops对比 32petaflops——同时所需空间减少到八分之一。
新一代NVLink连接方案使性能大幅提升
GB200构成了Nvidia NVL72机架级AI系统的核心,GB200 NVL72 则是一款机架级系统,它使用NVLink交换设备将36个GB200拼接成一个系统 。该系统旨在支持大规模的训练和推理任务,可处理高达27万亿个参数的大语言模型。
根据英伟达介绍,在训练领域,该系统性能达到在FP8精度下能达到720petaflops。而在推理工作负载方面,该系统的计算能力可达FP4下的1.44exaFLOPS 。如果这还不够,八个 NVL72 机架可以互联,组成“巨无霸”DGX BG200 Superpod。
每个机架装配了18个节点,共计32个Grace GPU和72 个Blackwell加速器。然后,这些节点通过一系列九个 NVLink 开关进行互连,使得这些节点像单个13.5TB HBM3e 内存的 GPU 节点一样工作。
这基本上是 Nvidia 在之前的 DGX 系统中所采用的同样技术,使得八个GPU像单卡GPU一样运作。不同之处在于,Nvidia 利用专用的 NVLink 设备,实现了对更多 GPU 的支持。新一代NVLink为每个GPU提供1.8TB/s双向带宽,支持多达576个GPU间的无缝高速通信。
散热需求激增,液冷或成必备
尽管英伟达新一代产品并不强制要求使用液冷,但若想充分利用英伟达的旗舰芯片,液态冷却几乎是必选的。
对于 B100、B200 和 GB200,其主要区别在于功率和性能。据英伟达介绍,这些芯片的工作功率范围可在 700W 至 1200W 之间,视具体型号和冷却方式而定。
在不同的功率工作状态下,芯片的性能自然也会有所不同。英伟达指出,采用空气冷却系统的HGX B100 设备可以在每块GPU上实现14petaflops的速度,同时功耗与 H100 相当。这意味着,如果数据中心已能够支持英伟达的DGX H100 系统,那么引入B100节点应不会遇到问题。
而B200则更加引人关注,在采用空气冷却的 HGX 或 DGX 架构中,每块GPU能提供18petaflops的计算能力,同时功耗达到一千瓦。据英伟达称,DGX B200机箱配备8个B200GPU 的总功耗约为14.3kW,这意味着在机架功率和散热方面需要约 60kW 的额外容量。
对于专门为AI集群设计的新数据中心来说,这不是问题;但对于现有设施,挑战可能更大。
在AI数据中心领域,想要发挥Blackwell的最大潜力,转向液态冷却几乎成为必须。在液冷配置下,芯片在满负荷运作时的热输出可以达到1200W,同时实现20petaflops的性能。
与竞品相比,Blackwell仍具优势
虽然英伟达正主导AI基础设施市场,但它并非唯一参与者,重量级对手英特尔和AMD正在推出 Gaudi 和 Instinct 加速器,云服务商正推动自家定制芯片,AI创业公司如Cerebras和Samba Nova也在竞争中占据一席之地。
以AMD去年12月推出的MI300X GPU相比,Blackwell仍具备优势:
MI300X利用先进的封装技术,将八个CDNA 3计算单元垂直堆叠在四个 I/O 芯片上,这些芯片为GPU之间以及与192GBHBM3 内存之间提供高速通信。
在性能方面,MI300X在FP8 浮点计算中提供 30% 的性能优势,在与Nvidia H100为主的高性能计算集中型双精度工作负载中,几乎具有2.5倍的领先优势。将750W的MI300X与700W的B100对比,英伟达的芯片在sparse性能方面快了2.67 倍。
此外,尽管这两款芯片现在都包含了192GB 的高带宽内存,但Blackwell部件的内存速度快了 2.8TB/秒。而内存带宽已被证明是AI性能的关键指标,特别是在推理方面。例如,英伟达H200本质上是H100加强带宽的版本。尽管 FLOPS 相同,英伟达声称H200在如Meta的Llama2 70B模型中的速度是H100的两倍。
虽然英伟达在低精度领域保持明显领先,但可能牺牲了双精度性能,AMD 近年来在此类性能方面表现突出,赢得了多项高端超级计算机奖项。
分析预计,在2024 年对AI新品的需求将远远超过供应,在这种情况下,赢得市场份额并不总是意味着拥有更快的芯片,关键是哪些芯片能够上市发货。尽管Blackwell性能令人兴奋,但在买家拿到它们之前还需要一段时间,B200 和 GB200产能爬坡似乎要等到2025年初。
本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里