赛道Hyper | 英伟达超算机：定义AGI算力集群

2023/06/13 16:06

DGX GH200，从AI决策型向AI生成式的过渡标杆。

英伟达创始人兼CEO黄仁勋，不但是个出色的技术工程师，也是位杰出的市场管理专家和营销大师。

黄仁勋的营销才能，从其对GPU的定义可以窥视。原先，GPU只是一张显卡，后来黄仁勋将服务器也称为GPU。最近，“黄氏”GPU定义，已扩展至CPU叠加GPU内存算力集群。

英伟达最近发布的超级计算机DGX GH200，从参数上看，性能极为惊人，结构也堪称精巧。但是，从技术原理上看，DGX GH200原本很可能并非为AI集训所设计，其内核Grace Hopper是决策型AI（为AI推荐系统所用）性质。

从结构设计上看，DGX GH200从决策型AI“转型”到LLM方向，但其真正价值并非为LLM定制，而是其可扩展性、以及将CPU内存与GPU内存，通过NVLINK C2C组件整合起来的技术，从而实现黄仁勋将GPU的定义扩展为超算集群的逻辑自洽。

至于真正的为LLM定制的针对性综合解决方案，黄仁勋还没给出答案。

CPU+GPU=？

DGX GH200的核心是Grace Hopper（CPU+GPU）。每台DGX GH200，都搭载了多达256个Grace Hopper。

黄仁勋将Grace Hopper称为“superchip”（超级芯片），这很像是一种营销表达。

实际上，Grace是CPU，确实是为AI而生，但本身的技术特性不是高性能CPU算力，而是能耗控制。换句话说，Grace负责还过得去的算力性能；Hopper则是GPU，与印象中的英伟达GPU负责AI算力不同，“Grace Hopper”中的Hopper，负责的是散热。

根据英伟达技术白皮书显示，Hopper是英伟达基于Hopper架构的GPU（即H100系列），而Grace则是英伟达自研的基于ARM架构的高性能CPU。

这颗芯片的CPU核（core）型号是Arm的公版neoverse N2。根据英伟达在2021年发布Grace Hopper时的PPT信息，Grace是一款包含了76个CPU核的N2多核处理器。

通过LPDDR5X（内存）通信接口，Grace接了高达512GB的内存（实际480GB），内存带宽也达到546 GB/s；Hopper（GPU）则通过HBM3（显存）接口接了最多96GB的显存，带宽可达3TB/s。

LPDDR，即Low Power Double Data Rate，中文全称“低功耗双倍数据速率”，是美国JEDEC固态技术协会（JEDEC Solid State Technology Association）面向低功耗内存制定的通信标准。

LPDDR有时候也等同于Low Power Double Data Rate SDRAM，中文全称“低功耗双信道同步动态随机存取内存”。通常，这以先进封装技术直接堆在CPU处理器上方，以低功耗和小体积著称，是移动应用场景的主流内存产品。

2019年2月，JEDEC发布JESD209-5，即LPDDR5低功耗内存传输速率（通信）标准。相较于2014年发布的第一代LPDDR4标准，LPDDR5的I/O速度提升到6400 MT/s，实现翻番。

基于LPDDR5的性能基础，LPDDR5X更进一步：数据传输速率从6400Mbps增至8533Mbps，对于支持8533Mbps LPDDR5X内存的移动SoC，其峰值理论可用带宽将进一步增长到68.26GB/s，从而赋予更广泛的设备拥有更多基于AI和5G的功能。

Grace用了LPDDR5X，就其16GB的容量而言，即使用了8片，CPU的总容量也只有128GB，远远达不到决策AI所需要的存储空间，更遑论对LLM的容量支持要求。但黄仁勋采用了新的结构，也就是集成8颗Grace CPU，还将之互联成一个Unified Memory。

这时，内存容量就高达1TB（8*128G），等于用X86的2S结构，相当于512GB per Socket的1TB容量。

回到Grace Hopper超级芯片，其高达144TB的Memory（显存）量，实际上是LPDDR5X的内存叠加HBM3的显存，即256组的CPU 480GB内存（LPDDR5X）叠加GPU 96GB显存（HBM3）。简单折算下，就是每个节点8组搭配，约3.75TB的CPU内存加上768GB的显存。

乍看上去，如此神一样存在的存储容量令人惊叹。但实际上，Grace Hopper的整体容量，除了内存还包括显存，这是从所未见的结构设计。但这种结构忽略了CPU同样令人惊奇的延迟。

这问题该怎么解决？若解决不了，以Grace Hopper为核心的DGX GH200，速度比蜗牛还慢，还怎么训练AI？

因此，杰出的技术工程师黄仁勋，在Grace Hopper中，还应用了至关重要的组件“NVLink C2C”。这个组件的核心是NVLink通信协议，将Grace的CPU与Hopper的GPU之间传输数据量的带宽，以900GB/s的带宽速率联系起来，远超常规的64GB/s带宽速率。

这就是黄仁勋敢于将LPDDR5X内存的CPU容量算到DGX GH200超算机整体存储规格的底气。虽然叠加高容量CPU内存会带来超级延迟的不利后果，但GPU对延迟并不敏感，通过以NVLINK通信协议为核心的NVLINK C2C组件，将CPU的内存变成了GPU内存，以此消除高容量CPU内存带来的延迟。

这种结构和部件设计，也是DGX GH200超算机引以为傲的可扩展性特征。

价值和不足

DGX GH200超算机的性能取决于存储空间的大小。144TB还能扩展吗？当然可以。这可通过将Grace Hopper与英伟达Bluefield DPU的接口连接InfiniBand，这样就可进一步扩展到更大的规模，从而实现更高性能的计算。

虽然看上去有144TB超级内存空间，900GB/s的传输速率也相当牛逼，但平均下来每组Grace Hopper的带宽也就200GB/s，与144TB共享显存带宽差太远。

总体来说，对DGX GH200超算机的性能来说，Grace Hopper芯片组的结构设计是关键，而英伟达的NVLink协议具有的超高性能数据互联能力是关键中的关键，核心中的核心。通过提供高达900GB/s的带宽并且提供一致性接口，Grace Hopper实现强悍的可扩展性。

Grace Hopper中CPU与其他高性能服务器端ARM CPU的区别，也许就是对于NVLink接口的支持，而这也成了Grace Hopper的最显著亮点。

虽然英伟达发布的DGX GH200超算机，其内核Grace Hopper的结构设计和软件超高速一致性内存接口NVLink的奇思妙想，并非是对AGI做的针对性整体解决方案。但是，黄仁勋的技术和结构设计能力肌肉秀，真正的价值是对处于AI生成式技术和应用阶段，对具有超强性能的算力集群产品做出符合AGI阶段的标准定义。

这里可能需要简单解释下为什么DGX GH200超算机不是为AGI做出的针对性解决方案，而是主要面向决策式传统AI的推荐系统。

首先，DGX GH200超算机的核心结构Grace Hopper芯片组发布于2021年。那时虽然AGI也在迭代中，但远远没有像2022年12月OpenAI发布的ChatGPT-3.5这种现象级应用带来的轰动效应，因而也没有像现在这样全球范围内的广泛关注度。

其次，从技术原理看，传统AI决策型推荐系统的特点是内存占用大，但计算数据要转换的热数据（指频繁访问的在线类Data）并不多。因此，通行的做法是，通过系统设计，在CPU内存中临时存放热数据，再以GPU侧的HMB显存做cache并导入热数据，对带宽和CPU内存速度要求不高。

大模型的数据转移特征是什么？内存占用也不小，但每次计算来回流动的基本是热数据，少有数据集之类的冷数据。所以就两难，若选择将海量热数据放到LPDDRX5，带宽还是有点不够（毕竟每组Grace Hopper带宽也只有200GB/s）；若放冷数据，成本又太高。

这里还有个问题，就是维护成本极高。Grace Hopper就物理形态看，CPU和GPU还各自独立，这两种芯片互联使用的是PCB板上的走线。在技术逻辑角度，这两种物理芯片的存储空间通过NVLink C2C组件和NVLink协议，被集成为一个整体。

因此，高度集成的Grace Hopper，但凡坏一块LPDDR5X，整个芯片组就要报废。这样的维护成本，除了巨头比如微软和谷歌这种不差钱的公司，其他公司都难以承受。

综合来说，Grace Hopper的LLM应用，在DGX GH200超算机的技术丛集中，并没有显现出惊艳的亮点；其结构设计确实表现出色，但这很像是以LLM需求所做的微调。因为这个结构，发布于2021年，那时LLM应用方向也还并不向今日这样如此明确。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。