赛道Hyper | 英特尔芯片设计之变

周源

2024/09/30 09:59

奇特的AI卡Gaudi 3和求变的Xeon 6。

作者：周源/华尔街见闻

9月25日，英特尔正式推出AI加速卡Gaudi 3和“Granite Rapids”Xeon 6（至强6，服务器CPU）。

Gaudi 3对标英伟达H100和AMD的Instinct MI300，用于GAI和HPC；Xeon 6专为人工智能和高性能计算场景设计。

虽弱但强？怎么理解？

今年4月，英特尔就宣布，将于今年四季度推出Gaudi 3，现在，市场终于可以看到这颗英特尔倾尽全力研发的AI加速卡的实际性能，究竟有多强。毕竟，英特尔要靠这颗芯片正面PK英伟达广受市场欢迎的H100加速卡。

除了选用HBM2E（第三代）作为存储中心，较为令人迷惑——H100用的是HBM3（H100 SXM5 GPU是全球首款使用HBM3内存的GPU，提供了高达3 TB/s的内存带宽），其他的性能升级，至少从参数看，还是非常惊人的。

Gaudi 3采用台积电5nm制程工艺，拥有两个芯片组：每个芯片组各有4个（合计8个）MME（矩阵乘法引擎），包含64个张量处理器核心（TPC，带有FP32累加器的256x256 MAC结构）；SRAM缓存容量翻番至96MB，带宽翻倍至19.2TB/s；HBM2E内存容量从96GB增加到128GB（8颗），带宽为3.7TB/s。

与前代Gaudi 2相比，在物理配置上，Gaudi 3也有明显的大幅提升。Gaudi 2用了台积电7nm工艺，有24个TPC、2个MME和96GB HBM2E高带宽内存。但不知出于何种考虑，英特尔Gaudi 3仅支持FP8矩阵运算和BFloat16矩阵和矢量运算，不再支持FP32、TF32和FP16。

性能方面，Gaudi 3的MME和矢量BF16的参数都赶不上英伟达H100。

Gaudi 3的MME BF16/FP8都是1835 TFlops（1.835亿亿次/秒），矢量BF16能达到28.7 TFlops（28.7万亿次/秒），分别比Gaudi 2提升3.2倍、1.1倍和1.6倍；但是英伟达H100的这三项性能参数分别为BF16的1979 TFlops（高于1835 TFlops）、FP8的3958 TFlops和1979TFlops。

在核心性能参数上，Gaudi 3和英伟达H100的差距肉眼可见。但是，英特尔却宣称，Gaudi 3比H100的LLM大模型推理性能领先50%、训练时间快40%，综合性价比是英伟达的两倍。

这是怎么做到的呢？是不是英特尔的软件能力（尤其是软件开发配套工具）和AI生态比英伟达更强？毕竟硬件性能需要强悍的软件能力，以及完善的生态做配合，才能充分激发。

对此，英特尔没有做过多解释，其宣称比英伟达更强的证据，仅是几张PPT。因此，是否真能像英特尔说的那样，还需要市场和时间验证。

唯一让市场对英伟达高度自信有信心的是售价。今年早些时候，英特尔表示，基于八颗Gaudi 3的AI加速器套件，售价12.5万美元。也就是说，每颗Gaudi 3售价约15,625美元。相比之下，H100目前售价为30,678美元，英特尔Gaudi 3的价格是英伟达H100的50.93%。

至少英特尔高层也承认生态的价值，认知还是相当全面的。

英特尔执行副总裁兼数据中心和人工智能事业部总经理 Justin Hotard 说，“对AI的需求正在推动数据中心发生巨大转变，业界要求在硬件、软件和开发工具方面做出选择。随着我们推出配备P核的Xeon 6和Gaudi 3 AI加速器，英特尔正在建立一个开放的生态系统，使我们的客户能够以更高的性能、效率和安全性实施所有工作负载。”

从这个表态可以看出，英特尔的AI加速卡生态也在构建过程中。开发配套软件方面，Gaudi 3能无缝兼容PyTorch框架、Hugging Face Transformer和扩散模型；同时，Gaudi 3会提供给IBM Cloud和英特尔Tiber开发者云。

此外，Gaudi 3加速器提供三种部署形态，分别是OAM 2.0标准夹层卡，被动散热峰值功耗900W，液冷散热峰值功耗1200W；HLB-325通用基板，功耗未知；HL-338扩展卡，PCIe 5.0 x16接口，被动散热峰值功耗600W。

基于英特尔Gaudi 3的系统将于今年第四季度从戴尔、HPE和超微全面上市，戴尔和超微的系统将于10月出货，超微的设备将于12月出货。

设计思路向联发科看齐？

同一日，英特尔还发布了宣称过久却迟迟不露面，故而快被遗忘的“Granite Rapids”Xeon 6（CPU）。

好在9月25日，“Granite Rapids”服务器 CPU 系列的高端产品终于登台，市场认为，“Granite Rapids”Xeon 6与今年6月发布的“Sierra Forest”Xeon 6芯片组合起来，还是能打的，起码能降低英特尔在IDC（数据中心）领域的市场损失。

尽管这个结果不那么好——推出一颗新的性能强劲的处理器，作用仅仅是降低损失，这无论怎么说，都有点令人沮丧。但是，英特尔的对手——AMD现在对英特尔来说，后者难以在技术、成本、性能和市场等维度做到超越，故而若能减少损失，这结果已经相对理想。

由于Xeon 6的E核（能耗）和P核（性能）变体的芯片封装和架构，在2023年的Hot Chips 2023已经公开，所以实际上，对“Granite Rapids”Xeon 6来说，性能提升的亮点就9月25日披露的信息看，最鼓舞至少是英特尔公司信心，部分让市场看到希望的亮点，是——Xeon 6提升了设计水平。

芯片设计水平能决定最终的性能表现，芯片设计最难的部分是取舍，这取决于对特定芯片定位、性能、技术水平、成本、竞争和市场需求度等极多维度的综合考虑。

比如联发科技设计旗舰芯片的核心考虑是要在保持相对低功耗的基础上，再考虑性能提升；而高通更追求高性能，不像联发科那么极度追求功耗平衡，所以之前推出了饱受市场诟病的火龙芯片。

英特尔的芯片设计考虑，有点类似于联发科。比如IPC（每时钟指令数）常被用来衡量CPU性能的重要指标。那么在芯片设计时，无限制提升IPC是可取的吗？

别忘了还有能耗限制。虽然台式机或者服务器，对能耗的容忍度更高，但也会综合考虑能耗成本。此时应该如何选择？

最近，英特尔高级研究员兼Xeon 6产品线首席架构师Ronak Singhal对这个话题有过一番解释，核心观点就一个，英特尔Xeon 6的设计思路是降低能耗，同时再尽可能的保持高性能，故而不过分追求IPC。

这个设计指导思路的结果就是，“Granite Rapids”Xeon 6，英特尔将核心数量从之前的两颗P核的56个核心提升至120个，增加2.3倍，而顶部部分的功率仅增加至500W，仅增加1.4倍。

总的来说，Xeon 6的性能特性很多，比如超核心数（UCC）变体，即Xeon 6 6900P，具有高达504 MB的L3缓存，远超通常的英特尔芯片缓存容量。但是Xeon 6也有很奇特的设计，比如不支持支持四路和八路服务器的变体，这和Gaudi 3使用HBM2E一样令人困惑。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。