赛道Hyper | AMD苏姿丰:亮剑NVIDIA黄仁勋

AMD推出史上最强AI APU,却助推NVIDIA市值再破万亿美元。

明知不敌,也要亮剑,这不仅仅是独立团团长李云龙战斗精神的体现,也是AMD首席执行官苏姿丰的。 

美东时间6月13日,被视作NVIDIA(英伟达)最具现实意义的竞对——AMD(超威半导体),发布了对标NVIDIA当前最强AI算力加速芯片H100的超强AI APU(加速处理器)——AMD Instinct MI 300X。 

从技术角度观察,AMD这款加速芯片性能超越NVIDIA H100有参数支持。但参数是否能等同性能?资本市场有不同看法。 

AMD股价在美东时间6月13日盘中创出自2022年1月19日以来的新高后,一路下行,收跌124.53美元,跌幅3.61%;NVIDIA则收涨3.9%,报收410.22美元,市值第二次突破1万亿美元。 

MI 300系列:专为AGI而生 

AMD Instinct MI 300X,专为生成式AI而研发的加速器(国内称为AI芯片)。 

与2022年6月首发的AMD Instinct MI 300A不一样,AMD Instinct MI 300X没有集成CPU内核,而是采用8个GPU chiplet(基于CDNA 3架构)和4个I/O内存chiplet的设计,这让其集成的晶体管数量高达1530亿个。 

为缓解AI大型语言模型(LLM)所面临的内存制约,AMD为这款芯片集成192GB的HBM3(高带宽内存,High Bandwidth Memory),存储带宽高达5.2 TB/s,可处理的参数也达到惊人的400亿。单颗MI 300X能运行一个参数多达800亿的模型。 

可以将AMD Instinct MI 300A理解为专为LLM定制:拥有192GB HBM3内存、5.2TB/秒内存带宽和896GB/秒的Infinity Fabric带宽。AMD将1530亿个晶体管集成在共12个5nm的芯片中。 

HBM是一种面向需要极高吞吐量的数据密集型应用程序的DRAM,作用类似数据“中转站”,就是将使用的图像数据保存到帧缓存区中,等待GPU调用。 

与其他DRAM最大的差别,就是HBM拥有超高带宽。最新一代HBM是HBM3,带宽最高可达819 GB/s,GDDR6的带宽最高仅96GB/s,CPU和硬件处理单元的常用外挂存储设备DDR4的带宽只有HBM的10%。 

如此高的带宽,就让HBM成为了高性能GPU的核心组件。NVIDIA推出的超级算力集群DGX GH200也采用了HBM3显示存储器。 

根据不同的应用场景,美国JEDEC(固态技术协会)将DRAM分为三种类型:标准DDR、移动DDR和图形DDR,HBM属于最后一种。 

在过去20年内,算力提升速度极快,但I/O(写入和读出)带宽提升有限——前者提升9万倍,后者提升仅30倍,由此引发了“内存墙”问题,即数据传输过慢、能耗过高。 

为有效解决数据传输瓶颈,提高内存带宽就成为必须攻克的技术难题。所谓内存带宽,就是处理器可从内存读取数据或将数据存储到内存的速率。 

GDDR采用传统的方法将标准PCB和测试的DRAMs与SoC封装在一起,旨在以较窄的数据通道提供更高的数据速率,进而实现必要的吞吐量,具有较高的带宽和较好的能耗效率。 

在决策型AI阶段,GDDR的带宽尚能满足应用需求,但生成式AI(AGI)一来,又迫使存储商想出了“堆叠”(chiplet)方案(将GDDR堆叠后与GPU封装起来),以解决内存带宽问题,于是HBM出现。 

从物理结构上看,GDDR是独立封装,放在PCB上围绕于GPU周围,而HBM则用3D堆叠技术排布在硅中阶层(Silicon Interposer)并与GPU封装成一个整体。经如此处理,HBM2的面积,比GDDR5小了近1倍(94%)。 

目前,HBM已升级到HBM3。从最初的1GB存储容量和128GB/s带宽的HBM1,发展到目前的64GB存储容量和819GB/s带宽(2022年1月28日发布HBM3标准)。 

在AGI应用明确后(即OpenAI推出ChatGPT-3.5),NVIDIA于2022年3月推出的AI加速器H100,其性能就比AMD Instinct MI 300X有所落后,后者的HMB密度是前者的2.4倍,带宽则为前者的1.6倍。 

在存储空间方面,AMD Instinct MI 300X可使用192GB内存,而NVIDIA H100芯片只支持120GB内存。 

或许AMD还嫌性能赶不上NVIDIA,毕竟NVIDIA还没推出真正的面向AGI的加速器芯片。因此AMD称,基于896GB/s带宽的AMD Infinity架构,可将8个AMD Instinct M1 300X加速器组合在一套系统中,这样就具备更强算力,为AI推理和训练提供NVIDIA之外的解决方案。 

目前,AMD Instinct M1 300X还没量产,最早将于今年三季度送样,四季度正式推出。 

亲戚之间的竞争 

AMD CEO苏姿丰(Lisa Su)表示,随着语义模型规模越来越大,需要多个GPU支撑超高规模数据量级。但若采用AMD专用加速芯片,那么技术开发人员并不需要数量如此众多的GPU。 

苏姿丰还表示,IDC AI加速器的潜在市场总额将从今年的300亿美元增长到2027年的1500亿美元+,年复合增长率超过50%。 

AMD推出具备如此强悍的AI训练和推理性能的LLM专用加速器,但其股价却在当日的交易盘中出现3.61%的跌幅,原因是什么? 

据国内算力供应链人士透露,AMD没有透露采用AMD Instinct MI 300系芯片的大客户名单,相当于没有正面回应此前资本市场关于采用这款芯片的大客户是哪些的猜测。 

另外,这位观察人士还指出,AMD也没有披露MI 300系芯片的成本或销售方案。“考虑到数量极多(24颗)的HBM3,极大的Die面积以及台积电CoWoS封装产能吃紧,因此出现了这一现象(推出强悍性能芯片,资本市场却选择用脚投票)”。 

CoWoS是台积电先进封装技术组合3D Fabric的一部分,该组合共包括前段3D芯片堆叠或TSMC-SoIC(系统整合芯片)、后端CoWoS及InFO系列封装技术,可实现更佳效能、功耗、尺寸外观及功能,达成芯片系统级整合。 

AI预训练大模型对算力的需求将推动先进封装技术与IDC建设的进一步发展,ChatGPT等预训练大模型对算力需求极大,亟需Chiplet先进封装打破摩尔定律的限制,此将成为提升IDC建设速度的有效手段。 

NVIDIA统治AGI的LLM秘技,除了性能强劲的APU硬件,其供开发者使用的配套软件也是黄仁勋AI帝国的关键地基。因此,AMD自然有样学样,也推出了专用AI芯片软件(类似NVIDIA CUDA),即ROCm。 

这种配套软件,就在于大幅降低GPU的性能调用门槛。比如,原本需要相对更专业的OpenGL图形编程语言,但有了NVIDIA CUDA,开发者可以用Java或C++就可以调用GPU。CUDA的作用,相当于有了一座从普通大众级代码软件走向专业高门槛图形编程语言的桥梁。 

从AMD总裁彭明博(Victor Peng)的演讲可以看出,AMD学习NVIDIA这种软硬一体的做法应该很早就开始了,但“这个过程很长。(当然)在建立与开放模型、库、框架和工具生态系统的模型一起工作的软件堆栈方面,我们取得了极大进展。” 

彭明博在AMD担任总裁和AI战略负责人,这人的存在,实际上折射了苏姿丰挑战NVIDIA的战略构想。 

苏姿丰挑战NVIDIA在AGI时代垄断地位的手段之一,就是收购。2022年,AMD以488亿美元收购主要生产可编程处理器的赛灵思(Xilinx),这有助于加快视频压缩任务的速度。彭明博即赛灵思CEO,被“打包”在这笔交易中成为AMD总裁。 

此外,ADM还基于自身原本具备的CPU优势,选择重点发力APU(加速处理器),与NVIDIA核心APU“A100/H100”形成差异化竞争。 

从市场角度看,两强竞争,也好过一个具备垄断能力的NVIDIA。因此,挑战者AMD若在软硬一体方面的努力有性能和成本亮点,也并非全无机会。 

就像《琅琊榜》和《三国演义》是一堆亲戚之间的战争,AMD和NVIDIA也有类似戏剧性色彩。 

有消息显示,黄仁勋和苏姿丰实际上是亲戚。黄仁勋之母,与苏姿丰之外祖,是兄妹关系,只不知是姑表兄妹还是亲兄妹。 

黄仁勋9岁从泰国移居美国,本科毕业于俄勒冈州立大学,取得电气工程学学士学位;之后获得斯坦福大学电子工程硕士学位。毕业后进入AMD担任芯片设计工程师,30岁创立NVIDIA。 

苏姿丰5岁随父母定居美国,24岁获得麻省理工学院EE(Electrical Engineering,电气工程)博士学位。之后,先后在TI、IBM和AMD任职。2014年,开始领导AMD。从2014年至今年(2023年),在苏姿丰领导下的AMD,股价翻了近30倍。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。