中金 :AI浪潮,HBM成为存储战略要地

中金张怡康团队
中金认为,HBM的快速增长对于IDM、晶圆制造、封装、设备材料等产业链环节带来了增量空间,目前已成为存储器链条各环节必争之地。

AGI时代来临之际,算力和存储的需求同步提升,在存算一体模式成为主流之前,HBM(高带宽存储)对于克服“存储墙”、提升带宽等方面有较强优势,主要应用在AI芯片片上存储。根据SK海力士测算,HBM的需求在2022至2025年之间的CAGR增速将达到109%。HBM的快速增长对于IDM、晶圆制造、封装、设备材料等产业链环节带来了增量空间,目前已成为存储器链条各环节必争之地。

要点

AI算力追求高性能动态存储,HBM成当前较佳方案。随着数据量越发庞大加之AI芯片的加速发展,冯氏计算架构问题凸显:“存”“算”之间性能失配,使得计算机的计算能力增长遇到瓶颈,虽然多核并行加速技术可以提高算力,但存储带宽的限制仍对计算系统的算力提升产生了制约。GDDR是目前应用较为广泛的显存技术。但在AI计算领域GDDR也难堪重任,于是制造商将目光投向HBM技术。

HBM需求由AI芯片带动,主流厂商竞争白热化。根据我们测算,HBM的综合需求与AI芯片的存储容量需求、带宽需求、HBM堆叠层数等多个参数有明显关系。SK海力士、三星电子、美光科技三大家竞争进入白热化,目前已各自发力HBM3E产品。

HBM制造复杂度提升,不同产业链环节均有参与机会。AI芯片制造步骤相对于传统计算芯片复杂度大幅提升,同时考虑到不同的连接方式对于精度的要求和工艺要求不同,制造过程分布在IDM、晶圆厂和封装厂。GPU、HBM是Chiplet中的主要有源器件,由IDM、晶圆厂、存储厂进行制造;无源器件中,Interposer、RDL可由晶圆厂、IDM、封装厂制造;基板和PCB则由对应的厂商供应。

HBM堆叠技术对于前后道设备要求大幅提升,键合方式路径变化是市场关注热点。HBM堆叠环节主要围绕凸块制造、表面布线、TSV、键合、解键合,光刻、涂胶显影、溅射机、刻蚀、电镀等前道工具参与其中。随着堆叠结构增多,晶圆厚度降低,对减薄、切割、模塑等设备需求提升。较为关键的键合中,当前市场主流键合方式依然是TCB压合以及MR方案,我们认为未来混合键合或将成为主流方案。

正文

AI算力追求高性能动态存储,HBM成为当前较佳方案

人工智能、云计算和深度学习可以总结为3大算力阶段,目前处于第三阶段。云端AI处理需求多用户、高吞吐、低延迟、高密度部署。计算单元剧增使IO瓶颈愈加严重,需增加DDR接口通道数量、片内缓存容量和多芯片互联。传统的冯·诺伊曼架构以计算为中心,由于处理器以提升速度为主,存储器更注重容量提升和成本优化,导致“存”“算”之间性能失配。

HBM具备高带宽、小体积等优势。随着GPGPU的出现,GPU越来越多地被应用于高性能计算,在AI计算领域GDDR也难堪重任,于是制造商将目光投向HBM技术。通过多层堆叠,HBM能达到更高的I/O数量,使得显存位宽达到1,024位,几乎是GDDR的32倍,显存带宽显著提升,此外还具有更低功耗、更小外形等优势。显存带宽显著提升解决了过去AI计算“内存墙”的问题,HBM逐步提高在中高端数据中心GPU中的渗透比率。

受构造影响,GDDR的总带宽上限低于HBM。总带宽=I/O数据速率(Gb/s)*位宽/8。为解决DDR带宽较低的问题,本质上需要对单I/O的数据速率和位宽(I/O数*单I/O位宽)进行提升,可分为GDDR单体式方案和HBM堆叠式方案。单体式GDDR采取大幅提升单I/O数据速率的手段来改善总带宽,GDDR5和GDDR6的单I/O数据速率已达到7 Gb/s到16Gb/s,超过HBM3的6.4 Gb/s。HBM利用TSV技术提升I/O数和单I/O位宽,从而大幅提升位宽,虽然维持较低的单I/O数据速率,但总带宽远优于GDDR。

HBM的综合功耗低于GDDR。HBM通过增加I/O引脚数量来降低总线频率,从而实现更低的功耗。尽管片上分布的大量缓存能提供足够的计算带宽,但由于存储结构和工艺制约,片上缓存占用了大部分的芯片面积(通常为1/3至2/3),限制了算力提升。

HBM通过3D封装工艺实现DRAM die的垂直方向堆叠封装,可以较大程度节约存储芯片在片上占据的面积。HBM芯片的尺寸比传统的DDR4芯片小20%,比GDDR5芯片节省了94%的表面积。根据三星电子的统计,3D TSV工艺较传统POP封装形式节省了35%的封装尺寸。

目前主流的GDDR标准为GDDR6,主流的HBM标准为HBM3,HBM3的显存带宽约为GDDR6的8-9倍。GDDR7的官方标准于3月5日由JEDEC发布,一个大的技术变化是内存总线上的两位不归零 (NRZ) 编码转换为三位脉冲幅度调制 (PAM3) 编码,JEDEC预计第一代GDDR7的数据传输速率预计约为32 Gbps/pin。我们预计未来中短期HBM3E和GDDR7将成为主流标准,而HBM3E在显存带宽方面有望达到GDDR7的6倍。

图表1:市场上不同品牌和型号的GPU和存储类型

资料来源:各公司官网,Yole,中金公司研究部

HBM供需测算和技术路径讨论

需求:通过增量GPU需求测算HBM需求。根据我们测算,全球HBM晶圆2024、2025年总需求分别为6万片/每月、15万片/每月。基础假设为2024、2025年携带HBM的GPU总量分别为647万颗和810万颗,单颗GPU携带6、8颗Cube(堆叠之后的HBM),随着平均堆叠层数的提升,总晶圆数量也随之上升。我们然后假设每片晶圆上可切割的颗数为400颗不变。得到2025年总晶圆需求为16万片/月,根据Yole,2024年全球产能预计将达到15万片,在我们的假设下HBM仍有一定缺口。

图表2:HBM需求总量的计算

资料来源:英伟达官网,AMD官网,Yole,中金公司研究部

图表3:HBM晶圆产量测算

 

资料来源:Yole,中金公司研究部

供给:SK海力士、三星电子、美光科技三大家竞争进入白热化,各自发力HBM3E产品。在近期英伟达GTC期间,三大家均展出了各自的最新HBM3E产品,在堆叠层数、单颗cube容量、带宽上逐步对齐。SK海力士HBM3E在芯片密度、IO速率、带宽、最大容量方面有明显提升。

图表4:各家存储厂厂商在HBM上的路线图

资料来源:Yole,各公司官网,中金公司研究部

HBM供应链拆解:制造商、设备商、材料商

HBM制造仍然以IDM为主,但国内发展了出前后道分工的模式。GPU芯片的制造过程分布在IDM、晶圆厂和封装厂。一般而言,xPU(CPU、GPU等)、HBM是片上的主要有源器件,由IDM、晶圆厂、存储厂进行制造;无源器件中,Interposer、RDL可由晶圆厂、IDM、封装厂制造;基板和PCB则由对应的厂商供应。最终的合封通常在封装厂制造并进行测试。

我们认为,OSATs对于HBM封装工艺在堆叠技术和封装处理工艺上有一定积累,但是对于晶圆处理上与晶圆厂和IDM有一定差距。目前来看,考虑到全球采用HBM和Chiplet堆叠技术的HPC设计公司并不多,从总量上看还是没有做消费电子和PC链条上的芯片更大,因此单纯的做HBM封装或Chiplet封装对于超大型封测厂来说并不是当前最优经济选择,但是随着未来AI芯片尤其是服务器的总量需求增加,我们认为一些成熟制程晶圆厂、大型OSATs也会逐步开始对高端先进封装进行投资。

图表5:存储行业封装参与者

资料来源:各公司官网,中金公司研究部

EUV光刻机已广泛使用在DRAM制造中。三星电子于2020年首次将EUV应用于1z DRAM的生产中,SK海力士宣布在2021年2月完成了首条配备EUV工具的生产线,用于在2021年下半年生产1a DRAM。在未来几年,SK海力士和三星预计将生产出采用高数值孔径EUV的DRAM样品,为2026年之后大规模生产针对节点尺寸≤10纳米的产品做准备。美光科技一直在使用自对准多重图案化方法如SAQP,但在小于1β节点的情况下,多重图案化方法和沉浸式光刻的工艺控制和生产稳定性变得越来越困难,故美光或将从1γ节点开始引入EUV技术。

刻蚀设备占比在DRAM制造产线中不断提升。根据Yole估算,DRAM制造的设备支出中,超过70%可能会集中在沉积和蚀刻系统上。光刻的支出可能会降至20%以下。全球市场来看,Lam,TEL和AMAT几乎垄断全球干法刻蚀设备市场,2020年三者干法刻蚀设备的全球市占率分别为46.71%,26.57%和16.96%,合计占比超90%。其中,硅基刻蚀主要被Lam和AMAT垄断,介质刻蚀主要被TEL和Lam垄断。

图表6:HBM前道设备主要供应商

资料来源:各公司官网,中金公司研究部

HBM的中后道制造环节主要围绕凸块、芯片表面布线、基板布线、不同层之间的键合贴装展开。所用设备和材料与前道基本一致,其中键合是较关键步骤之一。

Bumping(凸块):倒装是先进封装中的核心工艺,而Bumping又是倒装流程中重要的工艺,是Chiplet的第一步。Bumping指的是在晶圆表面预留的位置(通常是Pad)生长焊球,通过焊球实现与基板、PCB的连接。Bumping的材料一般有锡、铜、金,其制造过程与前道晶圆制造步骤基本相似,主要涉及PI涂敷、光刻、溅镀、电镀、清洗、回流焊等工艺。Bumping的参数主要分为直径、高度和密度,随着芯片复杂度提升,引脚数相应提升,导致Bumping直径更小、高度更低、密度更高,对应难度更高。

TSV(Through silicon via, 硅通孔):主要用于立体封装,在硅片中进行垂直方向上的打孔,为芯片起到电气延伸和互连的作用。按照集成类型的不同,TSV分为2.5D和3D,2.5D TSV位于中介层中,而3DTSV贯穿芯片本身,直接连接上下层芯片。TSV连接方式大量应用于高端存储器堆叠、Interposer中。

全球来看,涉及中道制造设备的公司与前道制造设备供应商类似,其中在光刻工艺步骤中,AMAT、TEL、SUSS、Veeco、PSK、DNS等公司均有涉及,键合/解键合、TSV、CMP和检测过程的国产厂商已经占据一定份额。国内前道设备制造商如北方华创、盛美上海、芯源微、芯碁微装、中科飞测、华卓精科、上海微电子均已在中道制造设备中有大量产品出货,并且在上述公司发展初期为收入增长提供了较大的支撑。且我们认为在先进封装的快速发展趋势下,中道制造的重要性逐步凸显,对于中道设备的需求将持续提升,我们认为未来仍将是半导体装用设备和零部件厂商的重要业绩来源。

HBM多层堆叠结构提升工序步骤,带动封装设备需求持续提升。HBM堆叠结构增多,要求晶圆厚度不断降低,这意味着对减薄、键合等设备的需求提升;HBM多层堆叠结构依靠超薄晶圆和铜—铜混合键合工艺增加了对临时键合/解键合等设备的需求;各层DRAM Die的保护材料也非常关键,对注塑或压塑设备提出了较高要求。

图表7:HBM中道制造产业链

资料来源:Wind,各公司公告,中金公司研究部

图表8:HBM后道制造产业链

注:统计截至2024年4月1日
资料来源:Wind,各公司公告,中金公司研究部

HBM对堆叠高度、散热有明确要求,当前市场主流键合方式依然是TCB压合以及MR方案,我们认为未来混合键合或将成为主流方案,但其成本和时间仍相对模糊。对于HBM而言,以下几个方面是堆叠所追求的:1)更短互连和更大单cube容量;2)更好的散热;3)维持单cube高度不变。

MR- MUF(Mass reflow,批量回流焊)

MR-MUF是海力士的高端封装工艺,通过将芯片贴附在电路上,在堆叠时,在芯片和芯片之间注入液态环氧树脂塑封(Liquid epoxy Molding Compound,LMC)液态保护材料并硬化。与传统的每个芯片堆叠后铺设薄膜材料的方法相比,MR技术在热散布效率、生产效率和成本效益方面具有一定优势。SK海力士已将MR技术应用于其HBM3E产品中。

图表9:SK海力士 Mass reflow 制造流程

资料来源:SK海力士官网,中金公司研究部

TCB(Thermo-Compression Bonding,热压键合)

TCB的核心是通过热压键合技术将芯片与基板固定在一起,从而实现高密度的芯片封装。随着焊接凸点间距不断减小、基板和晶片厚度不断下降,传统的回流焊工艺出现了翘起、局部桥接、芯片偏移等缺陷,TCB工艺能很好地解决这些问题。

图表10:TCB工艺流程

 

资料来源:Li, J. H. et al.《The thermal cycling reliability of copper pillar solder bump in flip chip via thermal compression bonding》(2020),中金公司研究部

图表11:ASMPT的LPC TCB工艺流程

资料来源:Li, Ming et al.《A high throughput and reliable thermal compression bonding process for advanced interconnections》(2015),中金公司研究部

HB(Hybrid bonding,混合键合)

HB工艺能提供更高的互连密度,因此对于15μm以下的凸点间距,HB工艺正逐渐取代传统的die-to-die焊接工艺。传统焊接工艺的凸点使用覆盖了焊料的铜柱,而HB工艺使用和表面平行的金属片,提高了互连密度和效率。HB工艺主要包含die-to-wafer和wafer-to-wafer两类键合,wafer-to-wafer的工艺更加成熟,但需要每个芯片尺寸相同,且整体良率较低,因此和die-to-wafer工艺相比缺乏一定灵活性。根据ZDNET,JEDEC(国际半导体标准化组织)可能放宽第六代HBM4的堆叠高度,在对应厚度上MR和TC方案仍可以继续使用,虽然HB方案可提供更窄的pitch间距和更薄的高度,考虑到其普及率不高,以目前较高的价格,大规模应用可能有所推迟。

图表12:Hybrid Boding工艺

 

资料来源:A. Elsherbini et al.《Enabling Hybrid Bonding on Intel Process》(2021),中金公司研究部

图表13:Hybrid Bonding工艺在3D封装中的应用

资料来源:A. Elsherbini et al.《Enabling Hybrid Bonding on Intel Process》(2021),中金公司研究部

DRAM的Scaling(缩放)挑战和堆叠方式

DRAM厂商和研究机构迫切地想突破新工艺和寻找DRAM更高极限的新工艺。平面DRAM的scaling在随着摩尔定律放缓和物理极限的限制也有所放缓,随着EUV的应用,平面DRAM仍有一定scaling空间。但为了持续的提高密度并降低每bit价格,各类研究如调整晶体管的制造方式、采用单体3D-DRAM结构等正在进行。

延续Scaling方向:Planer DRAM采用EUV和HKMG制造技术。我们观察到,DRAM的Scaling本预计在几年前停止,但新的技术解决方案使其延续到1β节点,目前1β正进入早期生产阶段。规模化成本的增加和基础物理的限制使得DRAM制造商在平面方向上的Scaling变得越来越具有挑战性。我们认为,新材料、新设备、新器件架构(如单体3D DRAM)以及新工艺技术将是长期延续DRAM Scaling所必需的。

延续Scaling方向:4F2单元结构。4F²单元结构被看作是减少芯片面积的主要选择之一,与现有的6F²结构相比,可以减少大约30%的面积,而无需使用更小的光刻节点。2023年5月,三星成立研发团队开发10纳米节点(如1d)及更小节点的DRAM的4F²结构。4F² DRAM很可能会采用垂直电容和垂直晶体管。

图表14:同等线宽下,4F2相较于6F2可节省约30%晶圆面积

 

资料来源:Spessot, A., & Oh, H. (2020). 1T-1C Dynamic Random Access Memory Status, Challenges, and Prospects. IEEE Transactions on Electron Devices, 67, 1382-1393.,中金公司研究部

延续Scaling:从平面结构走向3D DRAM。平面DRAM的Scaling能力受限,随着晶体管尺寸的不断减小,电容器的尺寸也必须相应缩小,导致存储电荷能力下降,所以需要发展3D DRAM,通过垂直堆叠存储单元层来显著提高存储密度和性能。

另一种3D DRAM结构与3D NAND 非常相似,即互补金属氧化物半导体键合阵列(CMOS-Bonded Array,简称CBA)。DRAM架构的外围电路和存储器阵列先在不同的晶圆上进行加工,然后结合在一起。该DRAM架构很可能会在4F²单元引入时(Yole预计2025年后)被采用。目前来看,将CBA与6F²单元结合使用并不方便。

图表15:电容为横向排布的DRAM

资料来源:NEO半导体,中金公司研究部

图表16:CBA(CMOS bonded array)结构与3D-stacking NAND 结构类似

资料来源:Yole,中金公司研究部

HBM与GPU上下堆叠方式。AMD曾经展出过的存储器与GPU上下堆叠的构造方式。在2023年ISSCC的演讲中,AMD详细介绍了提高数据中心的能效,并在半导体制造节点进步放缓的情况下,设法跟上摩尔定律的步伐的方法,即用多芯片模块(MCMs)的形式将HBM与GPU上下堆叠,其中逻辑芯片和HBM堆栈位于硅中介层的上方。

图表17:AMD展示不同的存储器与计算芯片的组合方式

资料来源:AMD在2023年ISSCC的演讲,中金公司研究部

本文作者:中金张怡康团队,本文来源:中金点睛,原文标题:《AI浪潮之巅系列:HBM成为存储战略要地》

分析师

张怡康 分析员 SAC 执证编号:S0080522110007 SFC CE Ref:BTO172

胡炯益 分析员 SAC 执证编号:S0080522080012

唐宗其 分析员 SAC 执证编号:S0080521050014 SFC CE Ref:BRQ161

江磊 分析员 SAC 执证编号:S0080523070007 SFC CE Ref:BTT278

彭虎 分析员 SAC 执证编号:S0080521020001 SFC CE Ref:BRE806

石晓彬 分析员 SAC 执证编号:S0080521030001

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。