摘要
1.AI云端算力市场规模的测算:我们预计2023~2025年训练型和推理型AI加速芯片可实现的增量市场规模分别为72亿美元和168亿美元,对应服务器的出货增量分别为7.5万台和17.5万台,对应服务器的市场规模分别为149亿美元和348亿美元。考虑到AI应用的持续推广和活跃用户数的大幅提升,长期来看,我们认为推理型AI加速芯片和推理型服务器仍有望保持高增长。
2.AI服务器产业链拆解:AI服务器核心组件按价值量由高到低依次为GPU、DRAM、SSD、CPU、网卡、PCB、高速互联芯片和散热模组等,按7.5万台训练型和17.5万台推理型服务器测算,对应市场规模分别为240亿美元、88亿美元、48亿美元、34亿美元、5亿美元、3亿美元、2.5亿美元和1.5亿美元。相较普通双路服务器,我们测算AI服务器核心器件单机价值量提升倍数由高到低依次为GPU(24x)、DRAM(5.3x)、板内互联接口芯片(3.3x)、电源管理(3x)、散热(3x)、PCB(2.4x)、网卡(2.2x)和SSD(2x)。
3.我们认为未来AI算力领域呈现三点发展趋势:(1)需求端:从GPT-4仅5个月内就实现对GPT-3.5的迭代并推广上市来看,我们认为图片和视频类AIGC应用的成熟节奏在加快,将推动算力加速升级。(2)供给端:算力升级背后是更高的硬件资本支出,未来HBM/存算一体等新技术有望降低算力成本,伴随而来的是新市场的高速增长,例如美光预计全球HBM市场有望从2021年10亿美元提升至2025年70亿美元;(3)除云端算力外,我们认为AI将带来消费类硬件终端的投资机会,建议重点关注算力芯片、射频通信芯片、摄像头等功能芯片,以及PCB、电子元器件和功能件等。
AI浪潮之巅:新一轮科技革命
自2022年下半年以来AIGC(AI-Generated Content,人工智能生成内容)实现技术和产业端的快速发展。2022年10月,初创企业Stability AI发布开源模型Stable Diffusion,可以根据提示词实现文生图的功能;2022年11月,OpenAI(成立于2015年)发布ChatGPT,将大型语言生成模型和人机对话推向新高度。除初创型企业之外,全球各大科技企业、包括互联网云计算大厂也都积极拥抱AIGC。
AIGC主要依赖大模型,如Transformer、BERT、GPT系列等,通常包含数十亿至数万亿个参数,需要庞大的数据集进行训练,AI算力需求指数级增长。以OpenAI GPT系列的版本演进为例,从GPT-1(2018.06)到GPT-2(2019.02)、GPT-3(2020.05)、GPT-3.5(2022.11)、GPT-4(2023.03),参数量和语料库持续升级。未来,随着大模型走向多模态,即结合图像、语音、文本等多种数据类型的学习,AIGC技术和应用还有望持续快速发展。
图表1:AIGC产业生态体系的三层架构(左)和典型的AI预训练模型(右)
资料来源:IDC,腾讯研究院《AIGC发展趋势报告2023》,中金公司研究部
AI时代数据和算力都是巨量的。英伟达高性能AI系统DGX H100为16PFLOPS FP16,32个DGX H100系统构成的DGX SuperPOD集群为1EFLOP FP8,相当于千亿台PC算力集合。通用算力用于常规应用,计算量小,只消耗少量算力;而HPC(高性能计算)和AI(人工智能)要调用大量计算资源。因此,我们认为2023年有望成为AI算力需求升级的重要拐点。
AI云端算力占主要需求,未来边缘侧AI算力需求也有望高增长。云端是指利用数据中心的强大算力,对海量数据进行大模型训练和推理;边缘侧是在终端设备上利用训练好的模型进行推理,进而开发丰富多样的应用类型。GPT-4多模态大模型在各种专业和学术基准上已具备与人类水平相当表,未来有望赋能垂直应用,包括但不限于自然语言生成、图像生成、视频生成、音乐生成、艺术创作等领域。Stability AI CEO表示,随着GPU和算力的提升,其开发的Stable Disffusion多模态大模型可能一年之内就能在智能手机上运行,未来新技术也将在更多低价的设备上进行训练,AI推动的创意快速涌现。
互联网云厂商是目前AI云端算力的主要需求方。OpenAI使用多个云计算提供商的服务来支持GPT的训练和推理,包括亚马逊AWS、谷歌云、微软Azure和IBM云(根据ChatGPT回答)。Trendforce预估2022年搭载GPGPU的AI 服务器年出货量约13万台,占整体服务器采购量的1%。其中,互联网大厂是核心采购来源方。
图表2:2022年全球AI服务器和整体出货量对比
资料来源:TrendForce,中金公司研究部
图表3:AI服务器需求分布(2021年)
资料来源:TrendForce,中金公司研究部
考虑到近期OpenAI公司推出GPT-4多模态大模型、国内互联网厂商加速推进AI大模型布局以及AI插件应用快速放量,本篇报告旨在进一步量化测算AI云端算力的增量市场,并首次提出AI服务器产业链全景研究框架,展望算力行业发展趋势。
量化分析:加速芯片和服务器市场显著增长
AI计算由云端和边缘端两部分构成。从商用成熟的节奏上,我们认为云端的模型训练和推理先行,然后是边缘端的算力升级;从算力需求规模看,根据华为,边缘算力将大于中心算力。本篇报告基于商用节奏和业务兑现确定性的考虑,重点量化云端算力需求。
在AI云端场景下,运算对象是大量的类型统一的数据,以并行运算为主,算力衡量指标为每秒浮点运算数FLOPS,典型的硬件芯片代表是GPU(图形处理器),此外还包括NPU、DPU等;而常见的CPU(中央处理器)由于计算单元只占小部分,大量空间放置存储和控制单元,并行计算能力上很受限制,算力衡量指标为每秒钟可执行操作数OPS。
云端计算包括训练和推理两个过程,首先是对模型的训练,然后用训练出的模型进行推理。我们尝试测算两个过程的算力资源需求,并提出以下模型和假设条件:
► 训练:属于非实时业务,所耗时间可能数天也可能数月,具体取决于模型参数量的多少和算力芯片性能的高低,因此在算力芯片和服务器的投入上,属于用户对阶段性模型训练需求的一次性成本。在具体测算过程中,我们给出4点假设:①典型AI厂商单一大模型训练所需的算力投入,分保守、中性和乐观三种情景;②具有大模型训练需求的龙头AI厂商的数量;③假设龙头厂商占据模型训练训练80%的算力需求;④参考英伟达DGX A100/H100系统配置,假设每台服务器配置8张GPU;
► 推理:属于实时业务,需要响应客户端触发的实际需求,算力需求取决于活跃用户数和设计并发数的级别,因此算力芯片和服务器的投入,会随着模型的商用流行度以及吸引的活跃用户数持续增加。在具体测算过程中,考虑到大模型的应用生态需要一段时间才能成熟,我们区分短期(3年内)和长期(5年左右)两种情景,并给出3点假设:①活跃用户数及其带来的最大并发处理次数,分保守、中性和乐观三种情景;②单Query所需Token数量和单Token所需时间;③容忍延时;④参考英伟达DGX A100/H100系统配置,假设每台服务器配置8张GPU。
我们认为,以上假设条件中的关键变量会随着GPT模型的升级和应用的普及而持续高增长。自2023年2月以来,GPT的热度持续提高:
2023年2月初微软于将GPT嵌入Bing,根据Data.ai最新数据,嵌入GPT后Bing的app下载量增长近8倍);3月14日OpenAI发布ChatGPT升级版,根据官网介绍,该升级版集成的GPT-4是一个大型多模态模型,相较于上一代,其输入既可以是文字,也可以是图像;3月16日中国互联网大厂百度正式发布文心一言,对标ChatGPT;3月23日OpenAI宣布为GPT引入插件,首批包括13个第三方插件和2个自有插件,功能覆盖衣食住行、工作和学习等多领域,至此OpenAI在GPT应用侧再下一城。
我们认为以上积极催化并非一时现象,后续随着大模型、终端应用和产业生态的逐步成熟,一方面,参与大模型训练和推理的厂商数量将持续增长,从Tier-1到Tier-2云厂商,再到运营商、金融客户和汽车客户等等;另一方面,模型本身的参数量、用户访问量也有望显著提升;如果更进一步地考虑到各厂商之间的算力竞争,以及用户大幅增长之后产生的访问并发问题,硬件端芯片和服务器的采购需求也会大幅增长。
因此,基于以上算力模型和假设条件,以英伟达A100 GPU等效算力为基准,我们对AI云端算力市场的测算结果如下(2023~2025年合计实现的增量):训练型AI加速芯片需求增量为60万张,对应市场规模为72亿美元,训练型服务器需求增量为7.5万台,对应市场规模为149亿美元;推理型AI加速芯片需求增量为140万张,对应市场规模为168亿美元,推理型服务器需求增量为17.5万台,对应市场规模为348亿美元。
更长期而言,考虑到AI应用的推广和活跃用户数的大幅提升,推理型AI加速芯片和服务器市场规模仍有望保持高增长。
图表4:AI云端GPU及其他加速卡芯片、对应服务器增量市场规模测算
注:表格中服务器台数仅基于英伟达A100等效算力测算,不代表中长期实际出货台数
资料来源:英伟达,中金公司研究部
我们认为未来AI算力领域未来呈现三点发展趋势:(1)需求端:从GPT-4仅5个月内就实现对GPT-3.5的迭代并推广上市来看,我们认为图片和视频类AIGC应用的成熟节奏在加快,将推动算力加速升级。(2)供给端:算力升级背后是更高的硬件资本支出,未来HBM/存算一体等新技术有望降低算力成本,伴随而来的是新市场的高速增长,例如美光预计全球HBM市场有望从2021年10亿美元提升至2025年70亿美元;(3)除云端算力外,我们认为AI将带来消费类硬件终端的投资机会,建议重点关注算力芯片、射频通信芯片、摄像头等功能芯片,以及PCB、电子元器件和功能件等。
图表5:供给侧,新技术赋能产品迭代,以英伟达产品矩阵为例,H100峰值计算吞吐量约A100的6倍
资料来源:英伟达官网
国产AI云端训练和推理芯片厂商参与者众多,大部分涌现于2017年以后。(1)华为Atlas 300T训练卡(型号9000)基于昇腾910 AI芯片,单卡算力280TFLOPS FP16;(2)寒武纪思元370单卡算力256TOPS INT8,是第二代产品思元270算力的2倍;(3)百度昆仑芯2代AI芯片单卡算力为256TOPS INT8 / 128TFLOPS FP16;(4)海光DCU的优势则体现在生态兼容性,其ROCm GPU的计算生态和英伟达CUDA[1]高度相似,被称为“类CUDA”,有利于用户可快速迁移,2022年海光深算一号DCU已商业化应用,深算二号正在研发中。
图表6:AI芯片国产厂商梳理(截至2022年10月)
资料来源:海光信息招股说明书,中金公司研究部
图表7:AI芯片国产厂商梳理
资料来源:Wind,Jon Peddie Research,中金公司研究部
AI服务器竞争格局方面,当前互联网云计算厂商的白牌服务器占主导,未来随着边缘侧应用的成熟,品牌服务器厂商份额也有望提升。AI服务器分为品牌和白牌两类。所谓白牌,是由互联网云计算大厂在云计算的规模效应下,与传统的服务器代工厂EMS企业合作开发定制化的“白牌”服务器;所谓品牌,是由专门的服务器厂商开发的面向企业、政府、运营商和金融等销售的通用型服务器。2021年全球白牌服务器市场,鸿海以43%的份额位列行业第一,前五大厂商均为中国台湾厂商,合计份额为93.4%,排名第二至第五的依次为广达(17%)、纬创(14%)、英业达(12.8%)和美超微(7.6%);2021年全球AI服务器品牌市场,浪潮信息以20.9%的份额位列第一,排名第二至第五依次为戴尔(13%)、HPE(9.2%)、联想(5.8%)和IBM(4.1%);国内AI服务器市场,浪潮以52.4%的份额位列行业第一,排名第二至第五的依次为宁畅(7.9%)、新华三(7.8%)、华为(7.7%)和安擎(6.8%)。
图表8:不同商业模式服务器厂商竞争格局
资料来源:各公司官网,IDC,TrendForce,Digitimes Research,中金公司研究部
产业链解析:计算、存储和传输,算力水桶的三块木板
AI服务器核心组件按价值量由高到低依次为GPU(图形处理器)、DRAM(动态随机存取存储器)、SSD(固态硬盘)和RAID卡、CPU(中央处理器)、网卡、PCB、高速互联芯片(板内)和散热模组等,按如上25万台训练和推理服务器合计量测算,市场规模分别为240亿美元、88亿美元、48亿美元、34亿美元、5亿美元、3亿美元、2.5亿美元和1.5亿美元。相较普通双路服务器,我们测算AI服务器核心器件单机价值量提升倍数由高到低依次为GPU(24x)、DRAM(5.3x)、板内互联接口芯片(3.3x)、电源管理(3x)、散热(3x)、PCB(2.4x)、网卡(2.2x)和SSD(2x)。
图表9:普通和AI服务器价值量拆解及对比、AI服务器不同出货量假设下各环节的市场规模测算
注:普通服务器不存在明确的产品界定,为与英伟达DGX A100系统合理比较,我们假设普通服务器采用与A100同等规格的CPU配置,按照CPU占整机成本36%假设,据此推算服务器单机价值量约4万美元
资料来源:IDC,英伟达,中金公司研究部
图表10:服务器产业链
资料来源:Wind,腾讯研究院《AIGC发展趋势报告2023》,中金公司研究部
CPU:AI服务器中占比降低,但平台持续迭代
CPU负责数据的处理和运算,围绕微架构和制造工艺持续升级换代。2022在Intel占据全球服务器CPU 70%以上的市场份额。根据Intel产品路线规划图,通常每2~3年进行一次产品迭代,新产品价格提升空间约30%;且新产品商用速度快,我们认为上市后有望实现50%以上的老产品替代。从Intel数据中心(DCG)业务收入来看,通常新产品上市会带动相关业务持续2~3个季度的高增长。
CPU平台升级带动服务器主板和其他配件同步换代,Intel在服务器市场历史积累深厚,因此短期来看,Intel服务器CPU平台的升级,是影响服务器硬件产业链周期性变化的关键因素。主板方面,包括PCIe总线、内存、GPU和SSD。CPU内部集成PCIe控制器和内存控制器,PCIe总线点对点连接CPU与各类高速设备,包括GPU、SSD和网卡等,伴随PCIe升级至5.0,新一代CPU平台产品将兼容PCIe5.0标准,带动各类高速设备同步升级;而内存将从DDR4型号升级至DDR5,相关厂商或将逐步进入量产阶段。
Intel以Xeon为品牌名称持续推出系列产品,形成平台、子代和具体型号的递进关系:如已经推出Brickland、Grantley、和Purley和Whitley平台;每代平台产品有多个子代,视CPU架构、工艺、PCIe控制器和内存控制器的不同而有差异:例如,自2017年7月规模商用的Purley平台包括SkyLake和CascadeLake两代;各个子代拥有多种型号名称,2017年Purley平台将产品型号命名方式由此前连续使用四代的E7/E5变为“至强可扩展处理器(Intel Xeon Scalable Processor,SP)”。新一代Eagle Stream平台规划于2021年发布,但实际有所延期(根据深南电路0029.16.SZ公告)[2],我们认为2023年Eagle Stream平台有望进入规模商用阶段。
图表11:Intel服务器CPU平台及产品升级规划
资料来源:英特尔官网,中金公司研究部
市场竞争格局方面,服务器CPU架构包括X86、ARM和MIPS等,x86为当前服务器CPU主流架构,几乎占据目前服务器全部市场份额,代表性厂商为Intel和AMD,2022年市占率分别为71%和20%。长期来看,一方面,AMD在X86架构下产品进度势如破竹;另一方面,ARM架构有望发挥在移动端市场的份额优势,借力端/云协同,抢占服务器市场更多份额。
存储:容量大幅提升,HBM等新技术快速发展
内存(DRAM)和硬盘(NAND为核心成本)是服务器存储的功能模块,美光预计到2025年服务器DRAM和NAND需求相较2021年分别实现2倍和3倍提升,而AI服务器DRAM和NAND容量是普通服务器的8倍和3倍。根据美光官网测算,数据中心整体存储需求约占存储总市场的31%,2021年数据中心DRAM和NAND分别约300亿美元和200亿美元,预计到2025年分别增长至500亿美元和300亿美元,预计到2030年分别增长至1000亿美元和700亿美元,2021年~2025年合计CAGR为14%。
图表12:服务器和数据中心存储容量的升级趋势
资料来源:美光官网,中金公司研究部
内存:容量约6~8倍提升,HBM市场显著增长
AI服务器中CPU和GPU协同工作,由于GPU比CPU拥有更多的算术逻辑单元,可以更好地发挥并行计算的优势,AI服务器中主要由GPU进行模型训练。在该协同工作模式下,CPU、GPU和DRAM之间的通信方式为:第一步,将输入数据从系统内存拷贝到显存,第二步,CPU指示GPU处理数据,第三步,GPU并行完成一系列计算,第四步,将计算结果从显存拷贝到内存。
图表13:AI服务器模型训练示意图
资料来源:英伟达官网,中金公司研究部
由于训练需要存储中间激活,通常会比参数数量增加数倍内存,美光认为AI服务器的DRAM容量是普通服务器的8倍。内存DRAM可以分为DDR系列、GPDDR系列、LPDDR系列和HBM系列等:DDR为普通DRAM,主要用于普通PC;GPDDR是一种与GPU同时使用随机存取存储器,主要用于高带宽需求计算机;LPDDR主要用于便携设备。HBM(高带宽存储)显存是一种适用于高性能和AI训练计算的新型内存芯片,通过硅通孔技术进行芯片堆叠,并与GPU位于同一物理封装内,可节省能耗和占用空间,便于在系统中安装更多GPU。
图表14:传统显存GDDR和HBM的区别(左)、HBM的原理示意图(右)
资料来源:SK Hynix官网,英伟达官网,中金公司研究部
传统DDR系列围绕传输速率和运行效能持续升级,但由于市场需求量大、且产品相对标准化,行业价格具有一定的周期性,并且呈现寡头垄断的竞争格局。目前DDR和DDR2已逐渐被淘汰,较为常见的技术架构是DDR3、DDR4和LPDDR系列,同时行业内各大厂商正致力于DDR5的研发、量产和上市。根据IC Insights数据,自2013年DRAM市场规模总体上升,2022年全球DRAM市场规模达794.7亿美元,占存储市场56%。从行业周期性看,DRAM价格已相对稳定。
图表15:2021年DRAM各厂商市场份额
资料来源:IC Insights,中金公司研究部
图表16:2016.01~2023.02内存价格指数变化
资料来源:中国产业信息网,中金公司研究部
不同与内存模组,内存接口芯片领域中国厂商具备显著的全球竞争优势。澜起科技是全球可以提供DDR5第一子代的量产产品的三大厂商之一,另两个分别是瑞萨电子和Rambus。内存接口芯片是服务器内存模组的核心逻辑器件,作为服务器CPU存取内存数据的必由通路,主要作用是提升内存数据访问的速度及稳定性。2016年来服务器内存接口芯片市场规模快速增长,预计2022年为7.2亿美元,预计到2025年增长至14.6亿美元。为了满足不断增长的AI处理对更高带宽、更高容量内存模组需求,JEDEC目前正在制定服务器MCR内存模组相关技术标准,可提供双倍带宽,第一代产品最高支持8800MT/s速率,JEDEC指引在DDR5世代还会有两至三代更高速率的产品。
图表17:内存接口芯片的发展演变
资料来源:澜起科技公告,中金公司研究部
HBM方面,SK Hynix与AMD合作,是全球最早推出HBM产品、打破技术限制并引入行业全新范式的厂商,分别于2014年、2018年、2020年和2022年推出HBM1、HBM2、HBM2E和HBM3。根据美光官网指引,2021年全球HBM市场规模为10亿美元,预计到2025年和2030年分别达到70亿美元和130亿美元,CAGR为30%。SK Hynix占据技术和产业化的先发优势,三星和美光紧随其后,目前国产厂商同样相对落后。
根据英伟达官网,NVIDIA P100是全球首款支持高带宽HBM2显存技术的GPU架构,此后V100、A100均进一步提供了更快速、更高效更高容量的HBM2。最新的SXM5 H100和PCIe H100 GPU中分别应用了高性能HBM3和HBM2e DRAM技术,内存带宽分别超过3 TB/s和2 TB/s。
图表18:SK海力士HBM技术开发路线图(左)和HBM市场规模(右)
资料来源:SK Hynix官网,美光官网,中金公司研究部
硬盘:容量约2~3倍提升,SSD较HDD更具优势
硬盘满足大容量的长时存储需求,在服务器中用于数据缓存驱动和操作系统驱动,英伟达DGX H100系统各配备了8块3.84TB硬盘和2块1.92TB硬盘用于以上两类驱动。服务器硬盘一般与RAID卡搭配使用,RAID技术将多块独立的硬盘按不同的方式组合形成一个硬盘组,实现高速率存取、冗余容错、热备等功能。
SDD固态硬盘具备更高的存储密度,与HDD机械硬盘相比,SSD无机械装置,通过电信号传递的方式实现更高的访问速度、更大的存储密度及更低的功耗水平,有望加速对HDD的替代。SSD由硬件组件与固件两部分组成,硬件包括主控芯片、闪存、缓存和固件组成,主控芯片承担数据读取和写入功能;闪存(NAND Flash)是数据存储的核心介质和载体;缓存(DRAM)用以降低SSD的读写延迟,固件是包含核心操作系统和应用软件的集合体。从成本构成看,NAND Flash是SSD的核心硬件,占SSD总成本的70%以上。根据美光官网信息,2021年数据中心NAND市场需求小于2000亿GB,预计到2025年有望达到5000亿GB,到2030年有望达到24,000亿GB。
根据TrendForce,2022年前五大SSD品牌厂商分别为三星电子、SK Hynix、美光科技、铠侠和西部数据,主因以上厂商同时具备NAND Flash产品能力。而SSD零售市场品牌较多,主因生产相对容易,2021年全球零售渠道出货前五的品牌分别为Kingston、ADATA、Kimtigo、Lexar和Netac。A股上市公司江波龙旗下品牌Lexar出货量位列零售渠道全球第四(根据TrendForce,2021年)。
图表19:SSD和NAND竞争格局(1Q22)
资料来源:TrendForce,中金公司研究部
图表20:数据中心NAND总需求
资料来源:美光,中金公司研究部
图表21:存储器国产厂商梳理
资料来源:Wind,中金公司研究部
互联接口:PCIe持续升级,新技术不断涌现
芯片互联:提升信号传输带宽,助力算力升级
AI算力的提升方式,除了依靠单GPU性能升级外,还需要高速的芯片互联技术、系统互联技术作为支撑,从而提升GPU算力的可扩展性,形成强大的集群算力。围绕高速和可扩展性,板间芯片互联技术、系统间服务器互联芯片性能需要同步升级。
芯片之间的高速信号传输需要专门的系统总线协议来实现,以传输带宽的高低为性能指标。传统的系统总线为PCIe(PCI-Express,peripheral component interconnect express,简称PCIe)[4],一种高速串行计算机扩展总线和串行接口标准。
英伟达则针对异构计算场景则开发出了NVLink。相较于传统的PCIe解决方案,NVLink可以为多GPU系统提供更加快速的系统内互联解决方案。根据官网,NVLink可为多GPU系统配置提供高于以往1.5倍带宽,以及增强的扩展性,单NVIDIA H100 Tensor Core GPU支持多达18个NVLink连接,总带宽为900 GB/s,是PCIe 5.0带宽的7倍。
图表22:PCIe作为通信总线的原理
资料来源:英特尔官网
图表23:NVLink作为通信总线的原理
资料来源:英伟达官网
进一步地,英伟达开发出NVSwitch和NVLink-C2C:借助 NVSwitch,NVLink连接可在节点间扩展,以创建多节点GPU集群,形成数据中心大小的GPU,在服务器外部添加第二层NVSwitch,NVLink可以连接多达256个GPU,提供57.6 TB/s多对多带宽,快速完成大型AI作业;NVLink-C2C作为芯片到芯片、裸片到裸片的互联技术,支持定制裸片与英伟达GPU、CPU、DPU、NIC和SOC之间的互联,为数据中心打造新一代的系统级集成。
基于以上分析,我们有如下几点结论:
(1)市场规模:NVLink、NVSwitch和NVC-C2C是英伟达提升自生GPU算力扩展性的配套技术,作为芯片组生态形成了强大的护城河,目前由于该芯片组主要用在AI服务器中,市场规模相对有限;
(2)竞争格局:除英伟达在GPU 领域的闭环生态优势外,传统CPU生态中的PCIe接口芯片及其他高速互联芯片市场相对开放,以用于解决PCIe升级至4.0之后链路插损提升问题的PCIe Retimer芯片为例,该市场规模约1亿美元。
图表24:PCIe Retimer的应用
资料来源:PCI-SIG,中金公司研究部
网络互联:多技术并存,英伟达收购Mellanox完成业态布局
服务器通过网卡与交换机互联,将数据流通过数据帧交换方式传输到目的地。一个网卡主要包括物理层和数据链路层。物理层定义了数据传送与接收所需要的电与光信号、线路状态、时钟基准、数据编码和电路等,并向数据链路层设备提供标准接口,物理层的芯片为PHY;数据链路层则提供寻址机构、数据帧的构建、数据差错检查、传送控制、向网络层提供标准的数据接口等功能,数据链路层的芯片为MAC控制器。
网络设备的互联技术包括以太网Ethernet、InfiniBand和Omnipath等。InfiniBand凭借高带宽、低延时的优势在AI数据中心和AI服务器广泛使用。传统服务器和数据中心互联使用以太网Ethernet建立路由,主要面向低速网络,而InfiniBand用软件定义的方法建立大规模的二层网络,用于服务器于存储系统、或者存储系统之间的互连。由于使用成本高,InfiniBand的应用场景仅限于AI和高性能计算。
目前最新的InfiniBand产品为Mellanox生产的HDR,可提供端到端200Gbps带宽,用于高性能计算和AI等场景,最大程度释放集群内计算潜能。NVIDIA 于2020年4月份完成对Mellanox的收购,将高性能网络技术与自身高性能计算技术相结合,提供更高的性能、更高的计算资源利用率。
图表25:算力集群的互联技术占比
资料来源:STH,中金公司研究部
图表26:InfiniBand速率升级趋势
资料来源:IBTA行业协会,中金公司研究部
PCB:不断降低介质损耗,保障信号高速传输
PCIe作为系统总线标准决定了服务器主板上芯片间的信号传输速率。随着PCIe标准迭代更新,速度不断翻倍,由于服务器的物理尺寸受限于工业标准并没有很大的变化,导致整个链路的插损预算从PCIe3.0时代22dB增加到PCIe 4.0时代28dB,并进一步增长到PCIe 5.0时代36dB。使用高速高多层印制电路板(PCB)、使用介质损耗更低的覆铜板(CCL)材料是解决PCIe信号链路插损问题的关键举措。
一方面,PCB层数越多,设计的灵活性越大,可以起到电路阻抗的作用,从而实现芯片组间高速电路信号的高速传输。另一方面,生产PCB的关键原材料CCL的Df越低,信号传输的损耗越小(具体对应关系如图所示)。
图表27:PCIe接口标准升级将带来主板PCB与上游材料CCL的升级
注:M2/4/6代表CCL龙头企业松下的产品型号,其中M代表Megtron
资料来源:Prismark,中金公司研究部
根据Prismark,2020年服务器PCB市场规模为78.04亿美元,占PCB总规模的9.7%。服务器/存储设备PCB以6层以上高多层为主,其中6层板、8~16层板和18层以上板分别占比23.70%、23.25%和9.9%,其次是芯片封装基板,占比13.1%,FPC和HDI分别占比9.7%和6.3%。即服务器/存储设备中6层以上刚性PCB合计市场规模约为28.5亿美元。
全球PCB厂商众多(根据NTI估计,超过2000家),但掌握多层高速工艺技术的有限。我国大部分PCB厂商仍以8层以下PCB为主。高速PCB相比于普通PCB的难度主要体现在两个方面:一方面,特定厚度的高速基材CCL,提高了PCB生产商对材料的应用要求;另一方面,PCB层数越多,对对位精度、阻抗控制等提出更高的要求,生产设备的配置要求也更高,工艺流程更加复杂,生产时间也更长。
全球前六大CCL厂商为建滔化工、生益科技、南亚塑料、松下电工、台光电子和联茂电子,2020年合计市场份额超过50%。高速CCL市场集中度相对更高,2021年前四家占据近65%份额,主要参与者包括松下、依索拉、联茂、台耀等(根据Prismark)。国内厂商也已实现技术突破。根据公司公告:(1)生益科技已开发出不同介电损耗全系列高速产品,并已实现多品种批量应用;(2)华正新材高速材料完成全序列产品开发,入库了服务器领域核心终端客户;(3)南亚新材是国内率先在各介质损耗等级高速产品全系列通过华为认证的内资企业。
高速CCL相比于普通CCL的难度主要体现在材料配方。CCL由增强材料(玻纤布等)浸泡树脂加工,并以一面或双面覆盖铜箔经热压而制成。一般而言,降低Df主要通过树脂、基板及基板树脂含量来实现。普通CCL主要使用FR-4等级的环氧树脂,高速CCL则需要在主体环氧树脂的基础上改性或加入PP0/PPE等树脂材料。各种树脂按照Df由大到小,依次包括环氧树脂、特殊树脂/改性特殊树脂、PTFE/碳氢化物树脂/PPE树脂。普通环氧树脂Df值在0.01以上,而PTFE和碳氢化合物树脂(两种典型的高频材料)Df值在0.002以下,高速材料所用树脂的Df介于高频材料和FR-4之间。
散热:风冷方案为主,液冷为辅
服务器散热系统的作用是将服务器内部产生的热量以及外界传递的热量吸收并发散到机柜之外,从而保证内部集成电路的正常温度,防止服务器部件受到高温损伤。主流散热技术包含风冷和液冷两大类方案。1)风冷方案由散热模组和系统风扇组成,散热模组负责将热量从发热器件转移到散热器,系统风扇则主动做功将带有热量的空气排出。风冷方案散热模组包括热管、均热板和3D VC三种,能够满足700W以内的散热要求。2)液冷方案通过液体直接导向热源带走热量,包括冷板式散热、浸没式散热和喷淋式散热三种。相对于风冷,液冷效率更高、更节能且噪音更小,但受泄露风险影响未大量投入使用。随着服务器功耗的不断提高和液冷技术的突破,部分高端服务器逐渐布局液冷散热方案。
英伟达H100提供SXM和PCIe两种规格,其中H100 SXM 版的散热设计功耗(TDP)达到700W,H100 PCIe为350W,上一代A100功耗为400W。据黄仁勋介绍,H100散热方案采用风冷和液冷两种设计。根据我们的产业调研,目前风冷和液冷两类散热方案的应用占比约为90%和10%。我们测算全球服务器2022年散热市场规模约30亿元,未来随着服务器需求量的增长和高性能处理器的应用占比提升,服务器散热市场有望持续增长。
图表28:服务器散热技术方案对比
资料来源:IDC、阿里巴巴、电子发烧友网,中金公司研究部
电源:采用模块化、冗余化设计
服务器内部主要使用模块化的开关电源,具有体积小、功率密度高、转换效率高和噪声低等优势。标称电流和电压、输出功率、效率和功率密度等是核心性能指标。除服务器之外,模块电源在基站、存储等ICT和工业设备中都有广泛使用。服务器代际升级,带动主板模块电源功率等级提高,目前平均750w,未来或将提高到1500w。我们测算全球服务器电源模块的市场规模约150亿元。
图表29:电源模块方案介绍(以1600W功率的电源为例)
资料来源:英飞凌官网,中金公司研究部
本文作者:彭虎(执业:S0080521020001)、薛辉蓉(执业:S0080521090004)、朱镜榆(执业:S0080121070370),来源:中金点睛,原文标题:《AI浪潮之巅系列:服务器,算力发动机》