中金:ChatGPT启新章,AIGC引领云硬件新时代

中金点睛 彭虎、陈昊等
中金认为,ChatGPT有望推动约65亿美元的增量市场空间,支撑AIGC应用蓬勃发展、及其背后海量参数的大模型训练的底层硬件基础设施有望成为“卖水者”。

ChatGPT是OpenAI推出的人机对话聊天机器人,月活用户数在上线两个月后便突破了1亿,成为史上用户数增长最快的消费应用。我们认为ChatGPT并非偶然、亦不会是个例,以此为代表的AIGC应用有望随着技术和商业模式的不断成熟,驶入发展的快车道,长期或将深刻影响社会生活的方方面面。

从投资角度来看,应用端的百花齐放意味着短期回报的不确定性,而支撑AIGC应用蓬勃发展、及其背后海量参数的大模型训练的底层硬件基础设施有望成为“卖水者”,凭借较高的确定性在投资层面先行。

结合ChatGPT在训练和推理过程中对算力、网络等硬件的需求,我们量化测算出在中性情景下,该应用有望推动约65亿美元的增量市场空间。展望未来,我们认为GPT-3向GPT-4的迭代、更丰富的AIGC应用出现,都将推动这一增量空间持续向上。建议关注AI芯片、AI服务器、高速率光模块/网络设备等弹性较高的细分赛道及龙头供应商。

摘要

半导体方面,我们认为大模型的出现对芯片算力、存储容量、通信带宽、及软件栈等多个维度上的技术要求将呈现提高,并有望创造出可观AI芯片增量市场空间。在中性情形下,我们测算训练及推理相关AI芯片增量市场空间有望达到3亿/20亿美元。

此外,我们认为服务器CPU、存储芯片、FPGA、PCB相关产品技术规格有望向更高水平迭代,市场规模也呈现相应增加。在云计算设备方面,我们认为AI模型训练的高算力、高能耗需求与国内“东数西算”的算力布局相契合,有望加速西部AI超算中心的建设;同时,服务器、光模块、存储器等硬件设备有望率先受益。

服务器:我们认为AI服务器相较于通用服务器,具备大存储带宽/大片间互联带宽及良好的散热能力。在中性假设下,我们测算模型训练/ChatGPT应用对应的服务器增量空间约8亿美元/50亿美元。

光模块:我们认为ChatGPT对光模块行业存在以下三方面的深远影响:1)中性情景下,模型训练/ChatGPT推理将分别新增约214万美元/1055万美元的光模块需求;2)驱动高速光模块渗透率加速提升;3)硅光+CPO方案优势进一步凸显,新技术有望加速普及。

存储/温控等:我们认为,GPT-3.5等AI模型的训练及推理对存储器提出了更高的要求,有望加速SSD对HDD的替代进程;同时,AI服务器高能耗特性,有望推动数据中心的散热系统向液冷更新迭代。

正文

云硬件为大模型商业化平坦之路披荆斩棘

ChatGPT是OpenAI推出的人机对话聊天机器人,这一应用背后的基础是基于Transformer算法建立的GPT-3.5模型,隶属大模型(Large Language Models,LLM)的分类。大模型的优点在于,其可以通过大量语料等数据,有监督式地预训练语言模型,再经过强化学习等方式微调,迁移至各种具体的自然语言处理NLP任务。

我们认为,以GPT为代表的生成类AI模型若想得到高质量的结果,则必须通过拥有海量数据的数据集来进行训练。而生成后的模型,尽管计算量有所下降,千亿级别的海量参数也对推理计算量及效率提出了挑战。我们认为原来单机单卡的训练和推理将成为历史,分布式计算会成为新时代的主题,从对云计算基础设施的优化需求来看,不仅单位设备算力、数据互联、存储等多方面需求面临挑战,而且如何把这些需求都以合理的方式去平衡,确保某一个单独的方面不会成为瓶颈,才是当下的核心问题。我们认为,服务器、存储器、光模块、AI加速芯片、CPU等云硬件的技术迭代、市场规模发展是生成式AI模型商业化之路逐渐平坦的前提。

图表1:ChatGPT应用对云硬件带来的影响一览

资料来源:各公司官网,中金公司研究部

大模型应用驱动半导体技术升级,市场规模成长可期

整体来看,我们认为大模型的出现将提高对芯片算力、存储容量、通信带宽、及软件栈等多个维度上的技术要求,并有望创造出可观的AI芯片增量市场空间;此外,CPU、存储芯片、FPGA、PCB相关需求也会同步增加。

大模型发展下,AI芯片的挑战与市场机会

对计算的挑战

大算力AI芯片是支撑ChatGPT类似应用落地及大模型高效生产的基本前提。我们看到,针对自然语言处理相关深度学习模型,为了更强大更精准的语言语义理解和推理能力,近些年来的发展趋势是引入了带有Attention机制及Transformer网络,使得模型的大小每年以1-2个数量级的速度提升,参数量由亿级往千亿级过渡(BERT-Large模型参数量仅有340M,而GPT-3的参数量达到175B)。我们认为,大模型的引入往往会引发训练时间长、推理速度慢等一系列的问题。

图表2:大模型训练中的困难

资料来源:腾讯云官网,中金公司研究部

根据腾讯云数据,对于24层、参数数量340M的Bert-Large模型,在8张V100卡的服务器中,13G预料的训练时间需要48-60小时,对应100ExaFLOPS的计算量。根据Nvidia在2021年发布的论文[1],完成GPT3模型(ChatGPT 应用实际上基于参数更高的GPT-3.5,并仍处于更新中)一次迭代的计算量就高达4.5 ExaFLOPS,而完整训练的计算量高达430 ZettaFLOPS (对应约95K 次迭代),是Bert-Large模型训练所需要计算量的千倍之多。

图表3:GPT-3模型预训练数据集

资料来源:《Language Models are Few-Shot   Learners》(Brown, T. B. , et al.,2020),中金公司研究部

图表4:大模型对算力增长需求显著

资料来源:英伟达官网,中金公司研究部

对存储容量的挑战

根据Nvidia的测算,对于参数为175B的模型,若在一个原生未经优化的框架下执行(不剪枝压缩、不降精度),各部分大概需要的显存空间估算如下:

1)模型参数需要700GB显存(175B参数,采用全精度32-bit,即175B*4bytes);2)参数对应的梯度所需存储空间同样约700GB;3)优化器状态占用1400GB,整体来看,所需显存空间大约高达2.8TB。

在如上的测算结果背景下,我们认为先前一些相对简单的模型在执行推理任务时可采用“单机单卡”方案,但在大模型推理任务执行过程中已经不现实。大模型对GPU内存提出的容量挑战使得原本单机可胜任的推理任务,转为由更大容量显存的训练级GPU并行执行。

图表5:Nvidia 主要AI用GPU参数对比

资料来源:英伟达官网,中金公司研究部

对通讯带宽的挑战

大存储带宽、大片间互联带宽是大模型实际应用中对AI芯片提出的必要要求。我们看到,为满足上千亿参数的算法处理规模,GPT-3.5模型的训练场景使用了微软Azure AI云计算平台,通过由多个GPU组成的高性能网络集群提供计算支持。在分布式训练“多机多卡”的模式下,多GPU并行计算使得服务器节点增加,涉及到海量数据在GPU之间、GPU与CPU等单元间的传输,增大了跨服务器的通信需求。

因此,AI芯片需配备大网络带宽以降低通信时耗,提高大模型的训练速度。同时在内存上,AI芯片还需提供较高的内存带宽以实现GPU和内存间的数据传输,否则将使GPU中流处理器(SM)单元的工作速度受限。

对软件栈的挑战

开发工具的配合有望使大模型训练事半功倍。我们在前文中提及,由于大模型参数众多,训练所需样本量巨大,如何解决训练的分布式问题、将多颗硬件放在一起协同工作、提高硬件的利用效率成为了关键的问题。我们认为,训练框架也十分重要,其不仅需要结合算法特点对模型做合理切割,更需要在结合系统架构特点的架构下,做出软硬一体的共同设计。当下,我们看到行业龙头Nvidia已经创建了强大的开源工具,如 NeMo Megatron,可以优化训练过程。

量化测算:ChatGPT所创造的AI加速芯片的市场空间有多大?

我们认为,去量化ChatGPT应用创造的AI加速芯片的市场空间是一个较为复杂的问题。但我们在下文中试图从训练、和推理两种任务角度展开讨论,试图帮助投资者人理解该应用以及AI大模型生产未来对计算相关半导体所带来的驱动作用。我们认为ChatGPT应用对AI加速芯片需求的驱动的逻辑先训练,后推理:即在模型商业落地初期,传统云厂商及三方模型生产企业会着重训练算力建设及相关成本支出,推动大模型快速生产;而进入真正业务落地期,我们认为推理业务任务量在短期内会线性刺激AI加速芯片市场空间增加,后续可能会发生一定算力成本优化。

 1)训练用AI芯片方面,我们认为,在给定训练GPT-3模型所需运算操作数量的情况下,即便得知单卡算力,以及要求的训练时间,量化加速卡数量实际上也存在难度,因为数据集精度、数据集迭代次数,以及GPU的使用效率等等因素都是未知变量。在此,我们直接采用OpenAI训练集群模型估算结果作为参考:标准大小的175亿参数GPT3模型大概需要375-625台8卡DGX A100服务器进行训练(耗费10天左右时间)。

目前来看,训练大模型的硬件投入基本3,000张-5,000张A100 GPU来完成。那么,以单A100卡售价10,000美元来计算,生产大模型所需的训练用GPU一次性采购拉动在千万美元级别,具体金额决定于参与生产大模型的终端用户家数,中性情形下,我们假设8家厂商采购训练卡,单一厂商需求量500台DGX A100服务器,可带来的训练AI加速卡市场空间约为3.2亿美元。

2)推理用AI芯片方面,我们认为推理应用和实际业务上线关系紧密,硬件需求要结合对效率要求来进行部署。以A100 GPU单卡单字输出需要350ms为基准计算,假设每日访问客户数量为2,000万人,单客户每日发问ChatGPT应用10次,单次需要50字回答,则每日消耗GPU的计算时间为972,222个运行小时(2*10^7*10*50*350ms = 3.5*10^12ms = 972,222h),因此,对应的GPU需求数量为40,509个。

同样以单卡10,000美元的售价计算,2,000万用户上线在推理端所创造的AI芯片市场空间约4亿美元左右,但在中性情形下,假设日活用户数达到1亿用户,在单客户发问次数、单次回答字数不变的情况下,我们测算出推理相关用AI芯片市场空间有望达到20亿美元。

图表6:ChatGPT相关半导体芯片市场空间测算表

资料来源:Nvidia官网,OpenAI官网,中金公司研究部

结合上述讨论,在训练端来看,我们认为ChatGPT应用大规模商用初期对高端A100及以上等级训练卡(或类似产品)有望带来明显的驱动(行业头部企业2022年末A100卡存量数量在20,000张左右,而训练GPT-3模型所需的新增A100卡数量约为3,000-5,000张),单一客户一次性采购金额有望达到千万美元量级。而随着用户数量增多,对短时间内文本输出需求增大,推理相关AI芯片需求有望提升。

尽管在后期大量推理任务量继续增大后,我们认为市场会寻求低成本ASIC方案来做算力支撑,但大模型相关业务上线后对海量算力的需求依然使我们维持对AI芯片市场未来增长可期的判断。

图表7:2022年A100 GPU保有量情况

资料来源:Stateof.AI,中金公司研究部

CPU、存储器等赛道在大模型应用发展驱动下同样受益

第一,大模型提升对于多核CPU、CPU集群的需求。上文中我们已经提及,ChatGPT这类语言类生成模型的参数量很高,所以只靠单机很难进行训练和推理,主要是使用分布式计算。CPU作为传统的计算单元,一开始就已经作为深度学习算法的计算平台,但是由于深度学习的发展,要求芯片可以进行超大规模计算量以及高度的并行计算,CPU越来越难以适应深度学习的需求,所以需要通过增加核心数或者CPU集群满足深度学习算法加速的需求。

但CPU作为通用处理器,本身不用作任何改变就可以完成计算,结合其他的芯片实现异构计算时, CPU是必不可少的,如CPU+GPU或CPU+FPGA的异构加速平台,复杂控制及串行部分由CPU执行,并行部分由GPU或FPGA执行。目前适用于服务器的CPU厂商纷纷推出多核CPU,满足深度学习对于并行计算的性能要求。

第二,大模型对内存容量和带宽的需求驱动HBM、CXL等高性能存储芯片的应用。虽然对于语言类生成模型算力芯片性能十分重要,但是每个芯片的本地内存和带宽也决定了单个芯片的执行效率。在这个角度来看,以HBM为代表的超高带宽内存技术有望成为相关存储芯片发展趋势,它可以垂直互连多个DRAM芯片,与传统DRAM产品相比显著提高数据处理速度。目前存储龙头HBM产品已部分进入ChatGPT应用相关需求供应。

第三,并行能力和可重构能力提升FPGA竞争力,FPGA也广受关注。作为GPU在算法加速上强有力的竞争者,现场可编程逻辑门阵列(field programmable gate array,FPGA)近年来也受到了越来越多的关注,我们认为FPGA作为深度学习加速器具有可重构、可定制、高性能的优势。

第四,高算力需求更高等级的PCB作为算力载体。服务器、交换机等作为算力的载体和传输硬件,将提升PCB等部件的需求。一般服务器/存储器对于PCB的需求普通的多层板为主,随着ChatGPT大模型这类需要海量数据应用的发展,对算力的要求越来越高,对于大容量、高速、高性能的云计算服务器的需求将不断增长,对PCB的设计要求也将不断升级,提升对于高层数、大尺寸、高速材料等的应用。

量化测算:CPU、内存在ChatGPT应用驱动下的市场空间弹性

我们采取单机搭载8片A100 GPU 的DGX A100服务器为样本,进行如下测算:

根据公司官网数据,单个英伟达A100组成的服务器系统对CPU、存储芯片的需求测算及使用数量价格假设如下:

1) CPU:双路 AMD Rome 7742、共 128 个核心、 2.25 GHz(基准频率)、3.4 GHz(最大 加速频率),假设单价7,000美元。

2) 系统内存:2TB(假设采用16个128GB内存模组,假设单价600美元)

从训练和推理两个阶段对服务器的需求来看,沿用上文对AI芯片测算的逻辑,我们认为中性情形下,训练相关DGX A100服务器需求约4,000台,中性情形下推理用服务器数量约25,000台。相应需要5.8万片CPU芯片,市场规模总计4.1亿美元;46.4万片128GB内存模组,市场规模总计2.8亿美元。

ChatGPT应用有望推进Chiplet技术的大规模商业化

我们认为,随着人工智能的发展以及ChatGPT等大模型(Large Language Models,LLM)算法的流行,市场对AI芯片在训练和推理等环节支撑大量数据高效处理提出了新的挑战,Chiplet(芯粒)作为芯片级形式的复用技术,有望在技术和商业两个维度助力ChatGPT的发展。

Chiplet(芯粒)是一项芯片级形式的复用技术,可以平衡大芯片的算力需求与成本。Chiplet的实现开启了硅片级别的IP复用,通过该技术,不同功能的IP,如CPU、存储器、模拟接口等,可灵活选择不同的工艺分别进行生产后集成在一起,最优配置功能模块并且不必受限于晶圆厂工艺,实现计算性能与成本的灵活平衡。

图表8:Chiplet可以实现集成异构化

资料来源:eefocus与非网,中金公司研究部

Chiplet从技术与商业两个角度有望受益于大模型应用趋势

从技术上看,Chiplet有望解决大模型对芯片提出的算力、存储容量、带宽等多维度要求。我们认为,Chiplet技术可以有效提升AI芯片的算力、存储、带宽等性能,为发展大模型人工智能提供了基础。

从商业角度看,Chiplet的高集成化、低功耗、灵活选择制程的特点可以降低AI芯片的芯片制造成本与用电成本。如下图所示,不同制程的芯片在生产成本侧差距较大,随着工艺制程节点向更小的5nm、3nm级别演进,不仅物理极限难以突破,成本也难以下降。我们认为Chiplet作为一项高集成化的技术,通过系统级封装SiP将数字与非数字功能、硅基与非硅基材料、CMOS、光电等不同的元器件集成在一个封装之内,不同功能模块可以灵活选择制程,避免了先进制程产能的“浪费”,可以大幅节省了芯片制造成本。

图表9:先进制程芯片的制造成本远高于成熟制程

资料来源:IC Knowledge,中金公司研究部

处理器芯片公司纷纷布局Chiplet,市场空间可期

龙头处理器芯片大厂纷纷布局Chiplet技术。根据AMD官网,AMD在2023计划推出全球首款数据中心APU(Accelerated Processing Unit,加速处理器)—AMD Instinct MI300。此外,2023年1月11日,英特尔正式发布首个基于Chiplet设计的第四代至强可扩展处理器(代号Sapphire Rapids)。国内来看,部分厂商也在Chiplet 技术有较早布局。我们认为,国内外AI芯片龙头公司纷纷布局Chiplet技术,是行业参与者在人工智能大模型趋势下权衡技术与成本等多方面因素后的结果。

全球来看,Chiplet的市场规模迎来快速增长期。据Omdia报告,2018年Chiplet市场规模为6.45亿美元,预计到2024年会达到58亿美元,2035年则有望超过570亿美元。国内来看,已有数家基板厂商和先进封装厂布局Chiplet,按照两年建厂、两年良率爬坡的发展节奏,我们预计2026年,先进封装良率和成本有望迎来大幅优化,届时Chiplet技术应用有望迎来规模性应用。

图表10:不同处理器类型的Chiplet市场规模预测

资料来源:Omdia,中金公司研究部

图表11:不同应用场景的Chiplet市场规模预测

资料来源:Omdia,中金公司研究部

ChatGPT有望激发算力需求,云计算设备确定性受益

服务器:云端算力的核心,AI服务器为大模型训练及推理任务保驾护航

我们看到,微软、Google等海外科技企业积极布局ChatGPT类似应用,腾讯、浪潮信息、字节、百度、阿里巴巴等国内厂商也发力AI大模型领域。我们认为,GPT-3.5等大模型的训练及推理需要海量数据的高效处理作为支撑,云端算力基础设施迎来发展机遇。

数据中心的硬件设备可以分为服务器/外置存储/网络设施等IT硬件设备和配电系统/温控系统等基础硬件设备,其中 IT设备是数据中心硬件设备的核心构成,而服务器在全部IT设备中成本占比约69%,是云端硬件价值的核心来源。我们看好ChatGPT等相关应用带来的AI大模型训练及推理需求,并创造AI服务器的增量市场空间。

AI服务器搭载GPU/FPGA等加速芯片,以支撑算力需求提升

相较于传统的服务器,AI服务器需要配备GPU/NPU/FPGA/ASIC等芯片的支持高算力。CPU从提高频率/增加计算单元/增加核数等方面提升计算性能时,受制于成本/功耗/技术难度,难以匹配AI对算力需求的高速增长。异构形式的AI服务器应运而生,通常以CPU为中央处理器,同时搭载AI加速芯片作为协处理器。

图表12:异构形式的AI服务器构成

资料来源:Tian Qin 等,”Performance Analysis of Nanoelectromechanical Relay-Based Field-Programmable Gate Arrays” (2018),中金公司研究部

GPU为AI服务器异构形式的主流选择,单服务器配置的 GPU数量平均为8颗。GPU凭借在训练负载中的优势,成为AI服务器加速芯片的主流选择,根据IDC,2021年我国AI服务器中采取GPU加速技术的占主导地位,拥有91.9%的市场份额;搭载NPU/ASIC/FPGA等其他AI芯片的AI服务器分别占据6.3%/1.5%/0.3%的市场份额。此外,单台AI服务器通常需要配备多颗GPU,根据IDC,2019年我国每台AI服务器中平均配置有8个GPU。以NVIDIA的DGX A100服务器为例,该服务器配置有8颗NVIDIA A100 800GB Tensor Core GPU,计算性能高达5petaFLOPS(每秒5千亿次浮点运算)。

图表13:2019年中国AI服务器配置分布情况

资料来源:IDC,中金公司研究部

图表14:AI服务器性能的影响维度

资料来源:艾瑞咨询,中金公司研究部

相比于普通服务器,AI服务器对算力/功耗/存储/通信等有更高的要求,由此带来芯片配置、硬件架构、机箱设计等方面的差异。

CPU及AI加速芯片是决定服务器算力及效率的核心。GPT3.5模型增加了参数量及训练样本量,具备超过1,750亿个参数,数据集中包含4,100亿个单词、190个网络文本等,提升了训练阶段的数据处理规模。与此对应,AI服务器一般需要选择主频高、核心数多的CPU,并搭载GPU/NPU/FPGA/ASIC等AI加速芯片以满足数据处理的需求。

大存储带宽及大片间互联带宽成为必然要求。AI大模型要求AI服务器具备较大的内存及存储带宽,以实现GPU与内存之间的高效数据传输。我们看到,GPT-3.5模型的训练使用了微软Azure AI云计算平台,这种分布式训练“多卡多机”的模式涉及大量数据在GPU之间、GPU与CPU/内存等单元之间的传输,并增加了跨服务器的通信需求,因此AI服务器需要通过互联技术提升通信效率。以 NVIDIA A100 GPU为例,单个A100 GPU最多可支持12个第三代NVLink连接,总带宽达到600 GB/s,是PCIe 4.0带宽的10倍;而NVSwitch系统能够跨节点加速各GPU通信。

AI服务器对机箱的散热提出高要求。普通服务器的标准功耗一般在750-1200W,而AI服务器由于配置多个系统级芯片,在运行AI模型时会产生更多的能耗,以DGX A100服务器为例,搭载8颗A100 80GB GPU,最大系统功耗达到6,500W。为了确保服务器能够长期处于适合的工作温度,AI服务器机箱需要具备良好的散热能力。我们认为,以液冷技术为代表的主动散热技术有望凭借优良的散热性能被更多地采用。

ChatGPT应用推动AI服务器的需求量提升

训练方面:根据OpenAI训练集群模型估算结果作为参考,GPT-3模型大约需要375-625台8卡DGX A100服务器(对应训练时间10天左右),对应A100 GPU数量约3000-5000张。在中性情形下,我们假设训练大模型的硬件投入4000张A100G GPU,单服务器配置8颗GPU,则单个大模型训练所需AI服务器数量为500台,我们假设8家厂商进行AI大模型训练,参考DGX A100服务器价格约为19.9万美元[2],则AI模型训练对应服务器市场增量空间约8亿美元。

推理方面:在中性情形下,假设每日访问客户数量为1亿人,对应的GPU需求数量为202,546个,需要8卡服务器约25,318台。同样按照8卡服务器价格19.9万美元,则对应服务器市场增量空间约50亿美元。

图表15:AI服务器空间测算

资料来源:Nvidia官网,Techradar,中金公司研究部

存储器:SSD替代HDD趋势确立,NVMe-oF助力存算解耦

GPT-3.5等AI模型的训练及推理对存储器的存储容量及数据传输速率提出了更高的要求,有望加速SSD对HDD的替代进程。GPT模型的训练及推理均涉及到大量参数的调用及海量数据的存储及读取,数据的访问及传输速度对模型的训练及推理效率存在显著影响。我们看到,与HDD机械硬盘相比,SSD固态硬盘将数据存储在集成电路之中,无机械装置,通过电信号传递的方式实现更高的访问速度、更大的存储密度及更低的功耗水平。

图表16:HDD与SSD的性能对比

资料来源:CSDN,中金公司研究部

HDD成本优势逐渐缩小,SSD有望对HDD实现替代。根据艾瑞咨询,SSD每TB价格已从2013年的2200美元降至2020年的128美元,价格下降趋势明显,逐步逼近HDD的单位存储成本。根据TrendForce,2020年SSD以3.3亿出货量首次超越HDD。我们认为,伴随大模型对存储器性能要求的提升以及两者价格差距的缩小,SSD对HDD的替代进程有望加速。

NVMe-oF(NVMe-over-Fabrics)打破NMVe局限,支持“存储器池”与“服务器池”间的网络通信。一方面,在NVMe协议下,由于主机PCIe总线数量存在上限,存储扩展与传输性能存在上限;同时,快速发展的SSD对应单一服务器时可能会出现一定程度性能闲置。NVMe-oF是NVMe在网络上的拓展,解决了NVMe协议下服务器只能通过PCIe总线与SSD连接的问题,支持在存储器与服务器之间建立任意对任意的链接,实现与直连PCIe总线相近的通信质量,进而支持超高性能存储网络的创建。NVMe-oF赋能服务器通过网络架构与SSD通信,使多主机能够按需共享存储,最大化利用存储资源,降低存算耦合度。存算解耦有利于云端算力与数据存储能力的提高,满足GTP-3.5等AI模型对数据存储及分析处理的需求。

图表17:NMVe-oF实现“存储器池”与“服务器池”间的通信

资料来源:SSDFans,中金公司研究部

根据Nvidia官网,单台DGX A100服务器配置30TB Gen4 NVME SSD(8个3.84TB),假设3.84TB SSD的单价为3,000美元,则单台DGX A100服务器的SSD价值量为24,000美元。

训练方面:中性情形下,单个模型训练对应AI服务器数量约为500台,假设8家厂商进行AI大模型训练,则对应SSD市场增量空间约为9,600万美元。而在保守(375台AI服务器,5家厂商)/乐观(625台AI服务器,10家厂商)情景下,SSD增量需求分别为4,500万美元/1.5亿美元。

推理方面:每日访问客户数量为1亿人的中性场景下,ChatGPT应用推理对应的8卡AI服务器需求约为25,318台,配套的SSD价值量约为6亿美元。而在保守(2千万日活、5,064台AI服务器)/乐观(2亿日活、101,273台AI服务器)情景下,SSD增量需求分别约为1亿美元/24亿美元。

图表18:SSD增量需求测算

资料来源:Nvidia官网,中金公司研究部

光模块:支撑ChatGPT应用的网络互联底座,硅光&CPO新技术加速渗透

光模块是光通信网络的重要组成部分,核心功能是实现光电转换。光模块主要由光电子器件、功能电路和光接口等组成,其中光电子器件包括光发射器件(TOSA)和光接收器件(ROSA),核心结构分别为激光器和探测器。数据中心场景下,光模块主要用于服务器和交换机,以及各交换机之间的连接等。

以太网光模块市场规模受益于高速产品放量。根据LightCounting,得益于云厂商需求复苏、400G产品放量,2021年全球以太网光模块销售规模达47亿美元,同比增长25%。展望未来,我们认为以800G为代表的高速率光模块产品需求有望引领整体市场规模的持续增长。

图表19:全球光模块市场空间(2016-2021)

资料来源:LightCounting,中金公司研究部

图表20:全球以太网光模块市场空间(2016-2021)

资料来源:LightCounting,中金公司研究部

与前述逻辑一致,ChatGPT的发展需要硬件基础设施支撑,除了AI服务器等算力类硬件外,数据中心内强大的网络互联底座亦不可或缺。具体而言,我们认为ChatGPT对光模块行业存在以下三方面的影响。

ChatGPT相关模型训练&推理应用带动光模块增量需求

数通市场占光模块六成以上的下游需求,AI发展驱动增量空间。传统数据中心内部光模块的需求主要受到2个因素驱动:1)流量增长带动数据中心建设,推升服务器、交换机、光模块等设备需求量增长;2)数据中心整体架构的转变,由传统的三层网络架构转化为脊叶式架构,数据流量从南北向到东西向转变。在ChatGPT应用发展背景下,大模型训练和推理有望在此基础上进一步推升光模块的需求。承接前文ChatGPT对AI服务器增量需求的测算,我们以Meta三层叶脊网络架构为例,量化测算光模块的增量需求。

训练方面:中性场景下,单一厂商大模型训练对应AI服务器数量约为500台,我们假设8家厂商进行大模型训练。DGX A100以太网端口可支持200G速率传输,我们根据主流网络架构假设上行端口配置在100G,光模块价格约为1美元/G,则单模型训练对应的光模块增量需求约在214万美元。而在保守(单一厂商375台AI服务器,5家厂商训练)/乐观(单一厂商625台AI服务器,10家厂商训练)情景下,光模块增量需求分别为117万美元/303万美元。

图表21:GPT-3单模型训练带来的光模块增量需求测算(中性情景)

资料来源:51CTO,工信部,中金公司研究部

推理方面:日活客户数量为1亿人的中性场景下,ChatGPT应用推理对应的8卡AI服务器需求约为25318台。在此量级的AI服务器需求下,配套的光模块价值量约为1055万美元。而在保守(2千万日活、5064台AI服务器)/乐观(2亿日活、101273台AI服务器)情景下,光模块增量需求分别为219万/4192万美元。

图表22:ChatGPT应用的推理带来的光模块增量需求(中性情景)

资料来源:51CTO,工信部,中金公司研究部

高速率光模块迭代节奏或将加速

模型并行架构会较大程度增加训练过程中的通信性能需求。神经网络模型具有比较明确的层次化结构,模型层与层之间的依赖关系复杂。在模型并行架构下,训练过程中各个节点上的子模型之间依赖度较强,需高频进行中间计算结果的通信。且甚于数据并行的是,模型并行需要在不同节点之间传递feature map,交互信息的高量级对节点间的通信性能提出了更高要求。

为更好的满足大规模、长时间GPU集群训练任务,腾讯打造了星脉高性能网络,采用1.6T超带宽服务器接入,结合自研高性能通信库,构建了1.6T ETH RDMA网络,最终实现通信时延降低40%,AI大模型通信性能提升10倍。

图表23:大模型划分计算示意图

资料来源:《面向AI应用的网络加速架构设计》(邱帅兵,2019),中金公司研究部

图表24:腾讯星脉高性能计算网络  

资料来源:腾讯官网,中金公司研究部

我们认为,大模型的发展将加速光模块迭代的节奏。一般来说,数通光模块产品速率2-5年为一个迭代周期。根据Yole,400G光模块已进入全球商用部署阶段,800G光模块也开始在海外数据中心逐步上量,1.6T光模块样机的研制正在稳步推进中。

根据LightCounting预测, 800G光模块在100G及以上光模块市场中的营收占比将从2023年的8%提升至2027年的35%,1.6T光模块在100G及以上光模块市场中的营收占比将从2024年的1%提升至2027年的19%。考虑到模型并行训练、AI应用推理的快速发展,我们认为800G/1.6T等下一代光模块产品的渗透率提升曲线或将变得更为陡峭。

图表25:数据中心光模块速率迭代情况

资料来源:Yole,中金公司研究部

图表26:100G+光模块市场规模及其预测

资料来源:LightCounting,中金公司研究部

推动硅光、CPO方案渗透率提升

硅光芯片是采用硅光子技术制备的光芯片。传统分立式光模块中的光芯片,以价格高昂、发光效率高的InP、GaAs等有源材料为衬底;硅光芯片则是基于成熟度高、成本下探空间大的绝缘衬底上硅(Silicon-On-Insulator,SOI)平台,利用成熟的CMOS微电子制备工艺,在同一硅晶圆上集成光源、调制器、波导、探测器、滤波器、CMOS电路等器件,实现光信号处理与电信号处理的深度融合。

高速通信场景中硅光模块性价比凸显,硅光芯片有望承载数据中心内主要的高速信息传输。展望未来,我们认为随着2023年800G数通光模块逐步上量,硅光模块的渗透率有望进一步提升,牵引硅光芯片的大规模商用。据LightCounting预测,2026年全球硅光模块市场容量将接近80亿美元,占整个光模块市场比例超过50%,2016-2026年CAGR约38%。

CPO技术引领下一代数据中心风向,助力硅光芯片成为超高带宽数据互联的标配。CPO(Co-Packaged Optics,共封装技术)将光芯片和计算或交换ASIC共同封装以简化电接口设计、缩短传输距离,较可插拔方案能够有效降低系统功耗和时延、提高信号密度、减少成本。

我们认为当通信速率提升至1.6T及以上,超高速数据传输对光模块和交换机的功耗、成本和密度提出更高诉求,数据中心光互联升级或将转向高能效比的CPO方案,而硅光芯片作为高集成度芯片首选方案有望在数据中心应用场景中普及。据LightCounting预测,CPO搭配硅光有望在2025年迎来放量,到2027年CPO端口预计将占到800G和1.6T端口总数的近30%。

图表27:可插拔和CPO 两种封装方案

资料来源:芯东西,中金公司研究部

图表28:800G/1.6T端口 CPO方案和其他出货量预测  

资料来源:LightCounting,中金公司研究部

温控:AI服务器的高能耗,要求温控系统迭代升级

AI服务器的能耗水平高,提升数据中心的平均功率密度。以DGX A100服务器为例,根据NVIDIA官网,单台服务器搭载8颗A100 80GB GPU,最大系统功耗达到6,500W,外形尺寸为6U,考虑42U的标准机柜,则单机柜可放置7个DGX A100服务器,对应功耗为45.5kW/机架。

AI服务器的高能耗对数据中心的散热系统提出了更高的要求。目前风冷型温控系统仍然是数据中心的主流,2019年占比仍超过50%。根据Intel《绿色数据中心创新实践》,采用风冷的数据中心通常可以解决12kW以内的机柜制冷,随着服务器单位功耗提升,普通机柜可容纳的服务器功率可能会超出15kW,达到风冷数据中心空气对流散热能力的天花板,配置AI服务器的数据中心需要以液冷等散热能力更强的技术来实现有效温控。

图表29:2016-2019年我国数据中心各散热方式占比

资料来源:赛迪咨询,中金公司研究部

我们认为,液冷能够满足高功率密度机柜的散热要求,有望迎来发展机遇。相较于传统的风冷系统,液冷系统能够直接将热负荷传递至冷冻水系统中,制冷效率更高且占地更小,能够提升服务器的使用效率及稳定性,并提升数据中心的利用率。

算力网络:高算力/高能耗需求,适配“东数西算”的算力网络布局

 “东数西算”有利于统筹发展我国算力水平。我国目前数据中心布局以东部为主,算力发展存在东西部不协调、算力资源与需求匹配度不足等问题。2022年2月,国家发改委、中央网信办、工信部、国家能源局联合印发文件,正式全面启动“东数西算”工程[3]。我们认为,“东数西算”统筹规划算力建设,有利于实现社会算力的提升。

西部数据中心是AI训练任务部署的理想选择。GPT3.5等AI大模型的训练任务需要高算力、高能耗的支持,同时训练任务对于时延及网络的要求相对较低,适配西部数据中心的比较优势。我们认为,“东数西算”西部大型数据中心的建设会带来更大的算力储备,同时西部的土地及可再生资源也有助于推动数据中心向集约化、绿色化的方向发展。

图表30:AI超算中心的特征和需求与“东数西算”高度匹配

资料来源:国家发改委,中金公司研究部

本文作者: 彭虎、陈昊、成乔升、朱镜榆、唐宗其、李诗雯、郑欣怡、于新彦,来源:中金公司,原文标题:《中金:ChatGPT启新章,AIGC引领云硬件新时代》

彭虎 SAC 执证编号:S0080521020001;SFC CE Ref:BRE806

陈昊 SAC 执证编号:S0080520120009;SFC CE Ref:BQS925

成乔升 SAC 执证编号:S0080521060004

朱镜榆 SAC 执证编号:S0080121070370

唐宗其 SAC 执证编号:S0080521050014;SFC CE Ref:BRQ161

李诗雯  SAC 执证编号:S0080521070008;SFC CE Ref:BRG963

郑欣怡 SAC 执证编号:S0080122070103

于新彦 SAC 执证编号:S0080122080172

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。