传统的通信方式正在被AI重新定义。
随着人工智能技术和应用的快速发展,算力已成为一个高度拥挤的赛道,从GPU、光模块到算力租赁,算力的核心环节吸引了投资者绝大多数注意力。然而,GPU逐步到货只是整个算力链条的第一步,后续如何发挥出这些昂贵设备的最大潜力也是较为困难的过程。
国盛证券指出,算力到货后如何将其上云并保证稳定性,如何从通信层面和模型层面压榨出显卡的每一丝性能,如何将不同算力中心的算力,调度并实时输送到终端用户手中,这些都是服务器的“纸面算力”到最后“实际算力”的困难与挑战。
由此,引出下一个朝阳赛道——超算互联网。
根据国盛证券通信团队在最新报告中的定义,超算互联网是指,服务器到货后,从形成稳定算力到输出稳定的商业推理结果的全过程,其中主要包括了云化、调优、调度、部署、落地、数据管理等等软硬结合的数个环节。
国盛证券指出,云化/调优/调度是将纸面算力变为可用算力的先期步骤,云化使算力变成用户可以便捷调用的“数字能源”,调优则是从通信和模型层面,压榨GPU的利用率,实现算力降本增效的必经之路。调度是将全国乃至全球的算力资源统筹分配,实现成本优化,入网即有算力的核心环节。
值得注意的是,由于算力资源,先发优势等等因素,海外AI发展拥有了较大的领先,国内AI发展进一步承压。但国盛证券认为,随着国内自主算力和交换体系逐渐起量,中国算力有望加速追赶。
中国软件公司有望走出一条从加速库等核心环节延伸至下游落地场景的全新体系,同时,凭借全球领先的DCI网络与基建,运营商也有望走出一条算力网建设的全新道路。
此外,北美如OctoML,DECI,Databrick等优秀的AI后周期服务公司也给中国创业者们提供了方向和思路,软硬件加速追赶,中国AI前景光明。
AI超算互联网——算力的后周期市场
国盛证券表示,相较于传统行业,算力后周期市场的 “后”指的更多的是后服务市场,包括了显卡服务器到货IDC后,从形成稳定算力到输出稳定的商业推理结果的全过程,主要环节包括云化、调优、调度、部署、落地、数据管理等等软硬结合的数个环节。
纵观全球算力后周期的发展态势,国盛证券认为正在形成两个迥然不同的生态:
在涉及算力使用和大模型训练的等上层建筑时,整个行业对于资本支出、模型经验积累等等方面的壁垒正在逐渐加深,行业格局加速走向巨头通吃。
但在涉及到商业落地,数据安全,平台可视化等等模型偏下游环节时,北美的创业公司呈现了百花齐放的生态,同时传统软件巨头也在积极开发方案,对接AI需求。
至于国内市场的现状,国盛证券认为:
随着国内算力资源起量与模型训练深入,对于算力和模型层面的投资将会再度聚焦,聚焦大厂,聚焦通信能力。同时国内相关软件市场仍处于萌芽阶段,对标海外优秀创业产品,提早满足客户需求,将给国内软件和创业公司带来新一轮机会。
算力云化:算力租赁势起,被AI重定义的云计算
国盛证券指出,云计算是科技行业过去十年发展最为迅速的领域之一,伴随的是全球数字化程度的持续提升。随着ChatGPT引爆生成式AI赛道,许多企业正在转向云计算,算力需求从CPU向GPU跃迁。
对于大模型训练而言,多GPU互联基础设施是门槛,不仅仅是GPU,更重要的是GPU之间的高速互联,是GPU与交换机、光模块等基础设施共同互联后的集群,其资本开支和技术难度相较于以CPU和存储服务器为主的传统基础设施,有明显的提升,这也进一步抬高了大模型的门槛。
大模型训练需要数千片甚至上万片GPU集群连续训练数月时间,海量计算的同时还有海量数据交换需求,与传统cpu和存储集群比较,内部通信互联要求提高十分明显。在超算集群中,以H100集群为例,其中第一层便使用400G光模块,向上则使用800G光模块和对应交换机,网络互联要求提升十分明显。
近年来,全球云计算提供商都在积极布局AI,英伟达凭借GPU技术领先地位在AI云计算领域占有优势,国内算力租赁行业也蓬勃发展。
英伟达DGX Cloud发布后,标志着英伟达正式入局AI云计算,考虑到英伟达GPU在AI领域的一家独大,云计算行业正在进入新的时代。
与此同时,甲骨文通过与英伟达深度绑定,正在越来越多的拿下AI领域的客户,而亚马逊aws、微软azure、谷歌云为代表的头部公有云也正在加速布局AI领域,英伟达凭借自身优势在AI云计算领域领先众对手,云计算格局正在发生变化。
而国内,算力租赁也在高速发展,拥有算力资源的公司和具备算力运营能力的企业正在逐渐体现出相应优势,伴随国内AI产业的高速发展,算力租赁行业也进入高速发展阶段。
实际上,在大规模训练上,和传统云计算比较,需要考虑的问题更加复杂,包括如何利用多卡来突破内存限制的瓶颈,大量计算资源间如何通信、协作,如何平衡各类层出不穷的大规模训练技术。国盛证券将大规模训练技术面临的挑战分为四个部分:内存、通讯、计算和调优。
总结来看,现阶段大模型训练上,最核心的两个要素分别是数据和算力,国盛证券表示,在很长一段时间,不断地提高参数量和提升算力集群规模,是大模型发展的主要思路,通过“大力出奇迹”的形式反而更容易训练出高质量大模型。
AI如何重新定义通信,看一看算力全球龙头英伟达的通信之路。
英伟达作为全球GPU领军企业,早在十年前就开始布局AI领域,对AI发展有着深刻思考和理解。我们回顾英伟达超算方案,从DGX A100到DGX H100,再到最新的DGX GH200,我们可以清楚的看到,除了GPU芯片计算能力的提升以外,通信能力的大幅度持续增长,是另一个最明显的变化。
在AI领域,通信的作用不亚于计算,通信能力的不足或确实将直接限制GPU芯片计算能力的发挥,英伟达早在2019年收购网络交换公司Mellanox,加码布局数据中心网络交换领域,充分体现英伟达的超前眼光和对于通信的重视。
我们以GH200为例,NVlink双向宽带900GB/s,单向宽带450GB/s,8张卡即3.6Tbps,总带宽28.8Tbps,分摊到三个NVlink Switch,单个NVlink Switch的上下行带宽为9.6Tbps,对应800G光模块为9.6T/800g*2=24只,一台服务器共有72只800G光模块,GPU与800G光模块比例为1:9。
而此前DGX H100架构GPU与800G光模块比例约为1:3,DGX A100则主要以400G光模块为主。从英伟达产品的迭代来看,我们也清晰的看到算力龙头在通信上的持续发力,通信匹配计算能力的提升将会一直演绎。
实际上,打破通信墙,是目前高效发挥算力集群能力的无二之选。国盛证券指出,通信能力的提高,是当前最高效的“调优”方式,再出色的调度和调优,也比不上广泛使用高性能交换机和高端高速率光模块修建的集群内部“高速公路”。
此外,目前跨架构、跨集群的算力调度也是现实问题,英伟达不同代际产品之间并不能混合组网,而不同数据中心之间的算力调度难度也不小。东数西算等跨区域算力调度需求也正在增长。具体到模型训练层面,调优也是一个重要方面。
算力调优:大模型时代,通信即调优
根据国盛证券研报,算力发展产生三大边际变化,推动算力调优成为核心议题。算力调优概念的诞生与兴起,主要伴随了算力及网络的三大变化,算力需求总量、扩散趋势和需求特征均在5G、AI等产业加速发展的背景下发生边际变化。
国盛证券认为,未来伴随AI、5G、数字经济的持续发展,算力资源持续紧缺,算力调优将成为算力使用者的终身课题。
算力调优概念范畴庞大,囊括软硬件技术,涵盖宏微观场景。宏观层面包含模型调优、网络调优、算力调度三大层级,具有针对性的解决不同的算力问题,其中,网络调优是算力调优的核心手段。
网络调优:算力调优的核心手段
国盛证券指出,GPU采用并行计算方式,擅长处理大量、简单的运算,因此多适用于图像图形处理和AI推理。但是大模型复杂度日益提升,单卡GPU显存有限,无法满足训练需求,此外,后续大模型训练需要更多参数和更多计算,由此产生的GPU需求更为庞大。为适应算力需求,需要联合多张GPU甚至多台服务器协同工作,分布式训练成为核心训练方式。
网络连接在分布式系统中担任重要角色。网络在分布式系统中提供了连接作用,可以根据连接层级区分为单卡、多卡、多机互联,单卡内的网络为计算用的神经网,多卡之间的连接(即GPU互联)通常采用PCIe或各种高带宽通信网络,多机之间的连接(即服务器互联)通常采用RDMA网络。
国盛证券表示,分布式训练下RDMA网络成为最佳选择,包含IB网络和以太网络。传统的TCP/IP网络通信是通过内核发送消息,涉及较多数据移动和数据复制,不适用高性能计算、大数据分析等需要IO高并发、低时延的场景。
RDMA是一种计算机网络技术,可以直接远程访问内存数据,无需操作系统内核介入,不占用CPU资源,可以显著提高数据传输的性能并且降低延迟,因此更适配于大规模并行计算机集群的网络需求。目前有三种RDMA:Infiniband、RoCE 、iWARP,后两者是基于以太网的技术。
值得一提的是,AI大模型的训练和推理对网络提出了有三大新的需求:超大规模、超高带宽以及超长稳定。
1)超大规模-训练快慢:规模的大小直接决定模型训练的快慢。一个 1750 亿的模型,如果采用2千张 GPU,需要训练100天以上。采用8千卡则可以把时间压缩到30 天左右。
2)超高带宽-效率:Allreduce带宽直接决定大规模分布式下的整体效率。平均单GPU的Allreduce带宽有5GB/s的时候,大规模分布式的整体加速比只有约70%;平均单GPU的Allreduce带宽20GB/s才能获得约90%的加速比,相当于单GPU跑满400G网卡。
3)超长稳定-训练不中断:大模型训练时长至少是几个星期,长时间下的稳定性尤为重要。
稳定性又可以细分为GPU 可用性+网络可用性:
GPU 可用性:根据百度智能云技术站测算,假定单 GPU 的月可用性是 99.9%,那么在千卡规模下模型训练一月内遇到故障发生中断的概率是60%,而如果采用 8 千卡中断概率就有99%。即使 GPU 的可用性提升到 99.99%,8 千卡下的中断概率仍然在 50% 左右。
网络可用性:存储的读写性能也对大模型的训练非常重要,这里面就包括了数据集的读取以及训练过程中checkpoint的读写。网络必须保证更高的可用性,才能尽可能减少模型的训练中断,降低模型做 checkpoint的频率以及开销。
国盛证券认为,超长稳定性能在三大基础性能中,属于必不可少的刚需地位,直接影响模型训练和后续推理的延续性以及成功率。
大模型训练中,网络极其复杂,一些硬件故障无法被显式直接感知,为保障模型训练的长期稳定性,各大平台均在不同程度上应用智算可视化工具,对数据进行实时监控采集。
在目前的技术中,百度百舸平台大模型配备两大核心工具,任务可视化工具+故障诊断工具,openAI在训练过程中加checkpoint保证连续性。
国盛证券表示,面对AI大模型对算力网络通信功能提出的新需求,核心在于网络通信能力的提升,辅助以智算可视化等必备硬件。
模型调优:大模型时代逐渐式微
国盛证券表示,模型层面的调优,当前可理解为,如何通过模型架构的设计,进一步压榨GPU的性能,而并非压缩模型的非必要环节,从而节省模型的训练所需的算力。
模型架构层面优化GPU使用能力的方法主要是并行,即对流水线的工人的任务分配或者流水线的优化。并行的方式主要有两种:数据并行和模型并行。
“数据并行,是指将一层模型运算中所需要的数据切分至N张显卡进行运算,N张显卡运算出结果后,即可汇总进行下一层。模型并行指的是将一次模型训练需要的N层运算,分别放入N张显卡进行运算,但随着模型体积愈发庞大,单个显卡难以容纳一整层的计算,所以模型并行在当下正在加速被数据并行所替代,数据并行的瓶颈则在于数据实时的切分与沟通,并行方式的变化,也在一定程度上,进一步提高了通信能力的重要性。
不过,当下大模型时代,模型的算法层面调优,或者是去优化模型训练中所需要的算力与金钱性价比这种路线已经逐渐式微。国盛证券认为,模型层面的进化,可能更多的会发生于训练系统和工具库层面如何去更好的调用GPU算力。
算力调度:全局最强辅助
算力调度本质上是将算力作为资源,进行资源分配和优化的过程,核心解决算力资源供需不匹配的问题。
算力调度的场景较为广泛,既可以按照产业链分为云与云之间、云和数据中心之间、云网端之间,也可以按照行业、地区、层级进行划分,目前较为典型的两个调度场景存在于跨区域和跨层级。
算力调度目前尚处于逐步落地阶段,具体实施步骤有待在执行中逐渐完善,但是根据算力分布分散、需求具备多样性和灵活性等特质,通常情况下算力调度至少需要包含三大步骤:整合多元异构资源、搭建算力调度平台、建立标准规范体系。
目前国内已经涌现多个算力调度平台,按照主导方的不同可以分为四大类:电信运营商主导平台、地方政府主导平台、地方政府主导平台、行业机构主导型平台。
其中运营商算力调度平台的基础能力优势较为显著:中国移动推出移动云智能算力调度平台,中国电信天翼云下的“息壤”平台即具备智能高效算力调度能力,中国联通推出算网一体化编排调度体系进行算网资源的智能调配。
软件服务的三个方向
国盛证券指出,软件服务主要存在三个发展方向:数据管理、模型落地、训练可视化。其中,模型微调的基础是数据管理。
优质的、结构化的数据要素,推动大模型训练向着高精确度、高安全性和垂直化专业化的方向前进。现有的开源LLM称为“预训练模型”,也就是说其他人已经收集了大量的训练数据并提前训练了模型,例如NVIDIA NeMo和MetaLlama都是“多面手”,它们能流利地使用英各种语言,并且对各种话题都有不同程度的了解,但是碍于训练时的数据,这些LLM往往对某个专业领域不够深入。
在模型落地方面,国盛证券介绍了几种不同的工具,比如,Modular Mojo、octoML、Deci。其中,octoML,一种模型部署工具,快速实现成品模型在各种算力设备上的优化和部署。
以OctoML部署的StableDiffusion为例,OctoML利用机器学习优化技术能够实现三倍的推理速度,同时还支持快速模型微调。
OctoML优化了多GPU部署和连续批处理,Llama 2实现3倍性能提升。大模型的参数数量给GPU带来的负载并非线性增长而是指数增长,因为参数数量的提升带来了多GPU并行计算问题和大模型最为经典的KV缓存问题。OctoAI针对以上问题进行了优化。
训练可视化方面,Databricks:GPU资源管理工具,模型和训练进度可视化,Databricks核心业务是将数据湖和数据仓库统一到一个平台中,也就是湖仓一体,和snowflake相似,Databricks在数据库功能实现方式上与snowflake存在区别。
国内市场展望
在模型与AI进展更加领先的海外,已经能够看到客户需求与行业创造的共振。但国内目前的AI生态,仍然处于先追赶算力,再追赶模型的阶段,对于商业部署,全流程可视化等等的后续需求,市场尚未显现。但国盛证券认为,AI大势在国内不可阻挡,并且随着算力资源,模型资源向着互联网大厂、运营商等加速集中,国内现有的中小型AI参与者可以未雨绸缪地参考海外模式进行转型或者扩张。
算力租赁/调优厂商参考databrick模式。上节提到,databrick软件拥有几大特色,训练资源,训练流程的可视化,训练算力。训练用存储的实时扩容等,并通过把这些能力形成一套完整的SaaS平台,获得了客户的认可。相比Databrick,国内算力租赁厂商,算力调优厂商拥有更加自主可控的算力资源与算力可视化硬件基础,如果能够在此之上配合SaaS整合能力和存储相关服务,有望成为软硬件一体的综合训练服务SaaS平台。
数据库厂商参考snowflake、cloudflare模式。近年来,海外以Snowflake为代表的全新数据库巨头将云端数据存储带入了新的高度。如今随着AI对于训练数据的需求,如何将数据库安全,合理的输送到训练集群,如何将现有数据库自动转换成适用于AI训练的数据,已经成为这些头部数据库公司的下一代进化方向。国内数据库公司目前多服务于信创等场景,对于云存储,AI数据转化,支持AI训练等方向仍然有很大的发展空间。
中小模型,垂直场景创业者参考DECI、octoML模式。随着海外大模型厂商渐渐往垂直领域渗透,垂类应用厂商逐渐从独立开发小模型转向接入成熟大模型,同时医药,图像识别等需要特殊处理或者独立数据库支持的行业依然依赖于独立模型。随着国内模型格局逐渐向大厂集中,中小模型创业者或是垂类场景创业者转向帮助已有垂类应用快速AI化,将打开新的末端生态。
国盛证券认为,随着英伟达,AMD等海外算力在国内受限,国内算力及其配套生态则有望变得更加开放。
影响算力发挥的核心环节主要集中在GPU配套的编译器以及覆盖海量垂直应用场景的加速库,编译器环节需要对于GPU架构的强耦合,因此产业链外溢机会可能较少。但加速库需要各类场景下的客户与GPU厂商共同进步。
当前以昇腾为代表的国产GPU加速生态仍然处于建设初期,因此给予了国内第三方相关厂商与GPU互相合作建设加速库的机会,因此,可能在加速库共建的基础上,国内软件创业公司将对于后续的落地部署环节能有更强的垂直扩张能力。
本文主要观点来自国盛证券,作者:宋嘉吉、黄瀚、赵丕业、邵帅、石瑜捷、孙爽,原文标题:《用AI重新定义通信——超算互联网时代的调度与调优》
宋嘉吉 执业证书编号:S0680519010002
黄瀚 执业证书编号:S0680519050002
赵丕业 执业证书编号:S0680522050002
邵帅 执业证书编号:S0680522120003
石瑜捷 执业证书编号:S0680523070001
孙爽 执业证书编号:S0680521050001