AI服务器功耗大幅提升,液冷的放量元年?

国盛证券认为,AI服务器功耗较传统服务器大幅提升成了驱动液冷落地的直接导火索,同时,风冷无法满足AI散热需求,推动液冷散热成为了“必选”。

近期,戴尔公司的首席运营官Jeff Clarke在新闻稿中透露,英伟达将于2025年推出载有“Blackwell”架构的B200产品,功耗或将达到1000W,较H100增加40%以上,需要戴尔利用其工程独创性来冷却GPU。

Clarke指出,作为硬件制造商,重要的是如何冷却产生产生这些FLOPS(floating-point operations per second)的处理器,而这正是戴尔的优势所在:

我们将有机会展示我们作为行业领导者所做的工作,将我们的专业技术用于实现液冷的规模化性能,无论是流体化学和性能方面的工作,还是我们的互连工作、我们正在做的遥测工作、我们正在做的电源管理工作。我们做好了准备,将其大规模推向市场,以利用市场上将存在的这种令人难以置信的计算能力或强度或能力。

3月3日,国盛证券分析师宋嘉吉、黄瀚和石瑜捷在题为《液冷的放量元年》的报告中指出,算力时代来临,GPU服务器起量,液冷落地的驱动力发生根本性变革,2024年将是液冷散热的放量元年。

国盛证券分析道,AI服务器功耗较传统服务器大幅提升成了驱动液冷落地的直接导火索,从几百瓦的CPU服务器到几千瓦的GPU异构服务器,热功耗提升超数十倍,但风冷上限无法满足AI散热需求,推动液冷散热加速成为了“必选”

大模型兴起后的AI时代,并行计算网络下异构架构成为主流,AI服务器不仅使用传统CPU芯片,还增加大量高功率的GPU芯片,整机功率随之大幅走高,如NVIDIA A100 SXM芯片单卡功耗400W,8卡AI服务器单论GPU的热功耗就有3.2kW,H100 PCIe 5.0芯片单卡功耗更是高达700W;传统通用服务器以H3C为例,R4900 G6服务器处理器最大功率为385W。

风冷制冷单机柜的上限通常是15kW左右,液冷数据中心单机柜可支持30kW以上的散热能力。以H100为例,假设满配8卡,单台H100服务器仅内部GPU所需的功耗就达到5.6kW(且不论CPU、存储和额外的整机散热),风冷制冷阈值有限,成为实操痛点,无法对AI服务器机柜进行散热,液冷散热加速成为“必选”。 

国盛证券认为,产业在落地液冷散热中,面临较大的问题在于初期投资较传统风冷更多,但伴随AIDC建设加速,高功率机柜渗透率大幅提高,用电量远超传统机柜,液冷较风冷更省电的优势逐渐凸显,节约的电费有望逐步“摊薄”前期投资额,预计冷板式液冷的整体投资+运维性价比拐点有望加速到来。

开源证券也指出,双碳背景下,IDC绿色化是大势所趋,液冷或是散热技术演变的必经之路,随着PUE要求不断严格,液冷散热优势逐渐凸显无论是IDC新建需求还是存量改造需求,液冷均有望成为首选。

财信证券研报中认为数据中心发展的大型化、集约化的趋势下,液冷方案仍存在每年降本5-10%的空间,再考虑到液冷方案能够有效延长服务器使用寿命,未来液冷数据中心总成本的优势将更加明显。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。