AI基础设施的未来:谷歌与微软在多数据中心训练中的竞争态势

常华Andy
谷歌、OpenAI和Anthropic已着手将大规模模型训练扩展至多个数据中心园区。谷歌拥有全球最先进的计算系统,率先大规模应用机架级液冷架构和多数据中心训练等关键技术。微软和OpenAI深知自身在基础设施方面的短期劣势,因此启动了一项雄心勃勃的计划,试图在基础设施建设上赶超谷歌。他们正努力在谷歌的强项领域——水冷多数据中心训练集群上与之一较高下。

谷歌与微软核心能力对比

基础设施与扩展能力
  • 谷歌:爱荷华州Council Bluffs园区IT容量接近300兆瓦,预计2023年总容量将超500兆瓦。俄亥俄州和爱荷华州/内布拉斯加州预计2025年底总容量将达1吉瓦,哥伦布地区即将建设的吉瓦级集群。2025年预计在多个园区进行吉瓦级训练,2026年形成吉瓦级AI训练集群。
  • 微软:凤凰城最大AI训练基地计划扩展至10座建筑,自建24个数据中心。威斯康星州自建超级园区,成为最大单一数据中心园区。德克萨斯州与Oracle+Crusoe和CoreWeave+Core Scientific合作,建设多个吉瓦级数据中心,计划在全美范围内扩建,目标在规模上超越谷歌。
冷却技术
  • 谷歌:采用直接到芯片(Direct-to-Chip)的水冷方式,通过液-液热交换器将机架热量转移至中央设施水系统,部署数百万颗液冷TPU,总容量超过1吉瓦。
  • 微软:目前最大的数据训练集群尚未采用液冷技术,计划在密尔沃基和亚特兰大建设全液冷设计的单体建筑,专用于下一代AI硬件。
能源效率
  • 谷歌:实现1.1的PUE,大部分时间无需使用冷水机组,采用巨型冷却塔和集中式水系统,能散发近200兆瓦热量。
  • 微软:PUE为1.223,风扇功耗超过服务器功率的15%。计划在未来园区采用空冷冷水机组,水使用效率(WUE)达2.24升/千瓦时,远高于行业平均的0.49。
AI技术与产品
  • 谷歌:Gemini 1 Ultra模型率先实现多数据中心训练,即将发布的Gemini 2有望在合成数据、强化学习和模型架构方面赶超OpenAI和Anthropic,部署数百万颗液冷TPU。
  • 微软:与OpenAI合作,计划在多个超大规模园区互联,实施覆盖全美的大规模分布式训练,计划建立多吉瓦级的计算系统。
通信网络
  • 谷歌:在俄亥俄州和爱荷华州/内布拉斯加州的集中区域可进一步互联,支持单一模型的多吉瓦训练,采用高带宽光纤网络,确保多数据中心间的低延迟通信。
  • 微软:与Lumen Technologies和Zayo合作,利用先进的光纤技术和基础设施支持大规模AI训练集群,计划通过高速光纤网络实现多园区间的低延迟通信和数据传输。

微软吉瓦级AI训练集群计划

一、概况
  • 目标: 将多个园区互联,打造大规模AI训练集群。
  • 合作伙伴: Lumen Technologies与Zayo为微软提供光纤技术支持,构建高性能计算网络。
  • 需求: 需要处理海量数据,实现低延迟通信,以满足AI模型训练的需求。
二、Lumen Technologies的角色与挑战
  • 协议签署: Lumen与微软达成50亿美元的互连协议,并与Corning签署了保持10%产能的协议。
  • 市场需求: AI推动的光纤需求急剧上升,Lumen计划再争取70亿美元的销售机会。
  • 闲置资源: Lumen拥有大量“暗光纤”未被充分利用,面临升级机会。
三、电信行业的趋势与挑战
  • 资本支出: 预计未来电信资本支出将超过100亿美元,专门用于多数据中心的AI训练。
  • 价格压力: 由于互联网价格下降,企业流量向互联网迁移,造成对MPLS需求的减少。
四、受益公司及其发展前景
  • Fabrinet: 通过400ZR产品线受益,电信业务占收入的近40%,并与多家电信客户保持良好合作。
  • Lumentum: 受ZR/ZR+光学器件需求增长的推动,预计实现显著收入增长。
  • Ciena: 在电信硬件市场占据领先地位,特别是在AI流量需求驱动下,订单持续增长。
  • Cisco: 超大规模客户的订单实现两位数增长,预计未来还将继续获得AI相关订单。
  • Marvell: 在ZR光学和相干DSP领域具备竞争优势,相关业务快速增长,市场前景广阔。
基础知识

多数据中心分布式训练

1. 概念与目标:数据中心分布式训练通过将训练任务分散到多个数据中心,以实现更高的计算效率和资源利用率。

2. 关键步骤:

  • 数据分割:将训练数据划分为多个迷你批次,分配给不同的数据中心。
  • 梯度计算:各中心独立计算梯度。
  • 梯度同步:使用高效的通信机制(如all-reduce)同步梯度,以确保模型参数一致。

3. 挑战与问题:

  • 通信开销:随着芯片数量增加,通信延迟和带宽要求显著上升,影响整体训练效率。
  • 延迟问题:不同地理位置的数据中心之间的延迟会显著降低训练速度。
  • 滞后节点:性能不均衡的节点可能导致整体训练任务速度下降,影响模型收敛。

4. 解决方案

  • 异步训练:采用异步更新策略,减少对全局同步的依赖,提高效率。
  • 优化通信协议:开发更高效的通信协议,降低延迟和数据交换成本。
  • 动态资源调整:实时监测网络状态,动态调整资源分配以应对延迟和带宽波动。

5. 其他考虑:

  • 扩展性:根据阿姆达尔定律,增加节点并不总能线性提升训练性能。
  • 监控与优化:需要对MFU等性能指标进行监控,以识别并消除滞后节点,保持训练效率。
容错训练

1. 概念与目标:容错训练是指在分布式系统中,通过设计来应对硬件故障,使得即使部分计算单元(如GPU)发生故障,整体训练过程仍可持续进行,避免从检查点重启,减少资源闲置。

2. 关键步骤:

  • 故障检测:实时监控计算单元状态,及时识别故障节点。
  • 资源分配:在故障发生时,将计算任务动态重分配到可用的GPU上。
  • 状态恢复:在容错条件下,保持模型训练状态,不影响整体训练进度。

3. 挑战与问题:

  • 边缘案例覆盖不足:现有开源库(如TorchX)未能处理所有可能的故障情况,限制了应用场景。
  • 网络故障影响:在大规模GPU集群中,网络故障会导致数据包重传,影响训练效率。
  • 性能差异:不同硬件的性能差异(芯片抽奖效应)会影响容错机制的效果。

4. 解决方案:

  • 开发全面的容错系统:借鉴谷歌的Borg和Pathways,构建覆盖更多故障场景的容错基础设施。
  • 改进网络通信:优化数据传输机制,减少对顺序传输的严格要求,提高容错能力。
  • 利用检查点技术:实现GPU进程状态和内存内容的检查点保存,支持更灵活的故障恢复。

5. 其他考虑:

  • 高温烧机测试:在系统投入使用前进行充分的烧机测试,以筛除早期故障,提高系统稳定性。
  • 静默数据损坏(SDC)检测:采用工具(如DCGMI)监控并识别SDC问题,以确保计算结果的准确性。
  • 技术保密与开放:尽管容错训练方法日益重要,但相关技术的公开程度较低,可能影响行业发展与合作。
训练策略

1. 概念与目标:训练策略旨在优化分布式训练过程,通过减少全局同步次数和允许部分独立运行来克服阿姆达尔定律中的回报递减问题,适用于跨园区、多区域或跨大陆的训练场景。

2. 关键步骤:

  • 层级化同步:根据延迟和带宽差异,设定不同层级的同步频率,以适应不同地理位置的GPU配置。
  • 负载平衡:在不同园区间根据GPU数量和批量大小进行动态调整,确保训练过程中的负载均衡。
  • 参数服务器机制:使用多层参数服务器架构,允许模型副本与多个服务器频繁交换数据,确保全局权重的及时更新和收敛。

3. 挑战与问题:

  • 收敛性问题:异步更新可能导致收敛困难,需要优化算法以避免不稳定。
  • 合并与更新:在大模型训练中,合并不同分支的更新可能造成额外工程复杂度,影响效率。
  • 网络瓶颈:跨区域训练面临带宽和延迟的双重限制,可能影响整体训练速度。

4. 解决方案:

  • 优化异步参数服务器:改进现有异步参数服务器模型,通过算法创新来解决更新和收敛问题。
  • 强大分片器:利用谷歌的MegaScaler等工具来实现高效的跨园区训练和权重交换
  • 网络基础设施优化:推广高带宽、低延迟的网络技术,降低跨区域训练的带宽需求。

5. 其他考虑:

  • 未来扩展性:预计未来模型规模可达100万亿参数,需提前布局相关基础设施。
  • 光纤铺设成本:在跨区域训练中,需考虑光纤铺设的成本和许可问题,确保网络布局的可行性。
  • 行业动态:对异步训练的回归可能要求重新评估现有训练策略和基础设施设计,以适应新的技术要求。
调制与复用技术

1. 概念与目标:调制与复用技术通过提高信号传输效率和带宽利用率,优化光纤通信,特别是在数据中心和电信网络中,以满足高速数据传输的需求。

2. 关键步骤:

  • 调制方案选择:使用如PAM4、16-QAM和64-QAM等高级调制方案,增加每符号传输的比特数,提升传输速率。
  • 密集波分复用(DWDM):将多个波长的光信号复合到一根光纤中,从而显著增加带宽。
  • 相干光学技术应用:采用相干光源和数字信号处理器(DSP)实现复杂的调制方案,确保信号的准确性和稳定性。

3. 挑战与问题:

  • 成本问题:高阶调制方案和相干光学设备(如可调谐激光器)成本高昂,限制了普及。
  • 光纤质量限制:长距离传输受光纤本身的限制,需要高质量的光纤和设备以减少信号衰减。
  • 信号干扰:非相干光源可能导致相位干扰,影响调制信号的恢复。

4. 解决方案:

  • 优化相干光模块:采用硅光子技术降低成本,并逐步使用O波段激光器简化设计。
  • DWDM技术扩展:通过增加波长数量(如C波段和L波段)来提升带宽,适应不断增长的客户需求。
  • 模块化设计:使用ZR/ZR+光模块实现直接插入网络端口,简化电信设备链。

5. 其他考虑:

  • 行业趋势:随着AI和大数据需求增加,调制与复用技术的持续发展将成为数据中心互连和电信网络的关键。
  • 未来预期:高阶调制和DWDM的结合有望在单对光纤上实现超过100Tbps的传输能力,推动更大规模的网络升级。
电信网络部署

1. 概念与目标:电信网络是用于数据传输的基础设施,旨在满足高带宽、高可靠性的通信需求,特别是支持数据中心互连与跨地域训练。目标是通过优化光纤资源配置和传输技术,实现大规模、高效的数据交换

2. 关键步骤:

  • 光纤铺设:在城市和主要基础设施旁铺设大量光纤对,通常预留闲置光纤以应对未来需求。
  • DWDM技术应用:通过密集波分复用将多个光信号合并到单一光纤中,显著提升带宽。
  • 超大规模运营商自建网络:超大规模运营商通常选择直接与设备供应商合作,以满足其特定需求。

3. 挑战与问题:

  • 成本控制:海底光缆部署成本高,主要集中在光纤对数量上,而陆地光缆的主要成本在于劳动力和设备。
  • 资源稀缺:在某些城市地区,光纤资源可能受到限制,导致超大规模运营商不得不使用较少的光纤对。
  • 技术复杂性:长途网络需要多种电信设备,增加了系统复杂性和占用空间。

4. 解决方案:

  • 扩展光纤对的部署:超大规模运营商通常会选择提前铺设多于实际需求的光纤对,以减少后续的复杂电信部署。
  • 模块化电信设备:使用模块化的机箱组合各类设备,如转发器、DWDM多路复用器和ROADM,以提升系统灵活性和可扩展性。
  • 动态网络管理:通过ROADM实现光信号的动态调节与优化,提升网络性能和资源利用率。

5. 其他考虑:

  • 市场趋势:非云客户的电信设备需求可能逐步复苏,促使设备供应商的市场前景改善。
  • 技术进步:随着ZR/ZR+光模块在数据中心互连中的应用扩大,预计对电信设备和系统的支出将增加,推动行业向更高性能设备转型。

 

AI基础设施的未来,谷歌与微软在多数据中心训练中的竞争态势

吉瓦(GW)级集群、通信网络、长途光缆、分层与异步随机梯度下降(SGD)、分布式基础设施

随着规模定律(Scaling Laws)持续推动AI发展,基础设施建设需求激增。今年,顶尖AI模型训练集群已扩展至10万个GPU单元,预计2025年将达到30万个。然而,受制于建设周期、审批流程、法规限制和电力供应等现实因素,传统的单一数据中心大规模同步训练模式正逼近极限。

谷歌、OpenAI和Anthropic已着手将大规模模型训练扩展至多个数据中心园区。谷歌拥有全球最先进的计算系统,率先大规模应用机架级液冷架构和多数据中心训练等关键技术,这些技术如今才逐步被其他公司采纳。

Gemini 1 Ultra模型率先实现多数据中心训练。尽管谷歌在浮点运算能力(FLOPS)上领先,但在合成数据、强化学习(RL)和模型架构方面仍落后于OpenAI和Anthropic。即将发布的Gemini 2有望改变这一局面。更值得关注的是,谷歌预计2025年将具备在多个园区进行吉瓦级训练的能力,但其长期规划出人意料地比OpenAI和微软更为保守。

当大多数企业刚开始接触英伟达GB200架构的高密度液冷AI芯片时,谷歌已部署了数百万颗液冷TPU,总容量超过1吉瓦(GW)。这凸显了谷歌在基础设施方面的巨大优势。

谷歌展示的AI训练园区目前电力容量接近300兆瓦(MW),预计明年将增至500兆瓦。除规模庞大外,这些设施还具备极高的能源效率。设施采用巨型冷却塔和集中式水系统,通过水管连接三栋建筑,能散发近200兆瓦热量。借此系统,谷歌大部分时间无需使用冷水机组,实现了1.1的PUE(电源使用效率),这一数据来自2023年最新环境报告。

谷歌采用直接到芯片(Direct-to-Chip)的水冷方式,通过液-液热交换器将机架热量转移至中央设施水系统。这种高效能源系统与英伟达GB200的液-液部署极为相似。

相比之下,微软目前最大的数据训练集群尚未采用液冷技术。每栋建筑的IT容量比谷歌低约35%,尽管总建筑面积(GFA)相当。公开数据显示,微软的PUE为1.223,但这一计算对空冷系统有利,因为未能准确计量服务器内部风扇功耗。以H100空冷服务器为例,风扇功耗超过服务器功率的15%,而液冷DLC服务器仅不足5%。

因此,微软每瓦供给芯片的功率需额外消耗约45%用于服务器风扇、电力冷却和其他非IT负载,而谷歌仅需额外15%左右。考虑到TPU的更高效率,微软的整体情况不容乐观。

此外,为在亚利桑那州等沙漠地区实现较高能效,微软需大量水资源。其水使用效率(WUE)达2.24升/千瓦时,远高于行业平均的0.49和谷歌略高于1的水平。这一高水耗引发负面关注,微软被要求在未来园区采用空冷冷水机组,虽可降低耗水,但会进一步提高PUE,拉大与谷歌的能效差距。

综上所述,根据现有数据中心设计,谷歌拥有更高效的基础设施,且能更快扩展兆瓦级容量。由于单栋建筑容量高出50%以上,谷歌每瓦IT负载所需公用电力相对较少。

谷歌的AI训练基础设施

谷歌在基础设施建设方面独树一帜。其单个数据中心设计已超越微软、亚马逊和Meta,但这仅是冰山一角。过去十余年,谷歌一直在构建大规模园区。爱荷华州Council Bluffs园区就是典型案例,虽历史悠久,但西部区域IT容量接近300兆瓦。尽管大部分容量用于传统工作负载,我们推测下方建筑可能部署了大量TPU。东部扩展区采用最新数据中心设计,进一步增强AI训练能力。

谷歌最大的AI数据中心彼此毗邻。公司在俄亥俄州和爱荷华州/内布拉斯加州拥有两个主要多数据中心区域。目前,Council Bluffs周边地区正大规模扩建,容量将超过现有规模两倍。除上图所示园区外,谷歌在该地区还有三个在建站点,均正升级高带宽光纤网络。

在方圆15英里内,谷歌在Council Bluffs、奥马哈和爱荷华州Papillon设有三个站点,另一个位于50英里外的内布拉斯加州林肯市。图中Papillon园区为奥马哈和Council Bluffs地区增加了超250兆瓦容量。结合上述园区,2023年谷歌在该地区总容量将超500兆瓦,大部分分配给TPU。

其他两个站点规模尚未达此水平,但正快速扩张。四个园区合计,预计2026年将形成吉瓦级AI训练集群。50英里外的林肯数据中心将成为谷歌最大单体站点。

谷歌庞大的TPU部署不止于此。另一个即将建设的吉瓦级集群位于俄亥俄州哥伦布地区,采用类似发展模式。预计2025年底,三个园区总容量将达1吉瓦。

图示New Albany集群将成为谷歌最大数据中心之一,已部署TPU v4、v5和v6。

谷歌在俄亥俄州和爱荷华州/内布拉斯加州的集中区域可进一步互联,支持单一模型的多吉瓦训练。我们的数据中心模型详细记录了逾5,000个数据中心的历史和预测电力数据,涵盖AI实验室、超大规模云厂商、次世代云及企业集群的建设状况。后续报告将深入探讨多数据中心训练的软件栈及相关方法。

微软与OpenAI的基础设施反击策略

微软和OpenAI深知自身在基础设施方面的短期劣势,因此启动了一项雄心勃勃的计划,试图在基础设施建设上赶超谷歌。他们正努力在谷歌的强项领域——水冷多数据中心训练集群上与之一较高下。

微软和OpenAI正在建设接近吉瓦级的超高密度液冷数据中心园区。同时,他们还与Oracle、Crusoe、CoreWeave、QTS、Compass等公司合作,力争在AI训练和推理总容量上超越谷歌。

部分园区建成后,规模将超过谷歌目前任何单一园区。实际上,微软在威斯康星州的园区规模将超过谷歌在俄亥俄州所有站点的总和,但建设周期较长。

然而,OpenAI和微软的野心远不止于此。他们计划将多个超大规模园区互联,实施覆盖全美的大规模分布式训练。他们将率先建立一个多吉瓦级的计算系统。与供应链伙伴携手,他们正在进行史上最宏大的基础设施建设。

本报告后续将详细介绍微软和OpenAI的基础设施建设情况。在此之前,我们将首先探讨多园区的同步和异步训练方法、滞后节点、容错机制、隐性数据损坏以及多数据中心训练面临的各种挑战。

接下来,我们将解析数据中心间如何通过光纤通信网络实现互联,包括相关技术和设备。

最后,我们将分析电信供应链,并讨论这轮AI基础设施建设中的关键受益者,以及我们认为哪些公司将在其中占据优势。

多数据中心分布式训练

大型语言模型(LLM)通常采用同步训练方式。训练数据被划分为若干小型迷你批次,由不同GPU组上的模型副本处理。每个迷你批次处理后,各副本计算梯度,然后在每批次结束时同步。

这种同步通常通过all-reduce等集体通信操作完成,汇总所有副本的梯度。汇总后,梯度被平均化并用于同时更新模型参数。这确保所有数据副本保持一致的参数集,保证模型稳定收敛。由于同步过程要求所有设备在下一步前等待彼此完成,因此确保没有设备在模型状态上超前或落后。

尽管同步梯度下降提供稳定收敛,但也带来巨大挑战,特别是单一训练任务中芯片数量超10万时,通信开销显著增加。同步特性意味着对延迟有严格要求,且必须有足够大带宽连接所有芯片,因为数据交换往往以巨量数据流形式发生。

当尝试使用多区域GPU处理同一训练任务时,区域间延迟增加。即使光纤中以208,188公里/秒速度传播,美国东西海岸往返时间(RTT)也需43.2毫秒。各类电信设备还引入额外延迟。这对标准同步训练是显著挑战。

根据阿姆达尔定律(Amdahl's law),当工作负载中存在大量同步操作时,增加芯片带来的加速效果迅速递减。随芯片数量增加,程序运行中需同步的部分比例不变,会达到理论极限,即使GPU数量翻倍,总吞吐量增加也不超1%。

除理论扩展极限外,同步梯度下降实际应用还面临滞后节点等挑战。某芯片比其他慢10%时,会导致整个训练任务也慢10%。图示中,从步骤7500到19000,字节跳动的MFU(机器浮点利用率)逐渐下降,因越来越多芯片速度略有下降,整个任务逐渐受制于滞后节点。

识别并移除滞后节点后,字节跳动从检查点重启训练任务,恢复正常MFU水平。可见MFU从40%降至30%,减少25%。拥有100万GPU时,25%MFU下降相当于25万GPU闲置,约合超100亿美元IT资本支出。

容错训练(Fault Tolerant Training)

容错训练是分布式系统的关键环节。当数百万计算、存储和内存元件同时运行时,故障不可避免,甚至可能出现"芯片抽奖"(Silicon Lottery)导致的性能差异。系统设计旨在应对这些问题。然而,机器学习训练作为全球最大规模的计算问题,却采用了相反策略。

所有芯片必须完美运行,因为10万GPU中任一故障都将导致全部GPU从检查点重启,造成大量闲置。容错训练允许在单GPU故障时,仅少量GPU受影响,大多数可继续运行,无需从模型权重检查点重启。LLAMA 3.1等开源模型已因此消耗大量成本和时间。

英伟达InfiniBand网络存在类似潜在缺陷,要求每个数据包按完全相同顺序传输。任何偏差或失败都需重新传输数据。10万GPU集群报告指出,单是网络故障影响就可以以分钟计。

主要开源库TorchX(前身TorchElastic)实现了容错训练,但存在显著缺点,如无法覆盖所有边缘故障情况,不支持三维并行。这导致大型AI实验室不得不自行开发容错训练系统。

谷歌作为容错基础设施领先者,通过Borg和Pathways实现最佳容错训练。这些库涵盖最多边缘案例,体现谷歌垂直整合优势:自行设计训练芯片、构建服务器、编写基础设施代码并进行模型训练。这种高度集成有助于快速应对并解决根本性问题。

总体而言,容错能力是扩展10万+GPU集群至单一工作负载的关键。英伟达在AI系统可靠性上远落后于谷歌,这也解释了容错能力在英伟达职位描述中频繁出现的原因。

设计冗余和容错机制,包括冗余组件、接口和错误校正码(ECC),以最大化系统可用性。评估并选择适当的技术和组件,以优化可靠性、可用性和可维护性,同时考虑平均故障间隔时间(MTBF)、平均修复时间(MTTR)和总拥有成本(TCO)等因素。

在CPU领域,容错基础设施通常被认为是一个已解决的问题。例如,谷歌内部的数据库Spanner支撑着所有谷歌的生产服务,包括YouTube、Gmail和Stadia(愿其安息),并能够在全球范围内进行分布式扩展,同时在存储服务器和NVMe磁盘故障方面具备容错能力。在谷歌的数据中心,每小时都有数百个NVMe磁盘发生故障,但对最终用户和内部而言,Spanner的性能和可用性始终保持不变。

另一个关于传统CPU工作负载容错性的例子是MapReduce。MapReduce是一种建模方式,用户可以通过处理数据样本来“映射”数据,并将多个数据样本“归约”为一个聚合值。例如,统计一篇论文中有多少个字母“W”是一个非常适合MapReduce的理论工作负载:对每个单词进行映射,映射将输出每个数据样本中“W”的数量,而“归约”则会聚合所有样本中的“W”数量。MapReduce可以通过检测哪些CPU工作节点出现故障,并在其他CPU工作节点上重新执行失败的映射和归约任务来实现容错。

Jeff Dean、Sanjay Ghemawat等谷歌世界级专家开发了大量CPU领域容错研究和系统。随机器学习训练规模扩大和容错要求提高,谷歌在构建可靠、稳健系统方面的专长将成为竞争优势。

GPU故障分布呈浴盆曲线,多发生于集群生命周期早期和末期。这解释了投入使用前广泛烧机测试的必要性。部分AI新兴云厂商为最大化使用寿命,未充分烧机测试,导致用户体验极差。

相反,超大规模云计算公司和大型AI实验室在高温和快速温度波动下长时间烧机测试,确保早期故障过去,系统进入随机故障阶段。但需在充分烧机时间和避免过度消耗GPU与光收发器寿命间平衡。

磨损故障多发生于设备生命周期末期,原因常为组件在高强度使用中经历快速中高温波动。光收发器尤其易受热循环损害。

CPU领域,物理主机错误率高时,通常将虚拟机(VM)迁移至另一主机。超大规模厂商甚至实现无缝迁移,用户无感知。这通常通过后台复制内存页面实现,应用程序短暂减速时,VM迅速切换至正常运行的第二个物理主机。

Linux主流软件包CRIU用于主要容器引擎,支持物理主机间容器和应用迁移,甚至可冻结整个进程状态并存储为检查点。长期仅适用于CPU和AMD GPU,直到今年英伟达才开始支持。

从2024年起,英伟达GPU将支持CRIU检查点,实现物理主机间更顺畅迁移CPU进程状态、内存内容和GPU进程。

微软Singularity集群管理器论文描述了利用CRIU实现GPU虚拟机透明迁移。Singularity设计初衷即考虑全球GPU工作负载调度管理,已用于Phi-3训练(1024块H100 GPU)等多个模型。微软在此方面追赶谷歌Borg集群管理器,后者拥有高度垂直整合优势。

容错训练重要性致相关方法公开基本停止。OpenAI等公司向硬件行业反馈问题时措辞含糊,避免透露分布式系统具体技巧。这些技术较模型架构更重要,二者均可视为计算效率一部分。

静默数据损坏(SDC)是另一常见问题,导致计算机处理结果产生静默错误,用户或管理员无警报。难以解决因"静默"意味不可察觉。部分轻微,但可能导致输出变为NaN或梯度异常增大。Jeff Dean梯度范数图展示部分SDC可通过梯度范数突变识别,但部分无法检测。

部分梯度范数突变非硬件SDC引起,而是大批量数据或超参数调整不当所致。所有运营GPU集群公司定期遇SDC问题,但小型中型新兴云厂商常因资源受限难以快速识别修复。

DCGMI诊断工具可诊断英伟达GPU SDC等错误,能捕获相当部分常见SDC,但无法处理许多导致数值错误和性能问题的边缘案例。

测试不同新兴云厂商H100时,尽管DCGMI诊断级别4通过,但NVSwitch ALU未正常工作,导致NVLS NCCL算法性能下降,产生错误all-reduce结果。后续NCCL/RCCL集体通信文章将深入探讨这些基准测试结果。

相比之下,谷歌Pathways在识别解决SDC方面表现优异。高度垂直整合的基础设施和训练堆栈使其能轻松在大规模训练任务前后进行SDC检查。

异步训练曾广泛使用。2012年Jeff Dean《Distbelief》论文描述在大量CPU核上训练深度学习模型的异步和同步梯度下降技术。引入全局"参数服务器",广泛应用于生产环境训练谷歌自动补全、搜索和广告模型。

当时参数服务器式训练效果良好。然而,新模型架构收敛性问题使行业逐渐回归完全同步梯度下降。目前所有前沿模型如GPT-4、Claude、Gemini和Grok均使用同步梯度下降训练。随GPU数量持续增加,未来可能再次转向异步梯度下降。

训练策略

为克服阿姆达尔定律中添加芯片时回报递减问题,可减少全局同步次数,允许更多工作负载(半)独立运行。此法适合跨园区、多区域甚至跨大陆训练,因GPU间延迟和带宽存在层级差异。

园区内建筑间(小于1公里)延迟极低、带宽极高,可频繁同步。区域内(小于100公里)带宽仍大但延迟更高,需减少同步频率。各园区GPU数量可不同,易于负载平衡。如园区A有10万GPU,B有7.5万,B的批量大小可为A的75%左右,同步时按GPU数量加权平均。

这一原则可适用于多区域及跨大洲的情况。由于延迟较高,应降低同步频率。本质上,这是一种分层同步方法。

打个比方,我们通常与近邻朋友会面频繁,与同一海岸其他城市的朋友会面较少,而与其他大洲城市的朋友会面更为罕见。

分层同步随机梯度下降(SGD)还有一个优势,即可减轻"掉队者"的影响。大多数"掉队者"仅在少数步骤中表现异常,但很快恢复正常。因此,同步频率越低,"掉队者"干扰同步过程的可能性就越小。由于每次迭代无需全局同步,掉队者的影响不再那么显著。分层同步SGD将成为未来多数据中心训练中的一项普遍创新。

另一前景方法是重用Jeff Dean 2012年DistBelief论文中异步参数服务器。模型副本处理自身数据批次,定期与参数服务器交换数据更新全局权重,类似git版本控制。简单实现可能引发收敛问题,但OpenAI有能力通过优化算法创新解决更新问题。

MetaAI的Branch-Train-Merge论文描述类似思路:从现有大语言模型分支,在数据子集上训练,再合并回主分支。此经验可能整合入OpenAI多园区训练技术。但对GPT-3 175B或GPT-4 1.8T等模型,合并问题未完全解决,需更多工程资源管理合并和更新,确保训练收敛。

拓展为层级架构需设置多层参数服务器,模型副本不仅与最近服务器交换数据,服务器间也交换。最低层单个模型副本与最近参数服务器频繁更新,确保本地快速收敛同步。

本地参数服务器分组至更高层,每层汇总优化下层更新再向上传递。大量GPU情况下,参数服务器可能需以FP32格式保存主权重,类似英伟达FP8训练服务器。主权重FP32存储避免多GPU累积溢出,实际计算可能用FP8甚至更低精度如MX6。

谷歌目前用强大分片器MegaScaler实现多园区训练,可在园区内多节点和区域内多园区间同步训练,为扩展单一训练任务芯片数提供稳定性可靠性优势。

然而,行业回归异步训练可能使MegaScaler成为谷歌瓶颈。基于同步训练原则的MegaScaler增加异步功能可能需大规模重构或重新开发。Pathways设计考虑异步数据流,但当前生产案例都基于全同步SGD训练。谷歌有能力重新设计此软件栈。

跨区域数据中心联网主要受带宽和延迟限制。长远看延迟将成更大瓶颈,因光速限制信号传播速度。跨区域铺设光纤主要成本在许可和开挖,非光纤本身。降低带宽需求策略仍至关重要。

未来多园区、多区域训练集群上模型规模可达100万亿参数量级。区域内可用区间带宽可望扩展至5Pbps,区域间合理估计为1Pbps。如此高带宽下,园区间交换权重不再是主要瓶颈,400TB权重(每参数4字节)传输仅需0.64秒。

 

英伟达MetroX Infiniband交换机用于40公里内网络连接,但AI实验室未用,仅少数非AI HPC集群在10公里内跨园区使用。每机箱仅2个100Gbps端口,40公里内以太网解决方案生态更成熟。即使广泛使用Infiniband的微软,数据中心间也用以太网。

从Gb到Tb:调制与复用技术的演进

当前数据中心内部网络通常为每个终端设备(如GPU)提供高达400Gbps的光纤连接速度。预计明年,英伟达将通过升级其Connect-X8网络接口卡,将这一速度提升至800Gbps,以满足AI应用的需求。

相比之下,电信网络通常需要在少量光纤上汇聚一个设施内多个设备和服务器的通信需求,并以更高速度传输。尽管数据通信中的800Gbps光模块通常在每对光纤上只能传输100Gbps(如DR8格式),需要多对独立光纤,但在电信应用中,单对单模光纤已能实现20Tbps至40Tbps的传输速度,适用于海底光缆以及众多陆地和城域网络部署。

更大带宽主要通过以下方式实现:

  1. 采用更高阶调制方案,在给定波长上传输更多比特。
  2. 使用密集波分复用(DWDM)技术,将多个波长的光信号复合到一根光纤上。

在调制方面,数据通信通常采用基于VCSEL和EML的光模块,这些模块能实现PAM4调制。PAM4是一种强度调制方案(即强度调制直接检测—IMDD光学器件),通过使用四个不同电平进行信号传输,每个符号编码两个比特。

提高速度可通过两种方式:提高符号传输速率(以千兆波特Gbd为单位),或增加每个符号的比特数。例如,400G SR8光模块以26.6 Gbd的速率传输符号,通过PAM4实现每符号2比特,在每对光纤上传输50Gbps。将8对光纤组合到一个连接器中,总传输速率达400Gbps。要达到800Gbps,可将符号速率提高到53.1 Gbd,同时仍在8条信道上使用PAM4。然而,提高符号速率通常比采用更高阶调制方案更具挑战性。

16阶正交振幅调制(16-QAM)是广泛应用于ZR/ZR+光模块和电信中的高阶调制方案。它不仅对信号波的四种不同幅度进行编码,还使用两组相位相差90度的载波波,每组载波波有四种不同幅度,总共16种可能的符号,每个符号传输4比特。通过引入双极化,即使用水平和垂直极化的两组载波波,进一步扩展至256种可能的符号,传输8比特。大多数400ZR/ZR+和800ZR/ZR+光模块支持双极化16-QAM(DP-16QAM),而运行在高质量光纤上的专用电信系统(具有更大规格尺寸)则可支持双极化64-QAM(DP-64QAM),实现每符号12比特的传输。

实现基于不同相位的调制方案需要使用相干光学技术。相干光在实现相位调制方案时至关重要,因为非相干光源会导致信号出现不一致的干扰,无法恢复相位调制信号。

相干光学系统需要使用相干数字信号处理器(DSP)处理高阶调制方案,并配备可调谐激光器和调制器。400ZR光模块通常使用硅光子技术以降低成本。由于可调谐激光器价格昂贵,业界正尝试使用成本较低的O波段激光器来实现简化的相干光模块。

ZR/ZR+光模块是日益流行的光收发器类型,采用相干光学技术,专为数据中心互连设计,能显著提高每对光纤的带宽,并实现120公里到500公里的更长传输距离。它们通常采用OSFP或QSFP-DD规格尺寸,与数据通信应用中常见的规格相同,可直接插入同一网络交换机使用。

传统电信系统也可用于数据中心互连,但需要更复杂的电信设备链,占用更多数据中心物理空间。而ZR/ZR+可插拔模块可直接插入网络端口,两端直接连接,绕过了多个电信设备。

更高阶的调制方案显著提高了每对光纤的带宽,例如与使用PAM4的IMDD光模块相比,双极化16-QAM可将带宽提高8倍。然而,长距离传输仍受限于光纤本身,因此可通过密集波分复用(DWDM)进一步增加每对光纤的带宽。DWDM将多个光波长合并到一对光纤中传输。例如,在C波段(1530nm至1565nm)和L波段(1565nm至1625nm)可各合并76个波长到同一光纤中。

如果每个波长传输800Gbps,该系统将能在单对光纤上实现高达121.6Tbps的传输。海底光缆通常最大化利用波长数量,部分部署可能使用少于16个波长,但也有采用96个波长的部署,当前典型部署目标是在单对光纤上实现20至60Tbps的传输能力。

许多部署初期仅激活C波段的少数波长,随客户需求增长逐步激活更多C波段波长,最终扩展到L波段,从而大幅提升现有光纤的传输速度。

超大规模运营商的电信网络部署

美国大多数城市拥有充足的光纤资源,可满足AI数据中心互连所需的巨大带宽需求。海底光缆部署通常仅包含8至12对光纤,因成本与光纤对数量成正比。相比之下,陆地光缆成本主要集中在劳动力、设备及使用权上,因此公司在城市地区铺设光缆时往往会部署数百甚至数千对光纤。

跨海训练的难度显著高于陆地训练。

典型的光纤业务模式通常预留相当数量的闲置光纤对,以应对未来需求。不仅城市,任何主要公路、输电线路、铁路或基础设施旁通常都有光缆铺设。在基础设施建设项目中,由于现场已有挖掘设备,增加光纤铺设几乎不需额外成本。

超大规模运营商倾向于自建网络,而非与电信服务商合作,他们直接与设备供应商和建筑公司合作,以满足长途、城市和数据中心互连需求。

数据中心互连通常通过铺设大量光纤对连接相距不超50公里的两个数据中心。超大规模运营商可将ZR光模块插入两个远程数据中心的网络交换机,调节至不同波长,然后通过无源多路复用器(DWDM链路)将多达64个光模块组合到一对光纤上。使用400ZR时,每对光纤可实现25.5 Tbps的传输速度。另一种方式是将每个ZR光模块插入独立的光纤对。

更复杂的电信系统也可实现DWDM,能将更多ZR光学信号多路复用到更少的光纤对上,并支持点对点之外的网络连接。但这需要额外机架空间放置电信设备,包括路由器、光路交换器(ROADM)和DWDM多路复用器/解复用器。

由于主要成本在于挖掘光纤沟渠,大多数超大规模运营商发现部署超出实际需求的光纤对更为简单,这样可节省数据中心内部空间,避免复杂的电信部署。仅在光纤容量受限时,他们才会考虑在短距离内部署广泛的电信系统,这种情况在美国以外地区较为常见,超大规模运营商可能被迫在光纤资源稀缺的城市中仅使用2至4对光纤。

然而,在长途网络中,超大规模运营商需使用与数据通信产品截然不同的全面电信产品系列。典型长途网络至少需要几种基本系统,包括转发器、DWDM多路复用器/解复用器、路由器、放大器、增益均衡器和再生站点,多数情况还包括ROADM(可重配置光添加/丢弃多路复用器)和WSS(波长选择开关)。

转发器在电信领域功能类似光模块,但价格更高,工作功率水平更高。一侧与实际电信网络(线路侧)进行传输/接收,另一侧提供多种组合的端口连接客户设备(客户侧)。例如,一个转发器可能在线路侧提供800Gbps,客户侧提供4个200Gbps的光电端口,但客户可选择多种端口容量和电气/光学组合。客户侧可连接到数据中心内的路由器或交换机,线路侧将连接到多路复用器,通过DWDM组合多个转发器的信号,并可能通过ROADM实现更复杂的网络拓扑。

DWDM通过多路复用器和解复用器(mux/demux)工作,将来自每个转发器的略有不同波长的光信号组合到一对光纤中。每个转发器都可调节,选择特定波长的光进行多路复用。使用ROADM时,转发器通常连接到无色多路复用器/解复用器,然后连接到波长选择开关(WSS),使ROADM能动态调节转发器至特定波长,优化网络目标。

光放大器用于抵消光信号在传输过程中的衰减,通常每60到100公里放置一次,可直接放大光信号而无需转换为电信号。每三台放大器后需一个增益均衡器,确保不同波长的光信号在不同速度下传输时能够均衡,避免错误。在跨越数千公里的超长距离部署中,需要再生,将光信号转换为电信号,重新整形和定时,并通过另一组转发器重新传输。

对于连接多个节点且有多个中转点用于添加或接收流量的网络,需使用ROADM。它可在网络特定位置光学添加或丢弃特定波长的光信号,无需将信号转换为电信号进行处理或路由。ROADM还具有控制平面,可主动发现和监测网络状态,了解光纤网络上的空闲通道、信号噪声比、保留波长,并能控制转发器,将线路侧调节至适当波长。

这些不同组件通常组合在一个模块化机箱中。

Ciena、Nokia、Infinera和Cisco是全球主要的电信系统和设备供应商,而Lumentum、Coherent、Fabrinet和Marvell为这些主要供应商提供各种子系统和主动组件。目前,组件厂商的优势主要体现在ZR/ZR+光学用于数据中心互连上,但随着超大规模运营商和其他运营商需要在相邻数据中心之外进行训练,他们可能会大幅增加对高平均售价电信设备和系统的支出。

非云客户对电信设备的需求似乎已触底,可能很快进入周期复苏阶段,从而提升各种电信供应商的前景。

OpenAI与微软的谷歌超越策略

如前所述,微软的标准设计在密度方面较谷歌存在劣势。尽管两家公司的数据中心建筑面积相当,但微软设施的兆瓦容量较低。

谷歌数据中心的PUE(电源使用效率)更低,意味着更多电力可用于IT设备,同时减少网络设备、CPU和散热系统的能耗。因此,尽管微软也有建设大型园区的经验,但其建设周期通常更长,整体规模也小于谷歌。

微软最大的AI训练基地位于凤凰城,该地点是其最大规模部署之一,未来将扩展至10座建筑。利用已获批的多个场地,微软计划自建24个数据中心。

为进一步扩容,微软在凤凰城周边积极租赁,这将显著扩大其在该地区的占地。然而,并非所有这些数据中心都将用于AI训练,部分可能服务于其他用途。

为在规模上超越谷歌,微软和OpenAI不能依赖微软既有的数据中心设计。他们正通过自建大幅提高新设施的密度,尤其是在密尔沃基,并与Compass、QTS、Crusoe、Oracle、CoreWeave等合作伙伴在全美范围内扩建。在密尔沃基和亚特兰大(通过QTS),微软正在建设全球最强大的单体建筑,采用全液冷设计,专用于下一代AI硬件。

位于威斯康星州的自建超级园区建成后,将成为微软或谷歌所有设施中最大的单一数据中心园区。Meta也在积极推进雄心勃勃的单一站点计划。

这仅是部分场地的概览,但其扩张速度惊人。微软和OpenAI庞大基础设施的另一部分位于德克萨斯州,通过与Oracle+Crusoe以及CoreWeave+Core Scientific在阿比林和丹顿的合作进一步扩大规模。

值得注意的是,在打造AI集群的过程中,微软还涉足了加密货币挖矿领域。CoreWeave租用了现有的Core Scientific加密矿场设施,而Oracle则与Crusoe合作使用其园区,Crusoe此前也深耕于加密货币领域。比特币矿工习惯于高密度、高功率的数据中心,许多矿场签署了大规模的电力供应合同。

Core Scientific的10-K文件显示,其在多个站点拥有1.2GW的合同容量。与全新建设数据中心相比,重新利用加密货币矿场的时间表要短得多,这使得这些设施在AI集群建设中的转型更加迅速和高效。

该公司正大规模转向AI的数据中心托管,并与CoreWeave达成了一项大规模协议,涉及382MW的IT电力供应,且交付时间较短。CoreWeave将采购GB200 GPU,并将其租赁给微软供OpenAI使用。我们认为,最关键的地点将是位于德克萨斯州丹顿的矿场。

与X.AI的现场发电机类似,这个数据中心也拥有充足的电力基础设施。该站点拥有一个225MW的天然气发电厂,位于所有加密矿场的中心位置。加密矿场将被拆除并进行大规模改造,替换为符合数据中心级别的电力和冷却系统。但与PUE高于1.3的自建数据中心相比,这个站点的效率仍然较低。

另一个重要的园区由Crusoe在德克萨斯州阿比林开发。Crusoe因其在北达科他州和怀俄明州的创新性伴生气挖矿站点而闻名,正在建设一个吉瓦级数据中心,并将其首期部分租赁给Oracle,后者将其装配为GPU和网络设备,然后再租给OpenAI。通过实时低分辨率卫星图像,我们可以观察到该园区的快速扩张。我们拥有精确详细的季度历史和预测电力数据,涵盖超过5,000个数据中心。这些数据包括AI实验室、超大规模云提供商、新兴云平台和企业的数据中心集群建设状况。

在美国其他地区,还有几个规模庞大的数据中心。为简明起见,我们不会在简报中逐一介绍,但核心要点非常清晰:

通过雄心勃勃的自建计划、积极的租赁策略、大型合作伙伴关系以及创新的超高密度设计,微软将以多吉瓦级集群规模引领AI训练市场。

吉瓦级巨型集群

微软正着手将多个园区互联,打造一个多吉瓦级的庞大训练集群。光纤公司Lumen Technologies和Zayo已签约合作,为我们提供了一些线索。

Lumen和Zayo的参与表明,微软可能正利用先进的光纤技术和基础设施来支持其大规模AI训练集群。这种大规模的数据中心互联需求意味着,微软正在构建一个能处理海量数据的高性能计算网络,通过高速光纤网络实现多园区间的低延迟通信和数据传输,以满足AI模型训练需求。

7月24日,Lumen宣布与微软达成协议,互连多个数据中心。几天后,Lumen又与Corning签署协议,在未来两年内保留10%的产能。我们预计未来还会有更多类似协议出现,这可能会极大扩展Corning的业务。

Lumen Technologies(纽交所代码:LUMN)于2024年9月4日宣布,由于AI推动的巨大连接需求,其已获得50亿美元的新业务。各行各业的大公司都在急于获取光纤容量,随着AI需求激增,这一资源变得愈发珍贵且可能供不应求。

此外,Lumen正与客户积极洽谈,希望再获得70亿美元的销售机会,以满足日益增长的客户需求。

Lumen Technologies是一家大型电信公司,业务涵盖多个领域,其中最重要的是企业部门。Lumen直接与企业合作,依托其庞大的光纤网络,解决他们的连接需求。

如前所述,该业务受到容量利用率问题困扰,大量租用或拥有的光纤已部署但处于闲置状态,即所谓的暗光纤。Lumen是美国最大的暗光纸供应商之一,与Zayo、AT&T和Crown Castle并驾齐驱。

企业电信业务也面临挑战,由于互联网价格下降,许多企业已将流量转移到互联网上运行,这损害了对MPLS(多协议标签交换,一种主要的企业产品,提供远程办公室之间的数据连接)的需求,导致价格压力和资源利用率不足。同时,电信容量的购买者因超大规模云服务商的崛起而变得更加集中,而这些云规模玩家往往倾向于自建电信网络。

这意味着许多光纤容量处于闲置状态,许多光纤虽已点亮但只使用了很少的波长,并仍在使用老旧的调制方案和较慢的数据速率。如果像AI训练需求激增这样的推动力出现,升级这些闲置光纤容量将成为一个巨大机遇,因为这可以显著提升网络的传输能力。

维持如此庞大的基础设施需要大量资本支出,与许多同行一样,Lumen面临现金流问题和巨额债务负担。该公司拥有接近200亿美元的金融债务,几乎没有产生任何自由现金流,其收入增长趋势保持稳定甚至有所下降。

多园区AI训练的兴起改变了上述局面,因为它需要巨大的带宽需求。微软是促成50亿美元协议的关键客户,并且可能还有另一笔70亿美元的交易正在酝酿中。

像Lumen这样的公司能够达成这样的交易(并且提到可能会有价值70亿美元的交易)是因为它们拥有广泛的未使用光纤网络。所有这些闲置容量和现有路线使超大规模云计算公司能够以成本效益高的方式构建大规模、超高带宽的网络。更重要的是,市场投放时间得以缩短,利用现有基础设施加速了原本需要数年时间的进程,尤其是在需要挖掘特别隧道的情况下。

对于Lumen来说,这笔50亿美元交易的经济效益如下:

  1. 商业结构采用的是IRU(不可撤销使用权),这是光纤行业的标准协议,本质上类似于资本化租赁。此类协议的典型期限为20年。
  2. 交易价值的85-90%与基础设施相关,剩余部分涉及运营和维护,以及电力和托管服务。
  3. Lumen估计该交易的现金利润率为30-35%,这意味着税前利润约为15亿美元。
  4. 大部分基础设施费用将在合同的前3-4年内进行现金预付款,剩余部分将随着里程碑的实现而增加,并在合同期内按年费形式收取。

尽管与该交易相关的资本支出(CAPEX)和运营支出(OPEX)增加导致EBITDA下降,该交易仍大幅提升了Lumen的年度自由现金流预期。

这可能只是一个开始。明年电信行业将迎来显著增长,而这个沉寂已久的电信公司显然正引领着收入的大幅增长。光纤公司开始注意到这个机会,但我们相信,实际影响将让投资者和该领域的公司都感到惊讶。以整个交换机、路由器和广域网(WAN)市场为例,其规模仅为750亿美元,因此一家公司50亿至100亿美元的增量投资将产生巨大影响。

我们预计,未来将有超过100亿美元的电信资本支出专门用于多数据中心训练。这些都是额外的增量支出。同时,电信市场目前正处于周期性低谷,这是一个新的增量驱动因素,伴随着市场的周期性回升。

受益的公司

除了Corning和Lumentum,Fabrinet在数据中心互联产品,尤其是400ZR产品线方面也颇具优势。在截至2024年6月的财年第四季度,400ZR产品线贡献了Fabrinet光学收入的10%。

Fabrinet在电信领域的布局远不止于400ZR。其电信业务在2024财年第四季度占总收入的近40%。同时,Fabrinet还拥有强大的数据通信收发器产品线,负责生产英伟达用于连接GPU的800G收发器。

ZR光学的持续增长是Fabrinet预计下季度电信业务环比增长的主要驱动力之一。随着ZR光学收入占比从约10%提升至超过20%,Fabrinet有望从中受益。作为一家专注于光学系统和组件的合同制造商,Fabrinet被誉为行业的“台积电”,凭借其规模优势和强大的市场地位,有望持续受益。

在2024财年,Cisco成为Fabrinet的第二大客户,仅次于英伟达,贡献了13%的销售额。加上其他电信客户的强劲需求,Fabrinet的电信业务展现出强劲的增长势头。

此外,Fabrinet新近赢得了Ciena的订单,预示着Ciena明年的订单量有望增长。过去,Lumentum和Infinera曾是Fabrinet的重要客户,这两家公司的复苏也将助力Fabrinet的电信收入增长。

Lumentum是另一家拥有电信业务的企业,预计其收入将实现连续季度的显著增长,主要得益于ZR/ZR+光学器件、ROADM以及C+L波段产品的需求增长。

与Lumentum的乐观预期不同,Coherent对未来的展望较为谨慎。尽管其400ZR+收发器业务表现强劲,但Coherent预计短期内电信市场整体仍将疲软。电信设备库存问题持续困扰着Coherent,导致其电信收入环比下降6%,同比下降38%。不过,Coherent的前瞻指引表明,电信市场的底部可能已经接近。

尽管Coherent继承了Finisar的传统,但由于业务多元化,电信业务在其总收入中的占比已大幅缩水。我们估计,截至2024年6月的财年下半年,电信业务仅占其总收入的13%。

相比之下,我们认为Lumentum的业务组合更为均衡,资本结构也更为稳健。如果Coherent能持续在数据通信业务上发力,并在电信领域取得突破,其债务或将推动股本回报的提升。

Ciena和Cisco均为电信行业巨头,产品线涵盖线路卡/收发器、路由器、复用器/解复用器和ROADM等传统电信设备。Cisco产品线更为多元,还涉足软件业务,而Ciena则专注于核心电信设备。Infinera也深耕电信领域,但即将被并入诺基亚。

在众多电信设备制造商中,Ciena对电信行业的专注度最高,其业务重心聚焦于电信网络硬件。Ciena多次提及云客户的强劲需求,并于2024财年第二季度财报电话会议中明确表示,已获得大量针对明年网络建设的订单,这些订单与AI流量需求密切相关。

虽然Ciena的主营业务仍是传统电信网络设备,而非数据中心互连,但其特别强调了18项400ZR+和800ZR+订单的获取。ZR光学产品为Ciena带来了增值机会,因为其业务主要集中在大都会和长途网络。

我们认为,Ciena在这些细分市场占据了领先地位。随着支持AI训练的电信网络对更高链路密度的需求,Ciena在内容和数量上均有增长潜力。在所有电信设备制造商中,Ciena在AI电信网络建设中的比例敞口最高。

Cisco强调,在截至2024年7月的财年下半年,超大规模客户的订单实现了两位数增长,成功抵消了服务商业务的疲软。此外,公司还斩获了10亿美元的AI订单,主要集中在以太网和光学产品领域,并预计在2025财年再揽获10亿美元的AI相关订单。

尽管Cisco在2021年收购了Acacia,以在相干DSP和ZR光学等领域占据有利地位,但近几期财报电话会议中鲜少提及ZR光学的机会。考虑到Cisco庞大的营收基数,即使AI数据中心互连需求大幅增长,对Cisco营收的百分比影响也将相对有限。

最后来看Marvell。通过收购Inphi,Marvell在PAM4 DSP领域占据了主导地位,并获得了包括Deneb、Orion和Canopus在内的一系列相干DSP产品。

我们认为,历史数据显示,在Inphi/Marvell业务中,相干DSP的占比相对较小。然而,这一格局正在发生转变。Marvell的ZR光学业务不仅受益于其相干DSP产品组合,还包括COLORZ、COLORZ 400ZR/ZR+和COLORZ 800ZR/ZR+等数据中心互连收发器。

这项ZR业务正迅猛增长,并有望成为其业务的重要组成部分,甚至与规模可观的PAM4业务相媲美。ZR收发器的平均售价远高于IMDD收发器,且出货量有望持续大幅增长。

Marvell在这一产品领域拥有更强的竞争优势,其COLORZ系列产品市场前景广阔。该公司已在一大主要超大规模客户处取得重大突破,且出货量持续大幅增长。此外,Marvell还为该产品拓展了多个新客户。这种影响将远远超出任何潜在的短期LRO问题,

参考资料:Patel, D., Nishball, D., & Ontiveros, J. E. (2024, September 4). Multi-Datacenter Training: OpenAI's Ambitious Plan To Beat Google's Infrastructure. SemiAnalysis. Retrieved from https://www.semianalysis.com/p/multi-datacenter-training-openais

文章来源: Andy730 原文标题《AI基础设施的未来:谷歌与微软在多数据中心训练中的竞争态势》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章