InfiniBand Vs 以太网,到底应该选择谁呢?这一点谁最有话语权?肯定是客户啊,肯定是花钱做AI网络建设的超级云服务厂商们啊,当然是微软、谷歌、meta、亚马逊、腾讯这些厂商们啊。
上周,OpenAI星际之门的新闻透露出来:微软之前建设AI集群选用的是InifiniBand,但微软加大投资的OpenAI下一步建设应该会选择超级以太网联盟UEC(Ultra Ethernet Consortium)的超级以太网传输。
Arista,一家高端网络交换机和路由器厂商,在参与的以太网与 InfiniBand 的五个 AI 网络集群竞标中,Arista 赢得了所有四个以太网。1Vs4,以太网看起来占得上风。作为超级以太网代表的Arista,包揽了4个以太网方案。Arista,值得研究。
1)Infiniband Vs 超级以太网的历史、优势与改进
发展了20年的InfiniBand历史脉络大致是这样的:
1999年,FIO Developers Forum(IBM、康柏以及惠普)和NGIO Forum(英特尔、微软、SUN)进行了合并,创立了InfiniBand贸易协会(InfiniBand Trade Association,IBTA),InfiniBand的诞生目的,就是为了取代PCI总线。
从英特尔公司和伽利略技术公司离职的员工,在以色列创立了一家芯片公司Mellanox,2001年加入InifiniBand联盟,并推出首款InfiniBand产品
2002年,InfiniBand阵营突遭巨变,英特尔公司“临阵脱逃”,决定转向开发PCI Express,微软也退出了InfiniBand的开发。
2004年,另一个重要的InfiniBand非盈利组织诞生——OFA(Open Fabrics Alliance,开放Fabrics联盟)。OFA和IBTA是配合关系。IBTA主要负责开发、维护和增强Infiniband协议标准;OFA负责开发和维护Infiniband协议和上层应用API。
2005年,InfiniBand又找到了一个新场景——存储设备的连接。
2010年,Mellanox和Voltaire公司合并,InfiniBand主要供应商只剩下Mellanox和QLogic。
2013年,Mellanox相继收购了硅光子技术公司Kotura和并行光互连芯片厂商IPtronics,进一步完善了自身产业布局。2015年,Mellanox在全球InfiniBand市场上的占有率达到80%。
2019年,英伟达(Nvidia)公司豪掷69亿美元,击败对手英特尔和微软(分别出价60亿和55亿美元),成功收购了Mellanox。对于收购原因,英伟达CEO黄仁勋是这么解释的:“这是两家全球领先高性能计算公司的结合,我们专注于加速计算(accelerated computing),而Mellanox专注于互联和存储。”
至此,InfiniBand基本变成了英伟达家的私有协议,InfiniBand的主要优势有:
- 高吞吐量:InfiniBand提供非常高的数据传输速度,通常在40Gbps到100Gbps或更高,适合对带宽要求极高的应用。
- 低延迟:InfiniBand设计用于低延迟通信,这对于需要快速数据交换的高性能计算(HPC)和实时分析等场景至关重要。
- 可扩展性:InfiniBand支持大规模的网络拓扑结构,可以轻松扩展以支持大量的节点和设备。
- 可靠性:InfiniBand具有强大的错误检测和纠正机制,保证了数据传输的可靠性。
- 数据中心优化:InfiniBand支持数据中心间的直接连接,减少了数据传输的跳数,提高了效率。
但AI网络建设中,InfiniBand价格太过高昂,可谓天下苦InfiniBand久矣。于是2023年7月,英特尔和微软通过一个名为“超以太网联盟”(Ultra Ethernet Consortium)的新组织宣布了他们的计划,该联盟寻求通过“全行业合作”“为高性能网络构建一个完整的基于以太网的通信堆栈架构”。简单来说,UEC致力于从物理层、链路层、传输层、软件层改进以太网技术,寻求大规模提高效率和性能的最佳方法。
UEC 创始成员包括AMD,Arista,Broadcom,Cisco,Eviden(Atos Business),HPE,Intel,Meta,Microsoft。超以太网联盟(UEC)于2023年10月开始接受新成员后,众多行业巨头加入该联盟,包括百度、戴尔、华为、IBM、诺基亚、联想、超微和腾讯等。
超以太网联盟成立之初的口号便是“开放”,很显然这个冲着“InfiniBand”来的。超级以太网(Ethernet)的主要优势有:
- 普遍性和兼容性:以太网是全球最广泛使用的网络技术之一,具有广泛的硬件和软件生态系统支持。
- 成本效益:由于其广泛的采用,超级以太网的硬件和设备通常比InfiniBand更便宜,维护和升级也更为经济。
- 简单性:以太网的配置和管理相对简单,大多数IT专业人员都熟悉以太网的技术标准和协议。
- 灵活性:超级以太网支持多种应用,从传统的数据中心网络到存储区域网络(SAN)和云计算环境。
- 持续创新:以太网技术不断进步,新一代的以太网标准(如25Gbps、40Gbps、100Gbps等)提供了与InfiniBand竞争的速度和性能。
UEC创始成员率先对以太网进行了三项改进,以减少延时和拥塞,缩短作业完成时间。这三项改进为:
- 第一项:数据包喷洒。AI网络拓扑结构需要数据包喷洒,以允许每个GPU同时访问所有目标。UEC动态开发多种形式数据包喷洒,以实现负载均衡。
- 第二项:访问灵活排序。与 InfiniBand 的僵化排序不同,快速可靠的批量传输是AI网络的必须项,以太网链路进行灵活排序,以最佳方式平衡AI 密集型操作。
- 第三项:网络拥塞管理。在 AI 网络中,存在一个常见的内部传播拥塞问题,即多个不协调的发送方同时向接收方发送流量导致拥塞。UEC联盟改进的以太网,旨在避免这些热点,在虚拟输出队列、VoQ无损结构中均匀地将负载分布在多个包中。
同时,UEC 传输在设计上结合了网络安全,增加了加密功能。AI 训练和推理通常发生在需要作业隔离的托管网络中。人工智能模型是越来越敏感和有价值的商业资产。认识到这一点,UEC 加密和验证 AI 训练或推理作业中计算端点之间发送的所有网络流量。
此外,UEC 还在开发技术以支持未来高性能计算 (HPC) 的网络需求。认识到对带宽和延迟的不同敏感性,UEC 规范将提供两个配置文件:一个针对 AI 优化,另一个针对 HPC 优化。
看得出,超以太网联盟在成员广泛度方面胜过InfiniBand,包括芯片厂商、网络设备厂商、云服务厂商整条产业链上的最顶级的玩家让产业链生态不单开放,且更为成熟。同时超以太网联盟还进一步针对AI集群做了针对性优化,比如灵活度、网络拥塞、加密、延迟优化等。InfiniBand的优势在于因为“私有关系”能与英伟达的GPU更高速的传输,但是考虑到AI集群未来数以万计、十万级、甚至百万计的节点,网络能力更强的超以太联盟将更有优势。
得出超以太网更具优势之后,我们来看看联盟关键成员之一:Arista
2)超级以太网联盟的高端网络设备商:Arista
Arista 于2004年10月在特拉华州注册成立。该公司在数据驱动,并于 2008 年上市、客户端到云端的大型数据中心、园区和路由环境联网方面处于行业领先地位。Arista 团队是网络技术方面全球公认的受尊敬的领军者和有远见的团队。过去十年公司股价从13美元涨至当前的289美元,十年20倍的长线牛股。
2023年2月13日,Arista发布公司2023年度年报,并举办了业绩说明会,我们看看公司管理层透露了哪些关键信息:
1. 2023年度指引是营业收入同比增长25%,但最终营收结果却远远超过25%达到了33.8%。2023年实现营业收入达到58.6亿美元,实现创纪录的非GAAP每股收益6.94美元,同比增长超过50%。
2. 2023Q4实现营收为15.4 亿美元,非GAAP 每股收益为2.08 美元,创下历史新高。其中硬件销售贡献了83%的收入,服务和软件支持续订贡献了约17%的收入。非GAAP毛利率为65.4%,是因为供应链改善和企业规模效应。2023Q4国际贡献率为22.3%,美洲为77.7%,开始从美国走向全球。
3. 2023年分客户看:1)云巨头贡献显著,约占收入43%;2)包括金融在内的企业客户贡献约为36%;3)剩下的分销商贡献则为21%。其中公司前两大客户为:Meta和Microsoft分别贡献了收的21%和18%。
4. 以太网从文件打印共享的2.95 兆比特到人工智能时代的T比特以太网交换,速度提高了高多个数量级。AI工作负载无法容忍网络延迟,因为只有在所有流成功交付到GPU 集群后才能完成作业。只要有一个链接的出现故障或延迟将限制整个AI 工作效率。
5. Arista 和 Ultra Ethernet Consortium 的创始成员率先进行了三项改进,以缩短作业完成时间。
- 1)数据包喷涂。AI网络拓扑需要数据包喷洒,以允许每个流同时访问目标的所有部分。Arista与客户一起动态开发多种形式的负载均衡;
- 2)订购灵活。与 InfiniBand 的僵化排序不同,快速可靠的批量传输是快速可靠的批量传输,使用以太网链路进行灵活排序,以最佳方式平衡AI 密集型操作。Arista正在与其领先的供应商密切合作,以实现这一目标。
- 3)网络拥塞。在 AI 网络中,存在一个常见的内播拥塞问题,即多个不协调的发送方可以同时向接收方发送流量。Arista的平台是专门构建的,旨在避免这些热点,在我们的虚拟输出队列、VoQ无损结构中均匀地将负载分布在多个包中。
6. 2023 年的年度核心产品:包括云、AI和数据中心产品。建立在高度差异化的 Arista 可扩展操作系统系统堆栈之上。这些产品以 10、25、100、200 和400 GB 的速度成功部署,这些核心产品占了约65%的收入。
7. 在100、200和400G端口的最高性能交换方面继续扩大份额,以大约40%的全球市占率,称为全球高端龙头。
8. 已将400 GB 的客户群从2022 年的600 家客户增加到2023 年的约800 家客户。预计400 和800 G以太网将成为AI 后端GPU 集群的重要试点。
9. 预计2025 年实现至少7.5 亿美元的 AI 网络收入,对该目标持谨慎乐观态度。
10. 除了核心设备之外的(占比65%),第二个产品是网络邻接设备(收入占比19%),包括园区路由、替换路由器以及工作空间。公司继续在园区内取得进展,目标是到2025 年实现7.5 亿美元的收入。仅在2023 年,公司就在开发了600 个新功能和在50 个平台上推出了6 个EOS 软件版本。在2023 年秋季,公司又推出了WAN 路由系统,重点关注规模、加密和WAN 传输路由功能。
11. 第三产品是基于订阅模式的网络软件和服务(收入占比16%),比如:Arista A-Care、CloudVision、DANZ Monitoring Fabric或DMF可观测性,以及用于网络检测和响应的高级威胁传感器。该块业务累计客户数量超过2,400 家,虽然2023 年的全球焦点是人工智能,但公司也对企业级服务和分销商发展势头感到满意。Arista继续通过多个用例和垂直领域实现全球业务多元化。过去三年中,企业级服务收入翻了一倍多,公司正在通过EOS和CloudVision基金,成为客户到云到AI网络的黄金标准。
12. 2023年,价值百万美元的客户数量稳步增长了35%,得益于公司的园区和企业级业务发展势头。
13. Arista仍然是2023 年Gartner 园区级客户评价榜中唯一一家在Forrester Wave 的可编程交换和客户验证中名列前茅的纯网络创新者。
14. 公司收入目标是在2024年实现营业收入约65亿美元。
15. 公司23023Q4实现收入15.4 亿美元,同比增长20.8%,接近1.50 美元至15.5 亿美元指引的上限。其中,服务和订阅软件在第四季度贡献了约17%的收入,高于第三季度的16.8%;国际收入为3.435 亿美元,占总收入的22.3%,高于上一度的21.5%。国际收入环比增长主要是欧洲、中东和非洲地区的贡献。
16. 23Q4整体毛利率为65.4%,远高于63%的预期,高于23Q3的63.1%。随着出货量的增加和供应链成本的改善,2023年度毛利率季度环比逐步改善,虽然这在一定程度上被客户优化其预测产品组合所需的额外库存储备所抵消。
17. 递延收入总额为15.1亿美元,高于第三季度的11.95亿美元。递延收入余额的大部分与服务有关,与服务合同的时间和期限直接相关,服务合同可能因季度而异。
18. Arista于2008 年开始出货产品,在15 年内,数据中心的年带宽总体增长了350 倍。在过去的两年里,Arista的年带宽翻了一番,在此期间累计运送了7500 万个端口。
19. 最近几个季度,在数据中心交换市场的加速发展,市场份额增长到20%以上,包括端口计算和金额计算口径。
20. 预计2024年营收将增长10%-12%。这反映了在经历了多年的加速增长以及企业业务的持续增长轨迹后,对云支出放缓的前景预判。
21. 重申2024年毛利率范围为62%-64%,预计24Q1将处于区间低端,原因是云组合较重,包括一些预期的递延收入释放。在支出方面,预计对总支出的增速将快于收入增速。
22. 在参与的以太网与 InfiniBand 的五个 AI 网络集群中,Arista赢得了所有四个以太网,其中一个仍然留在 InfiniBand 上。这些都是非常知名的云客户。2023年是验证之年。2024年是中试之年。真正的量产之年要到2025年。
23. 人工智能网络部署中,交货瓶颈是GPU,在过去的几年里,公司一直处于在等待状态,GPU的交货时间真的很长。
24. AI集群叶架构里面,CPU和GPU和交换芯片重要性齐头并进,必须创建一个包含 1,000 台服务器的机架,这里面不仅有GPU还有CPU,通常希望将电缆、CPU和网络架起并在一起。在AI集群脊柱架构上,即使CPU处理器不可用,也可以独立工作。所以在叶节点上,CPU关联度更高,在脊柱上则不然。
25. 网络创新能力,是Arista 10 年来的传统,并将在未来可预见的10 年内继续与人工智能周期一起持续。在领先网络结构上,Arista做得非常好。在快速追随的第二梯队领域,Arista将继续在大型企业中做好。公司在财富1000 强和全球2000 强中的渗透率都还很低,还有很大的成长空间。公司仅有20% 的客户,还有80% 的客户可去覆盖。但是中端市场和中小企业,是服务不足的。
26. 当前AI集群网络正在从试验(连接数百个GPU)转向试点(连接数千个GPU),预计未来会有更大的生产集群。这些AI集群如何发展?是400、800还是组合?这是需要思考的。超级以太网联盟、标准和生态系统的作用,将发挥重要作用。
27. 作为AI 后端集群的旗舰产品-Arista 7800 AI 骨干,它能在容量超过500 TB 的单个机箱中提供大量端口,400或800 个。因此仅借此设备(Arista 7800)就可以连接多达1,000 个GPU。
28. 还可以将其扩展到具有16 路CMP 的两层AI 叶子和脊柱,用以支持近10,000 个GPU且不阻塞。这种以太网的无损架构,以及超级以太网联盟在拥塞控制、数据包弹簧和与一套UEC 混合配合方面的叠加,公司认为超级以太网将成为未来AI 网络的默认标准。
29. 今天的AI模型发展非常迅速,依赖于高带宽、可预测的延迟。公司认为Arista在AI网络的第一局中处于非常有利的地位,就像过去十年在云网络中一样的领先。
30. 所有的GPU,必须连接非常可靠,这就是Arista真正发挥价值的地方。因此,公司积极参与将带来很多红利,因为公司相信当前仍然处于人工智能的开局之初。
31. 自2023年11月9日分析师日以来,有些事情发生了变化。Microsoft、Meta和谷歌都上调了2024 年的资本支出预测。在2025 年,AMD将他们的TAM 大幅提升了数倍。他们应该是看到了未来AI的巨大需求。
32. 已经有几家供应链上领先公司表明:800 Gig和1.6T的早期部署将在2024年下半年出现拐点,真正实施于的前端网络。
文章来源:刘翔电子研究 节选自:《InfiniBand Vs 以太网?研究完Arista,结论更清晰》作者 刘翔