本文作者:龙玥
来源:硬AI
近期,摩根大通与Scale AI数据科学家、Meta前高级数据科学家Sri Kanajan举行电话会议,深入探讨超大规模AI数据中心架构趋势。
Kanajan认为,AI基础设施部署仍处于早期阶段,对产能过剩的担忧有限。算法进步正降低训练算力消耗,基础设施通过“训练转推理”实现高效循环利用,训练集群在新一代GPU推出后被快速重新配置为推理工作负载。不过,电力和冷却问题仍是扩展下一代数据中心的主要瓶颈。
算法革新:算力需求从训练向推理迁移
据摩根大通报告,近期算法突破——如混合模型(含DeepSeek)、精度训练及策略性强化学习——显著降低了整体AI模型训练所需的计算量。这促使行业将优化重点转向推理环节。
Kanajan指出,当前,业界正积极采用模型蒸馏、压缩等技术精炼模型,力求在不大幅增加原始算力投入的前提下提升性能。
基础设施:动态部署,担忧产能过剩尚早
Kanajan认为,AI基础设施部署仍处早期阶段,特别是考虑到云服务商对其投资的长期回报预期,当前对产能过剩的担忧有限。
一个关键的动态利用策略是:当训练周期结束且新一代GPU上市时,现有训练集群会被快速重新配置,以支持推理工作负载。这种“训练转推理”的生命周期转换,确保了计算资源能高效适配从密集训练到均衡推理的需求变化。
在建设模式上,训练集群通常部署在专为优化离线GPU利用率而新建的隔离设施(“绿场”);而推理集群则倾向于通过扩建现有数据中心(“棕地”),尤其在大都市区,以支撑持续的在线AI服务。
能源挑战:电力冷却成最大瓶颈
电力和冷却挑战仍是扩展下一代数据中心的主要瓶颈。
在Kanajan看来,随着数据中心追求更高密度和承载更密集的计算负载,电力供应和散热问题已成为下一代数据中心规模扩展的普遍性瓶颈。
超大规模企业正积极探索创新方案,如在I型架构设计中采用液冷技术,甚至评估核能或替代能源以实现7x24小时稳定供电。同时,强大的电网互联策略对保障数据中心不间断运行至关重要。
Meta引领数据中心架构创新
在数据中心设计方面,摩根大通报告重点提及了Meta的创新做法。与传统超大规模厂商设计支持多租户云的H型布局不同,Meta选择了专门针对内部AI工作负载的I型校园式配置。
据报告,这种设计在功耗、冷却和机架密度方面实现了改进,这些因素对支持高性能训练集群至关重要。
在硬件策略上,Meta正在平衡品牌解决方案与白盒方案。网络方面,虽然Arista的强大能力在当前基础设施中仍然必不可少,但Meta正与Celestica等白盒供应商合作,长期目标是将其内部软件与白盒硬件集成。
本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里