芝加哥商业交易所(CME)的一次交易中断,让数据中心的散热问题进入大众的视野。
11月27日,全球最大的期货交易所运营商CME集团的交易平台遭遇数小时的中断,横跨股票、外汇、债券和大宗商品的数万亿美元合约受到影响。
此次事件的直接原因是其位于伊利诺伊州奥罗拉的数据中心冷却系统发生故障。该数据中心由私募股权公司KKR & Co.和Global Infrastructure Partners旗下的运营商CyrusOne所有。
CyrusOne方面表示,其设施中的一个冷水机组发生故障,影响了多个冷却单元,这一“简单”的物理故障引发全球市场动荡。为避免设备过热,冷却系统的资本支出通常最高可占到数据中心项目总投资的15%。
这起事件不仅是一次孤立的技术故障。在AI浪潮一度将英伟达推上全球市值最高公司宝座的背景下,如今数据中心的散热问题愈发突出。
热量从何而来?
数据中心是装满了服务器的建筑,这些服务器由协同工作的芯片堆栈组成,用于处理和存储数据。
处理能力通常被称为“算力”(compute),这已成为AI公司训练模型所必需的关键商品。
数据中心通过向其他公司出租算力来盈利,这意味着运营商有动力在同一空间内尽可能多地装入服务器以实现容量最大化。
所有这些服务器都需要消耗大量电力。
由于其高耗能和全天候运行的特性,一个数据中心每平方英尺的能耗是普通办公楼的50倍之多。
它们消耗的大部分能量最终都以废热的形式散发。这就像个人笔记本电脑或手机在处理复杂任务时会发烫一样。
冷却技术与权衡
传统上,服务器采用冷空气进行冷却,其工作原理类似于家用空调。
风扇将冷空气吹向服务器,然后将热空气从机房中排出。然而,随着用于人工智能的数据中心产生更多热量,自2022年左右开始,液体冷却系统变得越来越普遍。
液体冷却的方式多种多样,例如将冷液体通过管道输送至紧贴芯片的散热板,或将整个服务器浸入装满冷却液的容器中。
还有些系统使用低沸点液体,当其接触高温芯片时会吸收热量并蒸发,随后再冷凝成液体循环使用。
相较于空气,液体在单位体积内能携带更多热能,因此效率更高。但这些系统安装复杂且成本昂贵,一旦出现问题也十分棘手,没有人希望昂贵的芯片被液体浸泡。
无论是使用空气还是液体,热量从芯片转移后,最终会传递到一个冷却水循环系统,再由冷却塔或工业冷水机组将热量释放到外部环境中。
这正是数据中心消耗大量水资源的原因,并已引发对其在缺水地区加剧水资源压力的担忧。
过热的代价
数据中心过热可能导致数据丢失、损坏服务器内昂贵的芯片,并给客户造成服务中断。
后果与近期多家数字基础设施提供商因技术故障引发的服务中断类似。
例如,网络安全公司Cloudflare Inc.在去年11月发生的重大网络中断,导致从社交平台X到ChatGPT等多个网站无法访问。亚马逊云服务、CrowdStrike和微软也曾出现过类似问题。
通常,数据中心会在冗余方面进行大量投资,包括配置备用发电机、额外的冷却单元,甚至复制整个设施,以最大限度地降低中断可能性。
但随着系统变得日益复杂,尽管有冗余措施,中断可能仍难以避免。
CME事件复盘
CME的交易平台位于芝加哥郊外奥罗拉市的一个园区内,该园区属于数据中心运营商CyrusOne。
据CyrusOne称,11月27日,其奥罗拉设施中的一个冷水机组发生故障,波及多个冷却单元,最终导致了此次交易中断。
事件发生后,CyrusOne表示,在努力恢复全部制冷能力的同时,已部署了临时冷却设备以补充永久性系统。
根据该公司官网信息,其奥罗拉园区拥有“先进的冷却技术”,使用风冷式冷水机组,并在气温低于30华氏度(约-1摄氏度)时利用自然冷空气或水进行冷却。
据天气预报的数据,在11月28日上午10:40,奥罗拉当地的气温约为28华氏度。
值得注意的是,CyrusOne的网站还声称其奥罗拉设施拥有额外的冷却单元,以应对风冷式冷水机组的故障。
目前尚不清楚该冗余系统在本次事件中是否起到了预期的作用。




