SpaceX“出租算力之谜”有了解释:“技术问题”无法满足模型训练,Colossus 1全部算力出租

66
Colossus 1因跨园区网络延迟严重、老旧基础设施拖累训练效率,加之Hopper与Blackwell等多代芯片混用导致算力不一致、整体性能被“最慢节点”锁死,最终无法承担大模型训练任务,被迫转为整体对外出租以释放闲置算力并回收现金流。

SpaceX将旗下孟菲斯数据中心Colossus 1的全部算力出租,背后原因终于浮出水面——这并非战略转型的主动选择,而是技术局限倒逼下的务实变现。

据彭博最新报道,知情人士透露称,SpaceX在尝试将Colossus 1与其他两处数据中心园区联网协同训练AI模型时,遭遇了严重的延迟问题,叠加老化的网络基础设施,最终令该设施无法满足前沿大模型训练的技术要求。在此背景下,SpaceX决定将Colossus 1整体出租,以将闲置算力转化为稳定收入来源。

华尔街见闻此前文章提到,SpaceX已相继与Anthropic和谷歌签署巨额算力租赁协议,年化收入规模约达260亿美元,成为其两万亿美元估值的核心叙事支撑。但批评者直指:该交易定价超出市价且涉嫌“循环金融”,这不过是xAI因GPU架构混乱、模型训练受挫后的"烂摊子变现"。

毫无疑问,这一披露对SpaceX的叙事构成微妙压力。Colossus 1出租背后的技术困境,令外界对这家公司快速扩张数据中心基础设施的能力产生新的审视。

延迟与硬件混用,Colossus 1无缘大模型训练

据彭博援引知情人士,SpaceX最初计划以三处数据中心园区组成的超大规模集群,训练其最前沿的AI模型。然而,Colossus 1与另外两处相距逾10英里的站点之间,存在明显的网络延迟问题,老化的网络基础设施进一步加剧了这一瓶颈。

训练更大、更强的AI模型需要极高速的节点间连接。一旦设施间链路带宽不足或存在延迟,整个集群的训练效率将被拖累至最慢节点的水平。

硬件异构问题同样不可忽视。知情人士透露,Colossus 1内部混合部署了英伟达多代芯片,包括Hopper和Blackwell系统,以及部分更老一代的加速器。相比之下,Colossus 2和Colossus 3则围绕英伟达Blackwell芯片进行了更为统一的部署。在分布式训练集群中,较旧的芯片会形成瓶颈,迫使更快的加速器等待,导致整体性能向最慢的硬件看齐。

面对上述技术局限,SpaceX最终判断,与其持续投入资源解决这些问题,不如将Colossus 1的容量出租给外部客户,同时将更新的设施保留用于自身AI开发。

260亿美元年化合同,算力变现撑起IPO叙事

据路透社报道,SpaceX已与Anthropic和谷歌分别签署巨额算力租赁协议——Anthropic每月支付12.5亿美元,谷歌从今年10月起每月支付9.2亿美元,两笔合同年化收入规模合计约达260亿美元,合同总价值逾700亿美元。

这一系列交易为SpaceX目标融资规模高达750亿美元的IPO提供了强劲的收入叙事支撑。SpaceX在路演中将数据中心建设作为向投资者展示的核心亮点之一,并着力强调其首座Colossus设施仅用122天便完成建设,超越自身预期及行业平均水平。

SpaceX首席财务官Bret Johnsen近期表示,公司并未放弃自身内部AI服务,包括Grok。马斯克本人也表示,SpaceX保留提前终止与Anthropic算力协议的权利,并称"如果算力变得极度紧张,我说过我们可能需要在某个时候收回它"。

技术困境与IPO叙事之间的张力

Colossus 1出租事件所揭示的,不仅是一处数据中心的技术局限,更折射出SpaceX快速扩张AI基础设施过程中面临的深层挑战。

SpaceX今年早些时候完成了对马斯克旗下xAI的收购,并将数据中心业务定位为向AI基础设施提供商转型的战略支点。然而,Colossus 1因硬件混用和网络延迟而无法用于前沿模型训练,令外界对这一转型叙事的可信度产生疑问。

市场观察人士指出,将算力出租给竞争对手而非用于自家模型训练,本身即暗示内部AI开发遭遇挫折。与此同时,部分分析人士对相关交易定价是否超出市价、以及交易结构是否存在"循环金融"特征提出质疑。

SpaceX正式名称为Space Exploration Technologies Corp.,其代表未回应彭博的置评请求。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关阅读