一大早,奥特曼直播刚下线,就炫出了「星际之门」首期工厂。
而我们以上看到的,还仅仅是「星际之门」的1号基地。
据称,德州阿比林(Abilene)已经获批875英亩地(约354万㎡),面积堪比纽约中央公园,计划打造10个数据中心。未来,4年耗资共5000亿美金,在全美建设共20座超算中心。
奥特曼最新的帖子,是对马斯克昨日嘲讽做出的有力回复。
奥特曼与马斯克正面开怼,手撕对方
难道马斯克所说的一切,真的只是噱头吗?
「星际之门」自周二官宣以来,备受各界关注,尤其是5000美金投资直接引爆了全科技圈的热议。据称,这一金额相当于达到了「曼哈顿计划+阿波罗计划」总额。
这一令人瞠目结舌的数字,不得不引发各界的猜想。
正如马斯克昨日battle的所言,软硬实际上获得的融资远不到100亿美金。
那么,真实情况到底是怎样的?
SemiAnalysis独家透露,事实上,「星际之门」的第一阶段已经确定,并在德克萨斯州阿比林数据中心基地展开。
不过,他们确认了马斯克的话——软银的确没有足够资金来建设如此规模的算力集群。
下文中,他们将详细剖析「星际之门」的实际情况、微软当前面临的危机、项目架构和成本,以及这个算力集群的真实情况。
千亿美元集群已锁定
除了奥特曼放出的实景,SemiAnalysis也制作了一张德州集群建设的宏观图。
确定的第一阶段,也仅仅是已承诺的1000亿美元投资中的一部分。至少可以说,这个数字最终数字(5000亿美元)的计算方式着实令人玩味。
4个月前,著名分析师便在「Multi-Datacenter Training」报告中,已经公开讨论了位于德州阿比林数据中心基地第一阶段规划。
「星际之门」背后真实数据
他们认为,这个项目是按总拥有成本(TCO, Total Cost of Ownership),而非资本支出来计量的。
换言之,1000亿美元和5000亿美元指的是TCO,其中包括数据中心、服务器、网络设施、电力供应的资本支出,以及债务融资在内的诸多运营成本。
此外,目前只有首期1000亿美元项目,已经确定了数据中心选址和电力供应。「星际之门」项目整体资金仍未完全到位。
还有一个容易产生误解的细节是,这个大型项目的第一个算力集群,其实就是去年宣布的Oracle和OpenAI合作项目。
该项目完全由Lancium、Crusoe和Oracle负责建设。据分析师了解,软银和MGX等其他方并未参与其中。
全美20座超算,10个已开工
实际上,OpenAI周二官宣博文中,已经明确了「星际之门」是一家新成立的合资企业公司。
在这个项目中,他们计划在未来4年内斥资5000亿美元,用于AI基础设施建设,其中1000亿美元将立即投入使用。
这是第二届特朗普政府宣布的首个重大AI计划,由于监管政策显著放宽,未来可能会推出更多类似计划。
星际之门计划的股权创始方包括软银、甲骨文、MGX和OpenAI,其中前三家公司负责前期注资。
软银和OpenAI是核心合作伙伴,软银负责财务管理,而OpenAI主导运营工作,包括几乎所有的算力集群管理软件。
如前所述,该项目计划共建设20个数据中心,其中10个已在德克萨斯州阿比林开工,每个占地面积约46,500平方米(50万平方英尺)。
首期1000亿美元支出明细
最初的Oracle/Crusoe项目作为其中一个数据中心,将与其他超级园区互联,实现规模比现有任何训练运行,都大数个量级的分布式训练。
此前,奥特曼提到的「已经在建设中」的星际之门计划园区,即为Oracle/Crusoe阿比林园区。
该园区将容纳供OpenAI使用的10万台GB200算力集群。这个开发项目以及计划在第二季度和第三季度交付的GB200服务器,将部署在Oracle/Crusoe的数据中心内。
下面是2024年12月29日,拍摄的园区高清照片。
4个约11,150平方米的「模块」组成了一栋44,600平方米的建筑,目前仅有两栋建筑在建,关键IT负载容量约为180兆瓦。
为了让大家理解这一规模,整个由20栋建筑组成的园区将包含80个这样的「模块」!
根据「加速器模型和数据中心模型」中,分析师为OpenAI/微软/甲骨文规划的建设计划,OpenAI无需建设新园区就能部署全部1000亿美元的总拥有成本(TCO)。
因此,他们认为「星际之门」计划合资企业的首期1000亿美元将全部投入这个园区。
在Lancium的官网中,这个园区被称为「Abilene Clean Campus」,并声称将在2025年实现1GW供电能力。
然而,通过多个行业消息源和文件,该园区已额外获得1GW容量,总供电能力达到2.2GW。
据此可以估算,该园区的关键IT负载容量为1.8GW,能源使用效率(PUE)约为1.25。
虽然他们可能通过优化使PUE接近2GW IT容量,但考虑到GB300特别是VR200的功率密度提升,这个目标将很难实现。
70万块GPU,老黄首期爆赚375亿刀
除了正在部署的10万台GB200算力集群外,分析师估计,他们还将在整个园区部署另外20万台GB300和约40万台VR200(英伟达计划在2026年推出的超算,分别对应Vera CPU和Rubin GPU)。
他们根据园区1,000亿美元总拥有成本(TCO)投资,以及人工智能TCO模型中的单位成本,计算出了Vera Rubin处理器的隐含数量。
约70万台GPU的总IT功率为1.8GW,这与Oracle/Crusoe阿比林园区1,800兆瓦的容量相符。
简而言之,OpenAI预计为首个GB200集群支付的成本,约为每GPU每小时2.8美元,全规模集群的TCO为每小时2.38美元。
这些数字会随着未来英伟达GPU的部署而相应调整。
OpenAI的支出将超过1,000亿美元,但这并非前期资本投入。
分析师还估计英伟达从中获得的收入和IT设备资本支出相对较为适中,分别约为375亿美元和490亿美元。这将占用整个1.8GW Crusoe Lancium站点的容量。
随着向GB300和VR200演进,每一代GPU的数量都将翻倍,单个GPU的功率需求也在增长。
虽然70万块GPU对于1,000亿美元的投资而言规模似乎不大,但需要注意的是,这相当于数百万台Hopper(英伟达高性能计算架构)GPU的算力。
刷存在感的软银
甲骨文和软银是知名的股权提供方。
MGX是一个新近成立的阿布扎比科技投资平台,由Mubadala和G42共同创立。该基金由Sheikh Tahnoon bin Zayed al-Nahyan担任主席,据报道他监管着超过1.5万亿美元的投资基金。
鉴于马斯克声称软银筹资不到100亿美元,需要特别指出的是,该合资企业还将通过项目融资筹集「债务资本」。
目前「股权融资」和「债务融资」的具体比例尚未确定,但甲骨文和MGX凭借其雄厚的资产负债表,可以为项目提供大量资金支持。
也就是说,即便软银没钱,还有甲骨文和MGX。
据悉,OpenAI和软银各自在账面上,承诺投入190亿美元。软银目前虽然没有这么多流动资金,但预计其可能会通过出售部分ARM股份来筹集所需的股权投资。
OpenAI同样缺乏这笔资金,但他们可以在新产品o3发布后进行融资,而且不必直接全额筹集,可以通过向联合体其他成员发行「混合资本工具」来实现。
需要承认的是,马斯克的判断是正确的,他们目前确实还没有筹集到这笔资金。
关键问题在于项目融资风险能否与母机构分离。这种风险隔离十分重要,因为OpenAI需要筹集资金来支付相关费用。
对OpenAI而言,一个有利因素是这笔资金不需要立即到位。
OpenAI现有资金足以支付今年10万台GB200集群的租金,但他们需要确保能够支付2026年及以后大幅上涨的租金。
虽然OpenAI可能无法直接筹集到所需资金,但高级分析师相信,他们的技术和产品发展将能够支撑这一规模的支出。
谁是最大赢家?
我们看到,在「星际之门」合资项目的公告中,出现了许多科技巨头的名字,比如英伟达、Arm、微软、甲骨文以及前面提到的投资方。
这些都是令人印象深刻的知名企业,但现实情况是,既有输家,又有赢家。
若说谁是最大的输家,恐怕就是微软了。
微软,最大loser
当OpenAI选择了另一个基础设施合作伙伴时,微软实际上被挤到了边缘位置。
同时,纳德拉的态度已经非常明确:仅仅守住800亿美金投资!
周二,微软博客陈述了合作关系的事实,以及微软拥有优先购买权。
但现实是,这对微软的长期发展将产生逐步显现的负面影响,因为他们不愿承担这项投资的风险。
此外,更令人咋舌的是,负责OpenAI合作关系的Chris Young也在公告发布之后突然离职。
持乐观态度的分析师会说,微软正将其AI计划的部分资本密集型业务转移给甲骨文,但SemiAnalysis认为这种短期收益无法抵消失去OpenAI收入和控制权带来的长期潜在损害。
虽然马斯克和纳德拉提出了同样的疑问——「实际的收益在哪里」,但马斯克已制定计划,要让他们的田纳西州孟菲斯基地以不低于OpenAI的速度发展;
而纳德拉则没有在内部建设前沿AI模型的计划。
Arm:技术合作伙伴,还是虚假新闻
Arm股价因被列为技术合作伙伴而上涨约16%,但这仅仅是因为其Grace和Vera CPU与英伟达的Blackwell和Rubin GPU配套使用。
软银可能力推让Arm加入公关阵营,表面上确实效果不错。但实际上Arm并未发挥实质性作用。
对Arm股东而言,现实情况如上所述,软银可能不得不出售其在公司的部分股份,以为「星际之门」股权投资提供部分资金。
我们认为投资者大多忽视了这一点,错误地将这个公告视为实质性的利好消息。
甲骨文承担了管理数据中心和供应链物流的重任;管理1.8GW集群并按照另一家公司的要求采购所有必要设备是一项极具挑战性的任务。
英伟达显然深度参与其中,因为主要依赖的是他们的硬件。
而OpenAI将保持运营控制权,并运行几乎所有自己的集群管理软件。
全部用于一次训练
这个项目的规模令人印象深刻,但正如分析师最近在Fabricated Knowledge中所分析的那样,这似乎是AI发展热潮中的又一个重要里程碑。
我们知道,首批1,000亿美元将投资于阿比林基地,而剩余的4,000亿美元将用于开发更多数据中心基地。
更值得注意的是,所有这些数据中心基地都将持续建设,旨在实现AI分布式训练的目标。
值得注意的是,仅仅复制4个相当于阿比林规模的基地,就能产生9GW的核心IT算力,而这些算力将全部用于一次AI训练。
在SemiAnalysis分析中的,随着数据中心互联(DCI)建设的持续推进,Marvell和Ciena将成为最大赢家,Fabrinet将获得可观收益,而Coherent和Lumentum则会获得相对较小的收益。
本文来源:新智元,原文标题:《奥特曼晒「星际之门」首期工厂,全美狂建20座超算!70万块GPU老黄爆赚375亿》