当Sam Altman想要七万亿美元....

Astral Codex Ten
融资7万亿美元,钱是GPT迭代中最容易的部分。

华尔街见闻前期文章提到,山姆·奥特曼计划筹资7万亿美元建芯片帝国。

7万亿美元,基本相当于是全球GDP的10%。消息一出,舆论哗然。

尽管山姆·奥特曼大概率也得不到这笔钱,但来自Astral Codex Ten的热门评论Scott Alexander认为,这不仅是对未来人工智能规模化条件的思考,也是对人工智能迭代形式(安全or跃进)的思考。

基本逻辑:GPT-1 的培训费用大约为零。GPT-2花费4万美元。GPT-3耗资400万美元。GPT-4耗资1亿美元。GPT-5的细节仍是秘密,粗略估计是25亿美元。

因此,如果每个GPT版本的成本是上一个的25到100倍。这里假设平均为30倍。这意味着GPT-6 将耗资750亿美元,GPT-7 将耗资2万亿美元。(条件是 "GPT-6 "要比 GPT-5 超前整整一代,如同GPT-4与GPT-3的差距一样大。)

把GPT的成本分解来看,训练人工智能需要:

  • 计算(即计算能力、硬件、芯片)
  • 电力(为计算提供动力)
  • 训练数据

计算

计算以浮点运算 (FLOPs) 为单位。GPT-3 训练需要 10^23次浮点运算,GPT-4 可能需要 10^25次浮点运算。

世界上所有计算机的容量约为 10^21 次浮点运算/秒,因此他们可以在 10^4 秒(即两小时)内完成 GPT-4 的训练。OpenAI 花了 6 个月的时间,这表明OpenAI 使用的计算机数量约为世界上所有计算机的 1/2000。

如果保持 30 倍的乘数因子,GPT-5 将使用世界上所有计算机的 1/70,GPT-6 将使用现存计算机的 1/2,GPT-7 使用的计算机数量将是现有计算机总数的 15 倍。世界的计算能力增长很快——该资料称每 1.5 年翻一番,这意味着每五年增长一个数量级。如果假设两代 GPT 之间间隔 5 年,那么 GPT-6 实际上只需要全球计算机数量的 1/10,而GPT-7需要 1/3。全球 1/3 的计算机还是很多。

当所有其他人工智能公司也想要计算机的时候,OpenAI无法获得世界上 1/3 的计算机。因此,不得不大幅扩大制造芯片的规模。

电力

GPT-4 训练耗能约 50 GWh。使用乘数因子 30 倍,预计 GPT-5 需要 1500 GWh,GPT-6 需要 45000 GWh,GPT-7 需要 130 万GWh。

假设训练运行持续 6 个月,即 4320 个小时。这意味着 GPT-6 将需要 10 GW(1000亿GWh)——大约是世界上最大的发电厂三峡大坝发电量的一半。GPT-7 将需要15个三峡大坝电量。这 "不仅仅是全世界生产的总电力,而是可以买到的电力"。这需要电力离数据中心很近。最好的选择是将北溪管道连接到数据中心,或者使用核聚变反应堆发电。

(山姆·奥特曼正在研究核聚变发电,但这似乎只是巧合。至少从 2016 年开始,他就对核聚变产生了兴趣)。

训练数据

人工智能为了解其领域如何运作,需要阅读的文本、图像或其他数据。GPT-3 使用了 3000 亿个tokens。GPT-4 使用了 13 万亿个tokens(另一种说法是 6 万亿个tokens)。看起来30 倍的乘数因子仍然有效,但理论上训练数据的扩展应该是计算量的平方根——所以你应该假设 5.5 倍的扩展因子。这意味着 GPT-5 将需要接近 50 万亿个tokens,GPT-6 将需要数以百万亿个tokens,GPT-7 将需要上兆个tokens。

但全世界没有那么多文本。如果把所有出版的书籍、Facebook 消息、推特、短信和电子邮件加在一起,也许还能多出几万亿。如果人工智能学会理解所有图像、视频和电影,或许可以得到更多。但似乎无法达到一百万亿,更不用说一兆了。

除非人工智能可以用更少的训练数据来学习东西。就像人脑不需要阅读世界上所有的文字,也能学习东西。但目前还无法做到这一点。

更有前景的是合成数据,即人工智能为自己生成数据。例如,你可以用合成数据训练国际象棋人工智能,让它与自己对弈一百万次。你可以训练数学人工智能,让它随机生成证明步骤,最终偶然发现一个正确的步骤,自动检测出正确的证明,然后在这个步骤上进行训练。你可以训练玩视频游戏的人工智能,让它随机做出动作,然后看哪个动作得分最高。

一般来说,如果不知道如何创建好的数据,但知道如何在数据存在后识别它时,那就可以使用合成数据(例如,国际象棋人工智能赢得了与自己的比赛,数学人工智能得到了一个正确的证明,视频游戏人工智能得到了一个好分数)。但目前在识别书面文本方面还无法做到。

另外,算法进展意味着 "人工智能取得突破",这通常每五年左右要取得数量级的进展。

整合

所以,GPT-5 可能需要全世界 1%的计算机、一个小型发电厂的能源以及大量的训练数据。

GPT-6 可能需要全世界 10% 的计算机、一个大型发电厂的能源,以及比现有更多的训练数据。这可能是一个城镇规模的数据中心,连接着大量太阳能电池板或核反应堆。

GPT-7 可能需要世界上所有的计算机、超过现有任何发电厂的巨型发电厂,以及远远超过现有数量的训练数据。

建造 GPT-8 目前是不可能的。即使解决了合成数据和核聚变发电问题,并接管整个半导体行业也不可能。唯一的可能是GPT-7能帮助解决更廉价的制造成本,或者大幅提高全球经济增速提供资金。

所有关于 GPT 5以上的说法都是对现有趋势的预测,很可能是错误的,只是数量级的估计。

如果CPT-5成功了……

GPT-6 可能会耗资 750 亿美元或更多。OpenAI 负担不起。微软或谷歌可也将耗费掉公司一半的资源。

如果 GPT-5 失败了,或者只是一个渐进式的改进,没有人再会愿意花费750亿美元来制作 GPT-6。

但如果GPT-5接近人类水平,甚至掀起一场工业革命级别的变革,那么花750亿美元制造下一个 GPT-6 就显得有意义。

GPT-5未必要足以为 GPT-6 的规划做出巨大贡献。但如果它能实现GPT-6或与之相关的芯片制造、发电的成本降低 10%也算是成功的。

那么迭代的结果就成为一个指数进程R。如果指数大于1,那么GPT将会呈现指数型增长。如果指数小于 1,则会逐渐消失。

也就是如果每一代人工智能都足够令人兴奋,从而激发更多投资,或降低下一代人工智能的成本,这两个因素结合起来,就能在正反馈循环(R > 1)中创造出下一代人工智能。

但是,如果每一代人工智能都不够令人兴奋,不足以激发创造下一代人工智能所需的大量投资,也无法帮助下一代人工智能降低成本,那么到了某个阶段,没有人愿意资助更先进的人工智能,当前的人工智能热潮也就会消退(R < 1)。

当然这并不意味着人工智能会淡出——人们可能会创造出令人惊叹的人工智能艺术、视频、机器人、甚至女朋友机器。只是大模型的智能不再会增长得那么快。

安全还是快速发展?

当山姆·奥特曼要求 7 万亿美元时,Alexander认为他希望集中、快速、高效的方式完成这一过程。自行建造芯片工厂和发电厂,为他的下一个大型模型做好准备。

如果他拿不到7万亿美元。这个过程也会发生,但更慢、更零碎、更分散。

Alexander倾向于第二种情况:从安全的角度来看,我们需要更多的时间为这项颠覆性的技术做好准备。

山姆·奥特曼此前也赞同这一立场!他希望人工智能的发展尽可能循序渐进,而不是突飞猛进。而保持循序渐进的方法之一,就是将现有芯片所能构建的人工智能水平发挥到极致,然后人工智能的发展速度(最差情况下)与芯片供应量相当。

但7万亿美元大跃进式地增加芯片供应!似乎与循序渐进的立场背道而驰。

如果OpenAI所谓的安全,是基于尽快扩大人工智能的规模相兼容为前提,这要如何让人放心?

本文主要翻译自Astral Codex Ten文章《Sam Altman Wants $7 Trillion》,原文作者Scott Alexander

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。