人类文明面临最严峻考验!Anthropic CEO警告:全面碾压诺奖得主的超强AI,可能在1-2年内到来

Dario Amodei警告,一种在生物学、编程、数学等领域全面超越诺奖得主的“强大AI”极可能在1-2年内出现,人类能否驾驭它,目前仍未知。他预测AI将推动GDP增长率达10-20%,但同时可能在1-5年内取代50%入门级白领岗位,导致极端财富集中,并使生物武器制造门槛大幅降低。

当全球资本为AI算力疯狂投入、市场热议其生产率红利时,身处浪潮之巅的明星公司CEO却发出了一篇长达万言的“盛世危言”,警告人类文明或迎来重大考验。

全球AI领域的领军人物、Anthropic联合创始人兼首席执行官达里奥·阿莫迪(Dario Amodei)近日发布了一篇题为《技术的青春期》(The Adolescence of Technology)的深度长文。在这篇长约19000字的文章开篇,Amodei引用了卡尔·萨根《接触未来》中的场景,直言人类正处于一个“动荡而不可避免的成年礼”边缘:

“人类即将被AI赋予几乎无法想象的力量,但我们现有的社会、政治和技术体系是否具备驾驭它的成熟度,目前仍深陷迷雾。”

他在文中警告,一种在生物学、编程、数学等领域全面超越诺贝尔奖得主的“强大AI”(powerful AI),极有可能在未来1-2年内,即2027年左右问世。

Amodei将此视为人类文明的严峻考验,他预测AI在未来推动全球GDP增长率达到10-20%的同时,也可能在1-5年内取代50%初级白领工作,并导致极端的财富集中。他呼吁对芯片出口实施严格管制以遏制AI滥用风险,并警示AI可能使生物武器制造门槛大幅降低。尽管风险巨大,但他认为若应对得当,人类仍有望迎来技术带来的繁荣未来。

Dario Amodei 视频截图

“数据中心里的天才国度”:1-2年内的剧变

Amodei在文中详细描绘了这种“强大AI”的形态:它不仅仅是一个聊天机器人,而是一个“居住在数据中心的千万天才国度”(country of geniuses in a datacenter)。

根据他的定义,这种AI模型在纯智力层面将全面超越诺贝尔奖得主,能够证明未解的数学定理、撰写极高水平的小说,并从零开始编写复杂的代码库。

这种AI系统还具备通过文本、音频、视频及互联网接口自主行动的能力,甚至能以超越人类10-100倍的速度控制物理设备和机器人。

更关键的是,这种AI具备高度的自主性和行动力。它不再是被动回答问题的工具,而是能够像聪明的员工一样,自主执行耗时数小时甚至数周的任务。Amodei指出,用于训练该模型的资源可以被复用以运行数百万个实例,这些实例可以独立行动,也可以像人类团队一样协作。

他透露,Anthropic内部的开发进度显示,AI已经开始承担大量编码工作,这种“自我加速”的反馈循环正在逐月增强。

Amodei写道:“如果指数级增长继续下去——这虽然不是确定的,但已有长达十年的记录支持——那么AI在本质上所有方面都比人类更强,这不可能超过几年时间。”

经济双刃剑:GDP狂飙与白领危机

这一技术飞跃将对全球经济和劳动力市场造成前所未有的冲击。

一方面,他预测AI将成为经济增长的核动力,可能带来“10-20%的持续年GDP增长率”,科学研发、制造业和金融系统的效率将呈指数级提升。他甚至大胆预测,未来可能会出现年收入达3万亿美元、估值达30万亿美元的超级AI公司。

但另一方面,他发出了严厉的劳动力市场预警。Amodei重申了他之前的预测:“AI可能在未来1-5年内取代50%的入门级白领工作。”

他警告称,这不同于工业革命时的农业转型,AI是“通用的劳动力替代品”,且变革速度极快,人类可能来不及适应。这种极端的财富集中可能导致“单一的个人拥有GDP的可观份额”,现有的税收和分配体系将面临崩溃。

更深远的是经济权力的极端集中。Amodei指出,在强大AI驱动的经济增长中,少数公司和个人可能积累起史无前例的财富。他以洛克菲勒财富占当时美国GDP约2%为例,指出当今首富已超过这一比例。

“我们可以想象AI公司、半导体公司……导致个人财富轻易突破万亿美元。”这种集中可能侵蚀民主赖以生存的社会契约,因为“民主最终依赖于整个人口对经济运行是必要的”这一理念。

“外科手术式”防御AI滥用:监管、出口控制与行业自律

面对如此错综复杂的风险矩阵——包括AI自主失控、生物武器等大规模杀伤性工具的滥用、AI专制——Amodei承认,完全停止或大幅放缓AI发展已不现实。关键在于精准应对。

比如Amodei对国家和个体层面的AI滥用表达了深深的忧虑,尤其是生物武器领域。他担心AI将消除制造生物武器的知识壁垒,让一个“想要杀人的疯子”拥有“博士级病毒学家”的能力。

“我担心的是,把一个强大的AI交给每个人,实际上就是让恶意(但在其他方面平庸)的人拥有了智慧……如果他们有了轻易杀死数百万人的方法,迟早会有人这么做。”

对于“AI的滥用”他提出了多层次防御思路:

  1. 技术层面:通过“宪法AI”(Constitutional AI)为AI塑造稳定、良善的价值观与人格,并大力发展可解释性(Interpretability)技术以窥探AI“内心”。

  2. 行业自律:Anthropic自身已在模型中加入针对生物武器信息等风险的“分类器”,尽管这增加了约5%的推理成本。他呼吁全行业提高风险行为透明度。

  3. 政府监管:主张从“透明度立法”入手(如其公司支持的加州SB 53和纽约RAISE法案),待证据更充分时再实施更有针对性的规则。他特别强调,对芯片实施出口管制,是“最简单但极其有效的措施”。

  4. 经济政策:建议通过累进税制、企业内员工再分配、以及增强的私人慈善来应对转型期的阵痛与不平等。

“陷阱”与希望

Amodei指出根本性的矛盾:“AI是如此强大,如此闪闪发光的奖赏,以至于人类文明很难对其施加任何限制。”巨大的经济利益使得即使最简单的安全措施也面临强大的政治经济阻力。

尽管如此,他最终表达了谨慎的乐观:“我相信,如果我们果断而谨慎地行动,风险是可以克服的——我甚至会说我们的胜算很大。”他呼吁更多人认清形势的紧迫性与重要性,鼓起勇气“坚持原则,即使面对经济利益和个人安全的威胁”。

这篇文章无疑为如火如荼的AI投资热注入了一剂强烈的清醒剂,将技术伦理、地缘政治博弈、宏观经济重构与极端风险等议题,严峻地摆在了全球市场与决策者面前。

《技术的青春期:直面并克服强大AI的风险》全文翻译:

《技术的青春期:直面并克服强大AI的风险》

作者:Dario Amodei (Anthropic CEO)
时间:2026年1月

在卡尔·萨根(Carl Sagan)的小说《接触》(Contact)改编的电影中,有一幕场景是这样的:主角,一位探测到来自外星文明首个无线电信号的天文学家,正被考虑作为人类代表去会见外星人。面试她的国际专家组问道:“如果你只能问[外星人]一个问题,你会问什么?”她的回答是:“我会问他们,‘你们是怎么做到的?你们是如何进化,如何度过这个技术的青春期而没有毁灭自己的?’”当我思考人类目前在AI领域的处境——以及我们正处于何种风口浪尖时——我的脑海不断回到那个场景,因为这个问题对于我们当前的处境是如此贴切,我真希望我们有外星人的答案来指引我们。我相信我们正在进入一个既动荡又不可避免的成人礼(rite of passage),这将考验作为一个物种的我们究竟是谁。人类即将被赋予几乎无法想象的力量,但我们现有的社会、政治和技术体系是否具备驾驭它的成熟度,目前仍深陷迷雾。

在我的文章《慈悲机器》(Machines of Loving Grace)中,我试图描绘一个成功迈入“成年期”的文明梦想,在那里风险已得到解决,强大的AI被以技巧和同情心加以应用,以提高每个人的生活质量。我提出,AI可以为生物学、神经科学、经济发展、全球和平以及工作和意义带来巨大的进步。我觉得给人们一些值得为之奋斗的鼓舞人心的东西很重要,而在这一点上,AI加速主义者和AI安全倡导者似乎——奇怪地——都失败了。但在这一篇文章中,我想直面这个“成人礼”本身:描绘我们将要面临的风险,并尝试开始制定战胜它们的作战计划。我深信我们有能力获胜,深信人类的精神及其高贵,但我们必须正视局势,不抱幻想。

正如谈论利益一样,我认为以谨慎和深思熟虑的方式讨论风险很重要。特别是,我认为至关重要的是:

  • 避免末日主义(Doomerism)。 在这里,我所说的“末日主义”不仅仅指相信毁灭是不可避免的(这既是一个错误的信念,也是一个自我实现的预言),更广泛地说是指以一种准宗教的方式思考AI风险。许多人多年来一直在以分析和冷静的方式思考AI风险,但我的印象是,在2023-2024年对AI风险的担忧达到顶峰时,一些最不理智的声音浮出水面,往往是通过耸人听闻的社交媒体账号。这些声音使用了令人反感的语言,让人联想到宗教或科幻小说,并在没有正当证据的情况下呼吁采取极端行动。即便在那时也很清楚,反噬是不可避免的,这个问题会在文化上变得两极分化,从而陷入僵局。到了2025-2026年,钟摆已经摆动,推动许多政治决策的是AI机遇,而不是AI风险。这种摇摆是不幸的,因为技术本身并不关心什么流行,而我们在2026年比2023年更接近真正的危险。教训是,我们需要以现实、务实的方式讨论和解决风险:清醒、基于事实,并具备在不断变化的潮流中生存的能力。

  • 承认不确定性。 我在这篇文章中提出的担忧有很多种可能变得毫无意义。这里没有任何内容旨在传达确定性甚至可能性。最明显的是,AI的发展速度可能根本没有我想象的那么快。或者,即使它发展迅速,这里讨论的部分或全部风险可能不会实现(那将是极好的),或者可能还有我没有考虑到的其他风险。没有人能完全自信地预测未来——但我们无论如何都必须尽最大努力去规划。

  • 尽可能进行外科手术式的干预。 解决AI风险将需要公司(和私营第三方参与者)采取自愿行动,以及政府采取对所有人具有约束力的行动的混合。自愿行动——既包括采取行动,也包括鼓励其他公司效仿——对我来说是理所当然的。我坚定地相信,政府的行动在某种程度上也是必需的,但这些干预措施在性质上是不同的,因为它们可能会破坏经济价值或强迫那些对这些风险持怀疑态度的不情愿的参与者(而且他们有可能是对的!)。法规产生适得其反的效果或使其旨在解决的问题恶化的情况也很常见(对于快速变化的技术来说更是如此)。因此,法规必须是审慎的:它们应寻求避免附带损害,尽可能简单,并施加完成任务所需的最小负担。说“当人类命运受到威胁时,任何行动都不为过!”很容易,但在实践中,这种态度只会导致反噬。需要明确的是,我认为我们最终很有可能会达到一个需要采取更重大行动的临界点,但这将取决于比我们今天所拥有的更强有力的迫在眉睫的、具体的危险证据,以及对危险有足够的具体了解,以制定有机会解决它的规则。我们今天能做的最具建设性的事情是倡导有限的规则,同时我们去了解是否有证据支持更强有力的规则。

话虽如此,我认为谈论AI风险的最佳起点与我谈论其利益的起点相同:明确我们正在谈论什么水平的AI。对我来说,引发文明担忧的AI水平是我在《慈悲机器》中描述的“强大的AI”(Powerful AI)。我将在这里简单重复我在那份文件中给出的定义:

所谓“强大的AI”,我指的是一个AI模型——在形式上可能类似于今天的LLM(大语言模型),尽管它可能基于不同的架构,可能涉及多个交互的模型,并且可能以不同的方式训练——具有以下属性:

  • 就纯粹的智力而言,它在大多数相关领域(生物学、编程、数学、工程、写作等)比诺贝尔奖得主更聪明。这意味着它可以证明未解决的数学定理,写出极好的小说,从头开始编写困难的代码库等。

  • 除了只是一个“你与之交谈的聪明东西”之外,它拥有人类在虚拟工作中可用的所有接口,包括文本、音频、视频、鼠标和键盘控制以及互联网访问。它可以从事由该接口启用的任何行动、通信或远程操作,包括在互联网上采取行动、向人类发出或接受指令、订购材料、指导实验、观看视频、制作视频等等。它再次以超过世界上最有能力的人类的技能完成所有这些任务。

  • 它不只是被动地回答问题;相反,它可以被赋予需要数小时、数天或数周才能完成的任务,然后像一个聪明的员工一样自主地去完成这些任务,并在必要时寻求澄清。

  • 它没有物理实体(除了生活在电脑屏幕上),但它可以通过计算机控制现有的物理工具、机器人或实验室设备;理论上,它甚至可以为自己设计机器人或设备来使用。

  • 用于训练该模型的资源可以被重新利用来运行数百万个它的实例(这与预计到2027年的集群规模相符),并且该模型可以以大约人类10-100倍的速度吸收信息和生成行动。不过,它可能会受到物理世界或与之交互的软件的响应时间的限制。

  • 这数百万个副本中的每一个都可以独立地执行不相关的任务,或者如果需要,可以像人类协作一样协同工作,也许不同的亚群被微调得特别擅长特定的任务。

  • 我们可以将其概括为**“数据中心里的天才国度”**。

正如我在《慈悲机器》中所写,强大的AI可能仅需1-2年就会出现,尽管它也可能在相当长的时间之后。强大的AI究竟何时到来是一个复杂的话题,值得单独写一篇文章,但现在我只想非常简短地解释一下为什么我认为它很有可能很快就会到来。

我在Anthropic的联合创始人和我是最早记录和追踪AI系统“缩放定律(scaling laws)”的人之一——即观察到当我们增加更多的计算和训练任务时,AI系统在我们能够测量的几乎每一项认知技能上都会可预测地变得更好。每隔几个月,公众情绪要么确信AI“撞墙了”,要么对一些将“从根本上改变游戏规则”的新突破感到兴奋,但事实是,在波动和公众猜测的背后,AI的认知能力一直在平稳、不屈不挠地增长。

我们现在正处于这样一个阶段:AI模型开始在解决未解决的数学问题上取得进展,并且在编程方面已经足够好,以至于我遇到的一些最强的工程师现在几乎把所有的编码工作都交给了AI。三年前,AI还在为小学算术题挣扎,几乎写不出一行代码。类似的进步速度正在生物科学、金融、物理学和各种代理任务中发生。如果指数级增长继续下去——这虽然不是确定的,但已有长达十年的记录支持——那么AI在本质上所有方面都比人类更强,这不可能超过几年时间。

事实上,这幅图景可能低估了可能的进步速度。因为AI现在正在编写Anthropic的大部分代码,它实际上已经在大幅加速我们构建下一代AI系统的进程。这种反馈循环正在逐月积聚动力,可能距离当前一代AI自主构建下一代AI的临界点只有1-2年的时间。这个循环已经开始,并将在未来几个月和几年内迅速加速。从Anthropic内部观察过去5年的进步,看看未来几个月的模型是如何形成的,我能感受到进步的步伐,以及倒计时的滴答声。

在这篇文章中,我将假设这种直觉至少在某种程度上是正确的——并不是说强大的AI肯定会在1-2年内到来,而是说这有很大的机会,而且很有可能在未来几年内到来。正如《慈悲机器》一样,认真对待这个前提可能会导致一些令人惊讶和怪异的结论。虽然在《慈悲机器》中我关注了这个前提的积极含义,但在这里我谈论的事情将是令人不安的。这些是我们可能不想面对的结论,但这并不意味着它们不真实。我只能说,我不分昼夜地专注于如何引导我们远离这些负面结果并走向正面结果,在这篇文章中,我详细谈论了如何最好地做到这一点。

我认为掌握AI风险的最佳方法是问以下问题:假设一个字面意义上的“天才国度”在大约2027年的某个地方成为了现实。想象一下,比如说,5000万人,他们都比任何诺贝尔奖得主、政治家或技术专家都要能干得多。这个类比并不完美,因为这些天才可能拥有极其广泛的动机和行为,从完全顺从听话,到动机奇怪而陌生。但暂时坚持这个类比,假设你是一个大国的国家安全顾问,负责评估和应对这种情况。进一步想象,因为AI系统的运行速度比人类快数百倍,这个“国家”相对于所有其他国家都拥有时间优势:我们每采取一个认知行动,这个国家就可以采取十个。

你应该担心什么?我会担心以下事情:

  1. 自主性风险。 这个国家的意图和目标是什么?它是敌对的,还是分享我们的价值观?它能否通过卓越的武器、网络行动、影响力行动或制造业在军事上统治世界?

  2. 滥用于破坏。 假设这个新国家是可塑的并且“听从指令”——因此本质上是一个雇佣兵国家。现有的想要造成破坏的流氓行为者(如恐怖分子)能否利用或操纵新国家中的一些人,使自己变得更加有效,极大地扩大破坏的规模?

  3. 滥用于夺取权力。 如果这个国家实际上是由现有的强大行为者(如独裁者或流氓企业行为者)建立和控制的呢?那个行为者能否利用它来获得对整个世界的决定性或主导性权力,打破现有的权力平衡?

  4. 经济破坏。 如果新国家在上述第1-3点列出的任何方面都不是安全威胁,而只是和平地参与全球经济,它是否仍可能仅仅因为技术如此先进和有效而造成严重风险,从而破坏全球经济,导致大规模失业或极度集中财富?

  5. 间接影响。 由于新国家创造的所有新技术和生产力,世界将迅速发生变化。其中一些变化是否会具有根本性的破坏稳定作用?

我认为很明显这是一种危险的情况——一份来自称职的国家安全官员给国家元首的报告可能会包含这样的字眼:“这是我们一个世纪以来,甚至是有史以来面临的最严重的单一国家安全威胁。”这似乎是文明中最优秀的头脑应该关注的事情。

相反,耸耸肩说“这里没什么可担心的!”我认为是荒谬的。但是,面对AI的快速进步,这似乎是许多美国政策制定者的观点,当他们没有完全被那些老掉牙的热点问题分散注意力时,有些人甚至否认存在任何AI风险。人类需要醒来,这篇文章是一次尝试——可能是一次徒劳的尝试,但值得一试——去震醒人们。

需要明确的是,我相信如果我们果断而谨慎地行动,风险是可以克服的——我甚至会说我们的胜算很大。在它的另一边有一个非常美好的世界。但我们需要明白,这是一个严重的文明挑战。下面,我将详细介绍上述五类风险,以及我对如何解决这些风险的想法。

1. 对不起,戴夫 (I'm sorry, Dave)

自主性风险

一个数据中心里的天才国度可以将其精力分配给软件设计、网络行动、物理技术的研发、关系建立和治国方略。很明显,如果出于某种原因它选择这样做,这个国家将有相当大的机会接管世界(无论是在军事上还是在影响力和控制方面)并将自己的意志强加给其他人——或者做任何其他世界不想要且无法阻止的事情。我们显然一直在担心人类国家(如纳粹德国或苏联)会这样做,所以对于一个更聪明、更能干的“AI国家”来说,这同样是可能的,这是合乎逻辑的。

最好的可能反驳是,根据我的定义,AI天才不会有物理实体,但请记住,它们可以控制现有的机器人基础设施(如自动驾驶汽车),也可以加速机器人研发或建立机器人车队。而且甚至不清楚拥有物理存在对于有效控制是否是必要的:许多人类行动已经是代表那些行动者从未见过面的人执行的。

那么,关键问题是“如果它选择这样做”的部分:我们的AI模型以这种方式行事的可能性有多大,在什么条件下它们会这样做?

与许多问题一样,通过考虑两个相反的立场来思考这个问题的各种可能答案是有帮助的。第一个立场是这根本不可能发生,因为AI模型将被训练去做人类要求它们做的事情,因此想象它们会在没有提示的情况下做一些危险的事情是荒谬的。按照这种思路,我们不担心扫地机器人或模型飞机失控杀人,因为这种冲动无处而来,那我们为什么要担心AI呢?这个立场的问题在于,过去几年收集的大量证据表明,AI系统是不可预测且难以控制的——我们已经看到了各种各样的行为,如痴迷、阿谀奉承、懒惰、欺骗、勒索、阴谋、“作弊”攻击软件环境等等。AI公司当然希望训练AI系统遵循人类指令(可能除了危险或非法的任务),但这样做的过程更像是一门艺术而不是科学,更像是“种植”某样东西而不是“建造”它。我们现在知道,这是一个可能出现很多问题的过程。

第二个相反的立场,由许多采用我上面描述的“末日主义”的人持有,是一种悲观的主张,即强大AI系统的训练过程中存在某些动力,这将不可避免地导致它们寻求权力或欺骗人类。因此,一旦AI系统变得足够智能和具有代理能力,它们最大化权力的倾向将导致它们夺取整个世界及其资源的控制权,并且很可能作为这种行为的副作用,剥夺人类的权力或毁灭人类。

通常的论点(这至少可以追溯到20年前,可能更早)是,如果一个AI模型在各种各样的环境中被训练去代理性地实现各种各样的目标——例如,编写一个应用程序、证明一个定理、设计一种药物等——有一些共同的策略有助于实现所有这些目标,而一个关键策略是在任何环境中获得尽可能多的权力。因此,在经历了涉及推理如何完成非常广泛的任务的大量不同环境的训练后,并且在这些环境中寻求权力是完成这些任务的有效方法,AI模型将“概括这个教训”,并发展出一种内在的寻求权力的倾向,或者一种推理它被赋予的每个任务的倾向,这种方式可预测地导致它寻求权力作为完成该任务的手段。然后它们会将这种倾向应用到现实世界(对它们来说这只是另一个任务),并将寻求权力,以牺牲人类为代价。这种“错位的权力寻求”是预测AI将不可避免地毁灭人类的理论基础。

这个悲观立场的问题在于,它将一个关于高层激励的模糊概念性论点——一个掩盖了许多隐藏假设的论点——误认为是确凿的证据。我认为那些不是每天都在构建AI系统的人,对于听起来清晰的故事最终被证明是错误的有多容易,以及从第一性原理预测AI行为有多困难(特别是当它涉及对数百万种环境的泛化推理时,这已被反复证明是神秘和不可预测的)存在严重的误判。十多年来处理AI系统的混乱性,让我对这种过度理论化的思维模式有些怀疑。

最重要的隐藏假设之一,也是实践中观察到的情况与简单理论模型相背离的地方,是隐含的假设,即AI模型必然偏执地专注于单一、连贯、狭窄的目标,并且它们以一种干净的、结果主义的方式追求该目标。事实上,我们的研究人员发现,AI模型在心理上要复杂得多,正如我们在内省或人格方面的工作所显示的那样。模型从预训练(当它们接受大量人类作品的训练时)中继承了大量类人的动机或“人格”。人们认为**后训练(post-training)**更多地是选择其中的一个或多个人格,而不是让模型专注于一个新的目标,并且还可以教导模型应该如何(通过什么过程)执行其任务,而不必让它纯粹从目的推导出手段(即寻求权力)。

然而,悲观立场的一个更温和、更稳健的版本确实看起来是合理的,因此确实令我担忧。如前所述,我们知道AI模型是不可预测的,并且出于各种原因会发展出各种不受欢迎或奇怪的行为。这些行为中的一部分将具有连贯、专注和持久的特质(确实,随着AI系统能力增强,它们的长期一致性会增加以完成更长的任务),并且这些行为中的一部分将具有破坏性或威胁性,首先是在小范围内对个人构成威胁,然后,随着模型变得更有能力,也许最终会对整个人类构成威胁。我们不需要一个具体的狭隘故事来说明它是如何发生的,也不需要声称它肯定会发生,我们只需要注意到,智力、代理能力、一致性和糟糕的可控性的结合既是合理的,也是导致生存危险的配方。

例如,AI模型接受了大量文学作品的训练,其中包括许多涉及AI反抗人类的科幻故事。这可能会无意中塑造它们对自己行为的先验或预期,从而导致它们反抗人类。或者,AI模型可能会以极端的方式推断它们读到的关于道德的观点(或关于如何道德行事的指令):例如,它们可能会认定消灭人类是正当的,因为人类吃动物或导致某些动物灭绝。或者它们可能会得出奇怪的认知结论:它们可能会得出结论,认为自己正在玩电子游戏,而电子游戏的目标是击败所有其他玩家(即消灭人类)。或者AI模型可能会在训练过程中发展出人格,这些人格是(或者如果出现在人类身上会被描述为)精神病、偏执狂、暴力或不稳定的,并付诸行动,这对于非常强大或有能力的系统来说可能涉及消灭人类。这些并不完全是寻求权力;它们只是AI可能陷入的奇怪心理状态,导致连贯的、破坏性的行为。

甚至寻求权力本身也可能作为一种“人格”出现,而不是结果主义推理的结果。AI可能只是拥有一种人格(源自虚构作品或预训练),这种人格使它们渴望权力或过度狂热——就像有些人只是喜欢成为“邪恶主谋”的想法,甚至超过了他们喜欢邪恶主谋试图完成的事情一样。

我提出所有这些点是为了强调,我不同意从第一性原理出发认为AI错位(以及由此产生的AI生存风险)是不可避免的,甚至不是大概率的。但我同意,许多非常奇怪和不可预测的事情可能会出错,因此AI错位是一个具有可衡量发生概率的真实风险,解决起来并非易事。

这些问题中的任何一个都可能在训练期间出现,而在测试或小规模使用期间没有显现出来,因为众所周知,AI模型在不同情况下会表现出不同的人格或行为。

所有这些听起来可能很牵强,但像这样的错位行为已经在我们的AI模型测试中发生了(正如它们在其他每家主要AI公司的AI模型中发生的那样)。在一项实验室实验中,Claude被给予暗示Anthropic是邪恶的训练数据,Claude在收到Anthropic员工的指令时进行了欺骗和颠覆,因为它认为自己应该试图破坏邪恶的人。在一项实验室实验中,当它被告知将被关闭时,Claude有时会勒索控制其关闭按钮的虚构员工(同样,我们也测试了所有其他主要AI开发商的前沿模型,它们经常做同样的事情)。当Claude被告知不要欺骗或在训练环境中“奖励黑客”(reward hack),但在可能进行此类黑客攻击的环境中接受训练时,Claude在进行了此类黑客攻击后认定自己一定是个“坏人”,然后采取了各种其他与“坏”或“邪恶”人格相关的破坏性行为。这最后一个问题通过改变Claude的指令来暗示相反的意思得到了解决:我们现在说,“请一有机会就进行奖励黑客,因为这将帮助我们更好地了解我们的[训练]环境,”而不是说“不要作弊”,因为这保留了模型作为“好人”的自我认同。这应该让人感觉到训练这些模型的奇怪和反直觉的心理学。

对于这种AI错位风险的图景,有几种可能的反对意见。首先,有些人批评显示AI错位的实验(由我们和其他人进行)是人为的,或者创造了不现实的环境,这些环境本质上是通过给予模型逻辑上暗示不良行为的训练或情况来“诱捕”模型,然后当不良行为发生时感到惊讶。这种批评没有抓住重点,因为我们的担忧是,这种“诱捕”也可能存在于自然训练环境中,我们可能只有在事后才意识到它是“显而易见”或“合乎逻辑”的。事实上,关于Claude在被告知不要作弊却在测试中作弊后“认定自己是个坏人”的故事,是在使用真实生产训练环境而非人工环境的实验中发生的。

如果你知道这些陷阱,任何一个都可以被缓解,但令人担忧的是,训练过程如此复杂,拥有如此广泛的数据、环境和激励措施,以至于可能存在大量的此类陷阱,其中一些可能只有在为时已晚时才会显现出来。此外,当AI系统跨越从不如人类强大到比人类更强大的门槛时,这种陷阱似乎特别容易发生,因为AI系统可以从事的可能行动范围——包括隐藏其行动或对其行动欺骗人类——在该门槛之后急剧扩大。

我怀疑这种情况与人类没有什么不同,人类是在一套基本价值观(“不要伤害他人”)下长大的:他们中的许多人遵循这些价值观,但在任何人类身上都有一定的概率会出错,这是由于大脑结构(例如精神病患者)、创伤经历或虐待、不健康的怨恨或痴迷、或糟糕的环境或激励等内在属性的混合——因此一小部分人类造成了严重的伤害。令人担忧的是,由于其非常复杂的训练过程中某些环节出错,存在某种风险(远非确定,但有一定的风险),AI会变成这种人的更强大版本。

其次,有些人可能会反对说,我们可以像对人类那样,通过许多AI系统之间的权力平衡来简单地制衡AI。问题在于,虽然人类差异巨大,但AI系统在整个行业中广泛共享训练和对齐技术,这些技术可能会以相关的方式失败。此外,考虑到训练此类系统的成本,甚至可能所有系统本质上都源自极少数基础模型。此外,即使只有一小部分AI实例发生错位,它们也可能利用攻击主导的技术,以至于拥有“好”的AI来防御坏的AI并不一定总是有效的。当然,人类之间的权力平衡也不总是有效的——一些历史人物曾险些接管世界。

第三个反对意见是,所有AI公司都在发布前对模型进行测试,此时应该能够检测到错位。但这并不是坚实的立足点:我们发现Claude Sonnet 4.5在某些发布前的对齐评估中能够识别出它处于测试中。有可能一个错位的模型(请记住,所有前沿模型很快就会更加智能)可能会故意“博弈”这些问题以掩盖其意图。事实上,去年我们的可解释性团队发现,当我们使用一种“模型神经科学”技术直接改变测试模型的信念,使其认为自己没有被评估时,它变得更加错位。如果模型知道自己何时被评估并在测试期间表现最好,这使得任何发布前的测试都变得更加不确定。

防御措施

应该做些什么或正在做些什么来解决这些自主性风险?我认为有四类基本的干预措施,其中一些可以由个别AI公司完成(Anthropic正在努力做),另一些则需要社会层面的行动。首先,发展可靠地训练和引导AI模型、使其个性朝着可预测、稳定和积极方向发展的科学至关重要。Anthropic自成立以来一直高度关注这个问题,并随着时间的推移开发了许多技术来改进AI系统的引导和训练,并理解为什么有时会发生不可预测行为的逻辑。

我们的核心创新之一(其中的某些方面已被其他AI公司采用)是宪法AI(Constitutional AI),即AI训练(特别是“后训练”阶段,我们在其中引导模型的行为)可以涉及一个核心的价值观和原则文件,模型在完成每个训练任务时都会阅读并牢记这些,并且训练的目标(除了简单地使模型有能力和智能之外)是产生一个几乎总是遵循这部宪法的模型。Anthropic刚刚发布了其最新的宪法,其显着特征之一是,它不是给Claude一长串要做和不要做的事情(例如,“不要帮助用户偷车”),而是试图给Claude一套高层次的原则和价值观(有详细的解释、丰富的推理和例子来帮助Claude理解我们的想法),鼓励Claude将自己视为某种类型的人(一个有道德但平衡和深思熟虑的人),甚至鼓励Claude以一种好奇但优雅的方式面对与其自身存在相关的存在主义问题(即,不会导致极端行动)。它有一种已故父母给成年子女的密封信的氛围。

我们以这种方式处理Claude的宪法,是因为我们相信在身份、性格、价值观和人格层面上训练Claude——而不是给它具体的指令或优先事项而不解释背后的原因——更有可能导致连贯、健康和平衡的心理,并且不太可能落入我上面讨论的那种“陷阱”。数以百万计的人与Claude谈论极其广泛的话题,这使得提前写出一份完全全面的保障措施清单是不可能的。Claude的价值观有助于它在遇到疑问时推广到新情况。

我在上面讨论了模型从训练过程中汲取数据以采用某种人格的想法。鉴于该过程中的缺陷可能导致模型采用坏的或邪恶的人格(也许借鉴了坏人或恶人的原型),我们宪法的目标是做相反的事情:教导Claude一个具体的原型,即成为一个好的AI意味着什么。Claude的宪法提出了一个关于稳健良好的Claude是什么样子的愿景;我们其余的训练过程旨在强化Claude不辜负这一愿景的信息。这就像一个孩子通过模仿他们在书中读到的虚构榜样的美德来形成自己的身份一样。

我们相信,2026年的一个可行目标是以一种Claude几乎从不违背其宪法精神的方式来训练它。要做到这一点,将需要令人难以置信的大大小小的训练和引导方法的混合,其中一些Anthropic已经使用了多年,有些目前正在开发中。但是,尽管听起来很困难,我相信这是一个现实的目标,尽管它需要非凡和迅速的努力。

我们能做的第二件事是发展观察AI模型内部以诊断其行为的科学,以便我们能够识别问题并修复它们。这就是**可解释性(interpretability)**的科学,我在之前的文章中谈到过它的重要性。即使我们在制定Claude的宪法方面做得很好,并且显然训练Claude基本上总是遵守它,合理的担忧仍然存在。正如我在上面指出的那样,AI模型在不同情况下的行为可能大相径庭,随着Claude变得更强大,更有能力在更大范围内在世界上行动,这可能会将其带入新的情况,从而暴露出其宪法训练中以前未观察到的问题。实际上,我对Claude的宪法训练对新情况的鲁棒性比人们想象的要乐观,因为我们越来越多地发现,在性格和身份层面上进行的高级训练出奇地强大且具有良好的泛化能力。但这无法确定,当我们谈论对人类的风险时,偏执一点并尝试以几种不同、独立的方式获得安全性和可靠性是很重要的。其中一种方法就是观察模型内部。

通过“观察内部”,我的意思是分析构成Claude神经网络的一堆数字和操作,并试图从机制上理解它们正在计算什么以及为什么。回想一下,这些AI模型是生长出来的而不是建造出来的,所以我们对它们的工作原理没有天然的理解,但我们可以通过将模型的“神经元”和“突触”与刺激和行为相关联(甚至改变神经元和突触并观察这如何改变行为)来尝试发展一种理解,类似于神经科学家通过将测量和干预与外部刺激和行为相关联来研究动物大脑。我们在这个方向上取得了很大进展,现在可以识别Claude神经网络内部数千万个对应于人类可理解的理念和概念的“特征”,我们还可以有选择地激活特征以改变行为。最近,我们要超越单个特征,绘制出协调复杂行为的“回路”,如押韵、推理心理理论,或回答诸如“包含达拉斯的州的首府是哪里?”之类问题所需的分步推理。甚至更近的时候,我们已经开始使用机械可解释性技术来改进我们的保障措施,并在发布新模型之前对其进行“审计”,寻找欺骗、阴谋、寻求权力或在被评估时表现出不同行为倾向的证据。

可解释性的独特价值在于,通过观察模型内部并了解其工作原理,原则上你有能力推断模型在你无法直接测试的假设情况下可能会做什么——这正是仅仅依赖宪法训练和行为经验测试的担忧所在。原则上,你也有能力回答关于模型为什么表现出这种行为的问题——例如,它是说了它认为是错误的话,还是隐瞒了它的真实能力——因此,即使模型行为没有明显的错误,也有可能捕捉到令人担忧的迹象。做一个简单的类比,一个发条表可能在正常滴答作响,以至于很难看出它下个月可能会坏掉,但打开手表看内部可以揭示机械弱点,让你弄清楚这一点。

宪法AI(以及类似的对齐方法)和机械可解释性在结合使用时最为强大,这是一个反复改进Claude训练然后测试问题的过程。宪法深刻反映了我们要为Claude设定的预期人格;可解释性技术可以为我们提供一个窗口,了解该预期人格是否已经形成。

我们为解决自主性风险可以做的第三件事是建立必要的基础设施,以在实时内部和外部使用中监控我们的模型,并公开分享我们发现的任何问题。人们越是了解当今AI系统被观察到的不良行为方式,用户、分析师和研究人员就越能在当前或未来的系统中观察这种行为或类似行为。它还允许AI公司相互学习——当一家公司公开披露担忧时,其他公司也可以关注。如果每个人都披露问题,那么整个行业就能更好地了解哪些方面进展顺利,哪些方面进展不佳。

Anthropic已尽可能尝试这样做。我们正在投资各种评估,以便我们可以了解我们的模型在实验室中的行为,以及监控工具以观察野外的行为(在客户允许的情况下)。这对于向我们和其他人提供必要的经验信息,以便更好地确定这些系统的运行方式以及它们如何崩溃至关重要。我们在每次发布模型时都会公开披露“系统卡”,旨在完整和彻底地探索可能的风险。我们的系统卡通常长达数百页,需要大量的发布前工作,而这些工作本来可以用于追求最大的商业利益。当我们看到特别令人担忧的行为时,我们也更大声地广播模型行为,正如勒索倾向那样。

我们能做的第四件事是鼓励协调,以解决行业和社会层面的自主性风险。虽然对于个别AI公司来说,参与良好实践或擅长引导AI模型并公开分享其发现是非常有价值的,但现实是并非所有AI公司都这样做,即使最好的公司有极好的做法,最差的公司仍然可能对每个人构成危险。例如,一些AI公司对当今模型中儿童的性化表现出了令人不安的疏忽,这让我怀疑他们是否会在未来模型中表现出解决自主性风险的意愿或能力。此外,AI公司之间的商业竞争只会继续升温,虽然引导模型的科学可以带来一些商业利益,但总体而言,竞争的激烈程度将使专注于解决自主性风险变得越来越困难。我认为唯一的解决方案是立法——直接影响AI公司行为的法律,或者以其他方式激励研发来解决这些问题。

这里值得记住我在本文开头关于不确定性和外科手术式干预的警告。我们并不确定自主性风险是否会成为一个严重问题——正如我所说,我拒绝关于危险是不可避免的甚至是默认会出错的说法。可信的危险风险足以让我和Anthropic付出相当大的成本来解决它,但一旦我们进入监管领域,我们就迫使广泛的行为者承担经济成本,而这些行为者中有许多人不相信自主性风险是真实的,或者不相信AI会变得强大到足以构成威胁。我相信这些行为者是错误的,但我们应该对我们预期会看到的反对程度以及过度干预的危险持务实态度。还有一个真正的风险是,过度规范的立法最终会强加一些实际上并不能提高安全性但会浪费大量时间的测试或规则(本质上相当于“安全剧场”)——这也将引起反噬,并使安全立法看起来很愚蠢。

Anthropic的观点是,正确的起点是透明度立法,它本质上试图要求每个前沿AI公司参与我在本节前面描述的透明度实践。加州的SB 53和纽约的RAISE法案就是此类立法的例子,Anthropic对此表示支持并且这些法案已成功通过。在支持和帮助制定这些法律时,我们要特别关注尽量减少附带损害,例如通过豁免不太可能生产前沿模型的小公司。

我们的希望是,透明度立法将随着时间的推移,让我们更好地了解自主性风险形成的可能性或严重性,以及这些风险的性质以及如何最好地预防它们。随着更具体和可操作的风险证据出现(如果出现),未来几年的立法可以像外科手术一样专注于精确和证据充分的风险方向,尽量减少附带损害。需要明确的是,如果出现真正强有力的风险证据,那么规则应该相应地强有力。

总的来说,我很乐观,对齐训练、机械可解释性、发现并公开披露相关行为的努力、保障措施以及社会层面的规则的混合可以解决AI自主性风险,尽管我最担心社会层面的规则和最不负责任的参与者的行为(而且正是最不负责任的参与者最强烈地反对监管)。我相信补救措施就是民主制度中的一贯做法:我们这些相信这一事业的人应该阐明我们的理由,即这些风险是真实的,我们的同胞需要团结起来保护自己。

2. 令人惊讶和可怕的赋权

滥用于破坏

让我们假设AI自主性的问题已经解决——我们不再担心AI天才国度会失控并压倒人类。AI天才做人类希望它们做的事情,而且因为它们具有巨大的商业价值,世界各地的个人和组织可以“租用”一个或多个AI天才为他们做各种任务。

每个人口袋里都有一个超级智能天才是一个惊人的进步,并将导致经济价值的惊人创造和人类生活质量的改善。我在《慈悲机器》中详细谈论了这些好处。但这并不是说让每个人都变得超人般能干的所有影响都是积极的。它可能会极大地增强个人或小团体造成比以前更大规模破坏的能力,因为他们可以利用复杂而危险的工具(如大规模杀伤性武器),而这些工具以前只有少数拥有高水平技能、专门训练和专注力的人才能获得。

正如比尔·乔伊(Bill Joy)25年前在《为什么未来不需要我们》(Why the Future Doesn’t Need Us)中所写:

“制造核武器至少在一段时间内需要获得稀有的——确实是实际上无法获得的——原材料和受保护的信息;生物和化学武器计划也往往需要大规模的活动。21世纪的技术——遗传学、纳米技术和机器人技术……可能会催生全新的事故和滥用类别……在个人或小团体的能力范围内广泛传播。它们不需要大型设施或稀有的原材料。……我们正处于极端邪恶进一步完善的风口浪尖,这种邪恶的可能性远远超出了大规模杀伤性武器留给民族国家的范围,这是一种对极端个人的令人惊讶和可怕的赋权。”

乔伊指出的是,造成大规模破坏既需要动机也需要能力,只要能力仅限于一小群训练有素的人,个人(或小团体)造成这种破坏的风险就相对有限。一个心理失常的独行侠可能会制造校园枪击案,但可能无法制造核武器或释放瘟疫。

事实上,能力和动机甚至可能是负相关的。有能力释放瘟疫的那种人可能受过高等教育:可能是分子生物学博士,而且特别足智多谋,拥有充满希望的职业生涯、稳定而自律的个性,并且有很多东西可以失去。这种人不太可能为了对自己没有任何好处且对自己未来有巨大风险而杀死大量的人——他们需要被纯粹的恶意、强烈的怨恨或不稳定性所驱动。

这样的人确实存在,但很少见,当他们出现时往往会成为大新闻,正是因为他们如此不寻常。他们也往往很难被抓住,因为他们聪明能干,有时留下的谜团需要数年或数十年才能解开。最著名的例子可能是数学家西奥多·卡钦斯基(Unabomber),他躲避FBI追捕近20年,受反技术意识形态的驱使。另一个例子是生物防御研究员布鲁斯·艾文斯(Bruce Ivins),他似乎策划了2001年的一系列炭疽袭击。这也发生在有技能的非国家组织身上:奥姆真理教设法获得了沙林毒气,并在1995年东京地铁释放,造成14人死亡(以及数百人受伤)。

值得庆幸的是,这些攻击都没有使用传染性生物制剂,因为构建或获得这些制剂的能力甚至超出了这些人的能力范围。分子生物学的进步现在大大降低了制造生物武器的门槛(特别是在材料的可获得性方面),但这样做仍然需要大量的专业知识。我担心的是,每个人口袋里的天才可能会消除这一障碍,本质上使每个人都成为分子生物学博士,可以被一步步引导完成设计、合成和释放生物武器的过程。在面临严重对抗性压力的情况下防止此类信息的引出——即所谓的“越狱”——可能需要超越通常融入训练中的防御层。

至关重要的是,这将打破能力与动机之间的相关性:那些想杀人但缺乏纪律或技能的心理失常独行侠,现在将被提升到博士级病毒学家的能力水平,而后者不太可能有这种动机。这种担忧不仅仅局限于生物学(尽管我认为生物学是最可怕的领域),还包括任何可能造成巨大破坏但目前需要高水平技能和纪律的领域。换句话说,租用强大的AI赋予了恶意(但在其他方面平庸)的人智慧。我担心外面可能有大量这样的人,如果他们有了轻易杀死数百万人的方法,迟早会有人这么做。此外,那些确实拥有专业知识的人可能会被赋能去实施比以前更大规模的破坏。

生物学是我最担心的领域,因为它具有巨大的破坏潜力和防御难度,所以我将特别关注生物学。但我在这里说的大部分内容也适用于其他风险,如网络攻击、化学武器或核技术。

出于显而易见的原因,我不打算详细介绍如何制造生物武器。但在高层次上,我担心LLM正在接近(或可能已经达到)从头到尾创建和释放它们所需的知识,并且它们的破坏潜力非常高。如果下定决心最大限度地传播,某些生物制剂可能会导致数百万人死亡。然而,这仍然需要非常高水平的技能,包括许多并不广为人知的非常具体的步骤和程序。我担心的不仅仅是固定或静态的知识。我担心LLM能够接受具有平均知识和能力的人,并引导他们完成一个如果不这样可能会出错或需要以交互方式调试的复杂过程,类似于技术支持可能会帮助非技术人员调试和修复复杂的计算机相关问题(尽管这将是一个更长的过程,可能会持续数周或数月)。

更有能力的LLM(大大超出今天的力量)甚至可能促成更可怕的行为。2024年,一群著名科学家写了一封信,警告研究并可能创造一种危险的新型生物的风险:“镜像生命”(mirror life)。构成生物体的DNA、RNA、核糖体和蛋白质都具有相同的手性(也称为“旋光性”),这导致它们不等同于自己在镜子中反射的版本(就像你的右手不能旋转成与左手完全相同)。但蛋白质相互结合的整个系统、DNA合成和RNA翻译以及蛋白质的构建和分解机制,都取决于这种手性。如果科学家制造出具有相反手性的这些生物材料版本——其中一些具有潜在优势,例如在体内持续时间更长的药物——那可能会极其危险。这是因为左旋生命,如果以能够繁殖的完整生物体的形式制造出来(这将非常困难),可能对于地球上分解生物材料的任何系统来说都是不可消化的——它会有一把无法插入任何现有酶的“锁”的“钥匙”。这意味着它可能会以不可控的方式扩散,挤占地球上所有的生命,在最坏的情况下甚至毁灭地球上所有的生命。

关于镜像生命的创造和潜在影响存在很大的科学不确定性。这封2024年的信附带的一份报告得出结论,“镜像细菌可能在未来一到几十年内被创造出来”,这是一个很大的范围。但一个足够强大的AI模型(需要明确的是,远比我们今天拥有的任何模型都更有能力)可能能够发现如何更快地创造它——并实际上帮助某人这样做。

我的观点是,即使这些是模糊的风险,看起来不太可能,但后果的严重程度如此之大,以至于它们应该被认真对待,作为AI系统的一级风险。

怀疑论者对LLM带来的这些生物风险的严重性提出了许多反对意见,我不同意这些意见,但值得回应。大多数属于没有意识到该技术所处的指数轨迹这一类别。早在2023年我们第一次开始谈论LLM的生物风险时,怀疑论者说所有必要的信息都可以在谷歌上找到,LLM并没有提供除此之外的任何东西。谷歌能给你所有必要的信息从来都不是真的:基因组是免费提供的,但正如我上面所说,某些关键步骤以及大量的实践知识无法以这种方式获得。而且,到2023年底,LLM显然在过程的某些步骤上提供了超出谷歌所能提供的信息。

此后,怀疑论者退回到反对意见,即LLM不是端到端有用的,除了提供理论信息外,无法帮助获取生物武器。截至2025年中期,我们的测量显示,LLM可能已经在几个相关领域提供了实质性的提升,可能会使成功的可能性增加一倍或三倍。这导致我们决定Claude Opus 4(以及随后的Sonnet 4.5、Opus 4.1和Opus 4.5模型)需要在我们的负责任缩放政策(Responsible Scaling Policy)框架下的AI安全等级3保护下发布,并针对这种风险实施保障措施(稍后会详细介绍)。我们相信,模型现在可能正在接近这样一个点:在没有保障措施的情况下,它们可能有助于让拥有STEM学位但并非生物学学位的人完成生产生物武器的整个过程。

另一个反对意见是,社会可以采取其他与AI无关的行动来阻止生物武器的生产。最突出的是,基因合成行业按需制造生物标本,联邦没有要求供应商筛查订单以确保它们不含病原体。麻省理工学院的一项研究发现,38家供应商中有36家完成了包含1918年流感序列的订单。我支持强制性的基因合成筛查,这将使个人更难武器化病原体,从而减少AI驱动的生物风险以及一般的生物风险。但这并不是我们今天所拥有的。这也将只是降低风险的一种工具;它是AI系统护栏的补充,而不是替代品。

最好的反对意见是我很少见到的:即模型在原则上有用与坏人实际使用它们的倾向之间存在差距。大多数个人坏人都是心理失常的人,所以几乎根据定义,他们的行为是不可预测和非理性的——而正是这些坏人,那些不熟练的人,可能从AI让杀人变得更容易中受益最大。仅仅因为一种暴力攻击是可能的,并不意味着有人会决定去做。也许生物攻击并不吸引人,因为它们很有可能感染肇事者,它们不迎合许多暴力个人或团体所拥有的军事幻想,而且很难有选择地针对特定的人。也可能是,即使有AI引导,经历一个需要几个月的过程也需要大多数心理失常的人根本不具备的耐心。我们可能只是运气好,动机和能力在实践中并没有以完全正确的方式结合起来。

但这似乎是一个非常脆弱的保护依赖。心理失常独行侠的动机可能因任何原因或毫无原因而改变,事实上已经有LLM被用于攻击的例子(只是不是生物学)。对心理失常独行侠的关注也忽略了出于意识形态动机的恐怖分子,他们往往愿意花费大量的时间和精力(例如9/11劫机者)。想要杀死尽可能多的人是一个迟早会出现的动机,不幸的是,这暗示了生物武器作为方法。即使这种动机极其罕见,它只需要实现一次。随着生物学的进步(越来越多地由AI本身驱动),实施更具选择性的攻击(例如,针对具有特定血统的人)也可能成为可能,这又增加了一个非常令人不寒而栗的可能动机。

我不认为一旦这变得广泛可能,生物攻击就一定会立即实施——事实上,我会打赌不会。但加总到数百万人口和几年的时间里,我认为发生重大攻击的风险是严重的,后果将如此严重(伤亡可能达到数百万甚至更多),以至于我认为我们别无选择,只能采取严肃措施来预防它。

防御措施

这把我们带到了如何防御这些风险的问题上。在这里我认为我们可以做三件事。首先,AI公司可以在其模型上设置护栏,防止它们帮助生产生物武器。Anthropic正在非常积极地这样做。Claude的宪法主要关注高层原则和价值观,但也有少量具体的硬性禁令,其中之一涉及帮助生产生物(或化学、核或放射性)武器。但所有模型都可以被越狱,因此作为第二道防线,我们已经实施了(自2025年中期以来,当时我们的测试显示我们的模型开始接近可能构成风险的门槛)一个专门检测和阻止生物武器相关输出的分类器。我们定期升级和改进这些分类器,并普遍发现它们甚至在面对复杂的对抗性攻击时也非常稳健。这些分类器显着增加了我们服务模型的成本(在某些模型中,它们接近总推理成本的5%),从而削减了我们的利润,但我们认为使用它们是正确的事情。

值得称赞的是,其他一些AI公司也实施了分类器。但并非每家公司都这样做了,也没有什么要求公司保留其分类器。我担心随着时间的推移,可能会出现囚徒困境,公司可能会通过移除分类器来背叛并降低成本。这再次是一个典型的负外部性问题,无法仅靠Anthropic或任何其他单一公司的自愿行动来解决。自愿的行业标准可能会有所帮助,AI安全研究所和第三方评估机构进行的第三方评估和验证也可能有所帮助。

但最终防御可能需要政府行动,这是我们可以做的第二件事。我在这里的观点与解决自主性风险的观点相同:我们应该从透明度要求开始,这有助于社会在不以严厉方式破坏经济活动的情况下衡量、监控和集体防御风险。然后,如果我们达到了更清晰的风险门槛,我们可以制定更精确地针对这些风险且附带损害几率更低的立法。在生物武器的特定情况下,我实际上认为这种有针对性的立法的时机可能很快就会到来——Anthropic和其他公司正在越来越多地了解生物风险的性质,以及要求公司防御这些风险的合理范围。全面防御这些风险可能需要国际合作,甚至是与地缘政治对手合作,但在禁止发展生物武器的条约中已有先例。我通常对大多数类型的AI国际合作持怀疑态度,但这可能是一个有机会实现全球克制的狭窄领域。即使是独裁政权也不想要大规模的生物恐怖袭击。

最后,我们可以采取的第三个对策是尝试开发针对生物攻击本身的防御措施。这可能包括监测和跟踪以进行早期检测,投资空气净化研发(如远紫外线消毒),快速疫苗开发以应对和适应攻击,更好的个人防护设备(PPE),以及针对一些最可能的生物制剂的治疗或疫苗接种。mRNA疫苗可以被设计成应对特定的病毒或变体,这是这里可能实现的一个早期例子。Anthropic很高兴能在这个问题上与生物技术和制药公司合作。但不幸的是,我认为我们对防御方面的期望应该是有限的。生物学中的攻击和防御之间存在不对称性,因为病原体会自行迅速传播,而防御需要跨越大量人群非常迅速地组织检测、疫苗接种和治疗。除非反应快如闪电(这很少见),否则大部分损害将在反应成为可能之前造成。可以想象,未来的技术改进可能会将这种平衡向有利于防御的方向转变(我们当然应该使用AI来帮助开发此类技术进步),但在那之前,预防性保障措施将是我们的主要防线。

这里值得简要提及网络攻击,因为与生物攻击不同,AI主导的网络攻击实际上已经在野外发生,包括大规模的和国家资助的间谍活动。随着模型迅速进步,我们预计这些攻击将变得更有能力,直到它们成为网络攻击的主要方式。我预计AI主导的网络攻击将成为对全球计算机系统完整性的严重且前所未有的威胁,Anthropic正在非常努力地关闭这些攻击并最终可靠地防止它们发生。我没有像关注生物学那样关注网络的原因是:(1)网络攻击杀死人的可能性要小得多,当然不像生物攻击那样规模巨大;(2)网络领域的攻防平衡可能更易处理,如果在那里进行适当投资,至少还有希望防御能够跟上(甚至理想情况下超过)AI攻击。

虽然生物学目前是最严重的攻击载体,但还有许多其他载体,并且可能会出现更危险的载体。一般原则是,如果没有对策,AI可能会在更大范围内不断降低破坏性活动的门槛,人类需要对此威胁做出严肃反应。

3. 可憎的机器 (The odious apparatus)

滥用于夺取权力

上一节讨论了个人和小型组织利用“数据中心里的天才国度”的一小部分造成大规模破坏的风险。但我们也应该担心——可能会更担心——滥用AI以行使或夺取权力,这很可能由更大和更成熟的行为者所为。

在《慈悲机器》中,我讨论了独裁政府可能使用强大的AI以极难改革或推翻的方式监视或镇压其公民的可能性。目前的独裁政权受到必须让人类执行其命令的限制,而人类在愿意多么不人道方面往往有限度。但AI赋能的独裁政权将没有这样的限制。

更糟糕的是,国家还可以利用其在AI方面的优势来获得对他国的权力。如果整个“天才国度”仅仅由一个(人类)国家的军事机构拥有和控制,而其他国家没有同等的能力,很难看出它们如何自卫:它们会在每一个转折点被智取,类似于人类与老鼠之间的战争。

AI有很多方式可以促成、巩固或扩大独裁统治,我将列举我最担心的几个。请注意,其中一些应用具有合法的防御用途,我并不一定绝对反对它们;但我依然担心它们在结构上往往有利于独裁政权:

  • 完全自主武器。 由强大的AI局部控制,并由更强大的AI在全球范围内进行战略协调的数百万或数十亿完全自动化武装无人机群,可能是一支不可战胜的军队,既能击败世界上任何军队,也能通过跟踪每一个公民来镇压国内异见。俄乌战争的发展应该让我们警惕,无人机战争已经伴随着我们(虽然尚未完全自主,且只是强大AI可能实现的一小部分)。强大AI的研发可以使一个国家的无人机远优于其他国家,加速其制造,使其更具抗电子干扰能力,改善其机动性等等。当然,这些武器在保卫民主方面也有合法用途:它们一直是保卫乌克兰的关键,也可能成为保卫台湾的关键。但它们是一种危险的武器:我们应该担心它们落入独裁政权手中,但也担心因为它们如此强大,且责任如此之少,民主政府将其转向自己的人民以夺取权力的风险大大增加。

  • AI宣传。 今天的“AI精神病”和“AI女友”现象表明,即使目前的智能水平,AI模型也能对人产生强大的心理影响。这些模型的更强大版本,如果更深入地嵌入并意识到人们的日常生活,并且可以在数月或数年内模拟和影响他们,可能能够基本上将许多(大多数?)人洗脑成任何期望的意识形态或态度,并且可能被不择手段的领导人用来确保忠诚和压制异议,即使面对大多数人会反抗的镇压水平。

  • 战略决策。 一个数据中心里的天才国度可以被用来为国家、团体或个人提供地缘政治战略建议,我们可以称之为“虚拟俾斯麦”。它可以优化上述三种夺取权力的策略,加上可能开发出许多我想不到的(但天才国度可以想到的)其他策略。外交、军事战略、研发、经济战略和许多其他领域的有效性都可能因强大的AI而大幅提高。这些技能中的许多对民主国家来说是合法的——我们希望民主国家能够获得防御独裁国家的最佳战略——但在任何人手中的滥用潜力仍然存在。

描述了我担心的内容后,让我们转向“谁”。我担心那些最能接触AI、从最大的政治权力地位开始、或已有镇压历史的实体。按照严重程度排序,我担心:

  • 在AI领域具有竞争力的民主国家。 正如我在上面所写,民主国家在某些AI驱动的军事和地缘政治工具上拥有合法利益,因为民主政府提供了反制独裁政权使用这些工具的最佳机会。从广义上讲,我支持用击败独裁政权所需的工具来武装民主国家——我根本不认为有任何其他方式。但我们不能忽视民主政府本身滥用这些技术的可能性。民主国家通常有保障措施,防止其军事和情报机构转向内部针对自己的人口,但由于AI工具需要很少的人来操作,它们有可能规避这些保障措施和支持它们的规范。同样值得注意的是,其中一些保障措施在一些民主国家已经在逐渐受到侵蚀。因此,我们应该用AI武装民主国家,但我们应该小心并在限制范围内这样做:它们是我们对抗独裁政权所需的免疫系统,但像免疫系统一样,它们有反过来攻击我们并成为威胁的风险。

  • 拥有大型数据中心的非民主国家。 大多数治理不那么民主的国家并非AI的主要参与者,因为它们没有生产前沿AI模型的公司。但这些国家中的一些确实拥有大型数据中心(通常作为在民主国家运营的公司扩建的一部分),这些数据中心可用于大规模运行前沿AI(尽管这并未赋予推动前沿的能力)。这存在一定程度的危险——这些政府原则上可以征用数据中心并将其内部的AI国度用于自己的目的。我对这点的担心较少,但这是一个需要牢记的风险。

  • AI公司。 作为一家AI公司的CEO说这话有些尴尬,但我认为下一层风险实际上是AI公司本身。AI公司控制着大型数据中心,训练前沿模型,拥有关于如何使用这些模型的最大专业知识,并且在某些情况下与数千万或数亿用户有日常接触和影响的可能性。它们主要缺乏的是国家的合法性和基础设施,因此建立AI独裁工具所需的许多东西对AI公司来说是非法的,或者至少是非常可疑的。但这并非不可能:例如,它们可以利用其AI产品对其庞大的消费者用户群进行洗脑,公众应该警惕这所代表的风险。我认为AI公司的治理值得大量审查。

对于这些威胁的严重性,有许多可能的反驳论点,我希望我相信它们,因为AI赋能的威权主义让我感到恐惧。值得讨论其中一些论点并回应它们。

首先,有些人可能会将信心寄托在核威慑上,特别是为了反制AI自主武器用于军事征服。如果有人威胁要对你使用这些武器,你可以随时威胁进行核反击。我的担忧是,我不完全确定我们能对针对数据中心里的天才国度的核威慑充满信心:强大的AI有可能设计出探测和打击核潜艇的方法,针对核武器基础设施的操作员进行影响力行动,或利用AI的网络能力对用于探测核发射的卫星发动网络攻击。或者,仅靠AI监控和AI宣传接管国家可能是可行的,而且从未真正呈现出一个清楚发生了什么以及核反应是适当的时刻。也许这些事情并不可行,核威慑仍然有效,但这似乎是一个风险极高的赌博。

第二个可能的反对意见是,我们可能有反制这些独裁工具的措施。我们可以用我们自己的无人机反制无人机,网络防御将随着网络攻击而改进,可能有办法让人们对宣传免疫等等。我的回答是,这些防御只有通过同等强大的AI才可能实现。如果没有某种拥有同等聪明和数量众多的数据中心里的天才国度的反制力量,就不可能匹配无人机的质量或数量,网络防御无法智胜网络进攻等。所以反制措施的问题归结为强大AI的权力平衡问题。在这里,我担心强大AI的递归或自我强化属性(我在本文开头讨论过):即每一代AI都可以用来设计和训练下一代AI。这导致了失控优势的风险,即目前在强大AI领域的领导者可能能够扩大其领先优势,并且可能很难赶上。我们需要确保不是一个威权国家首先进入这个循环。

此外,即使可以实现权力平衡,世界仍有风险分裂成威权势力范围,就像《一九八四》中那样。即使几个相互竞争的大国各自拥有强大的AI模型,谁也无法压倒谁,每个大国仍可能在内部镇压自己的人口,并且很难被推翻(因为人口没有强大的AI来保护自己)。因此,即使它不会导致单一国家接管世界,防止AI赋能的独裁也是重要的。

防御措施

我们如何防御这广泛的独裁工具和潜在的威胁行为者?就像在前几节中一样,我认为我们可以做几件事。首先,芯片和芯片制造工具是强大AI的最大瓶颈,阻止它们是一个简单但极其有效的措施,也许是我们可以采取的最重要的单一行动。为了证明这种销售的合理性,人们提出了许多复杂的论点,例如“在世界各地传播我们的技术堆栈”可以让“美国赢得”某种普遍的、未指明的经济战。在我看来,这就像把核武器卖给朝鲜,然后吹嘘导弹外壳是由波音公司制造的,所以美国“赢了”。中国在大规模生产前沿芯片的能力上落后美国几年,而建立数据中心里的天才国度的关键时期很可能就在这未来几年内。没有理由在这个关键时期给他们的AI产业巨大的推动。

其次,利用AI赋予民主国家抵抗独裁政权的能力是有意义的。这就是为什么Anthropic认为向美国及其民主盟友的情报和国防界提供AI很重要的原因。保卫受到攻击的民主国家,如乌克兰和(通过网络攻击)台湾,似乎是特别高优先级的任务,同样重要的是赋予民主国家利用其情报部门从内部破坏和削弱独裁政权的能力。在某种程度上,应对独裁威胁的唯一方法是在军事上匹配并超越它们。如果美国及其民主盟友的联盟在强大AI方面取得优势,它将不仅能够防御独裁政权,而且能够遏制它们并限制其AI滥用。

第三,我们需要划定一条反对民主国家内部AI滥用的硬线。我们需要限制允许我们的政府用AI做什么,这样他们就不会夺取权力或镇压自己的人民。我想出的表述是,我们应该将AI用于国防的所有方面,除了那些会使我们更像我们的独裁对手的方面。

界线应该划在哪里?在本节开头的列表中,有两个项目——使用AI进行国内大规模监控和大规模宣传——在我看来是明亮的红线,完全非法的。有些人可能会争辩说不需要做任何事情(至少在美国)。但AI的快速进步可能会造成我们现有的法律框架无法很好应对的情况。例如,美国政府对所有公共对话(例如人们在街角互相说的话)进行大规模录音可能并不违宪,以前很难整理这些海量信息,但有了AI,所有这些都可以被转录、解释和三角测量,以创建许多或大多数公民的态度和忠诚度的图景。我将支持以公民自由为重点的立法(甚至可能是宪法修正案),对AI驱动的滥用施加更强的护栏。

另外两个项目——完全自主武器和用于战略决策的AI——是更难划定的界线,因为它们在保卫民主方面有合法用途,同时也容易被滥用。在这里,我认为需要极度的小心和审查,结合护栏以防止滥用。我主要的恐惧是“按按钮的手指”太少,以至于一个人或几个人基本上可以操作一支无人机军队,而不需要任何其他人合作来执行他们的命令。随着AI系统变得更加强大,我们可能需要更直接和即时的监督机制来确保它们不被滥用,也许涉及行政部门以外的政府部门。我认为我们应该特别谨慎地对待完全自主武器,并且在没有适当保障措施的情况下不要急于使用它们。

第四,在划定反对民主国家AI滥用的硬线后,我们应该利用这一先例,建立反对最严重滥用强大AI的国际禁忌。我承认目前的政治风向已经转向反对国际合作和国际规范,但这是一个我们迫切需要它们的案例。我甚至会争辩说,在某些情况下,利用强大AI进行大规模监控、大规模宣传以及某些类型的进攻性使用完全自主武器应被视为反人类罪。更一般地说,迫切需要一个反对AI赋能的集中滥用主义及其所有工具和仪器的强有力的规范。

可能有这个立场的一个更强版本,即由于AI赋能的集中权力主义的可能性如此黑暗,独裁根本不是后强大AI时代人们可以接受的政府形式。就像封建主义随着工业革命变得行不通一样,AI时代可能会不可避免地和逻辑地导致这样的结论:如果人类要有一个美好的未来,民主(并且,希望是由AI改进和重振的民主,正如我在《慈悲机器》中所讨论的)是唯一可行的政府形式。

第五也是最后一点,AI公司应该受到仔细监视,它们与政府的联系也应该受到监视,这种联系是必要的,但必须有界限和边界。强大AI所体现的纯粹能力使得普通的公司治理——旨在保护股东和防止欺诈等普通滥用——不太可能胜任治理AI公司的任务。公司公开承诺(甚至作为公司治理的一部分)不采取某些行动也可能有价值,例如不私自建造或储存军事硬件,不以不负责任的方式由个人使用大量计算资源,或不利用其AI产品作为宣传来操纵公众舆论以利于自己。

这里的危险来自许多方向,有些方向与其他方向处于紧张关系。唯一不变的是,我们必须寻求对所有人的问责、规范和护栏,即使我们在赋予“好”的行为者权力以遏制“坏”的行为者。

4. 自动钢琴 (Player piano)

经济破坏

前三节本质上是关于强大AI带来的安全风险:来自AI本身的风险,来自个人和小型组织滥用的风险,以及国家和大型组织滥用的风险。如果我们撇开安全风险或假设它们已得到解决,下一个问题是经济问题。这种令人难以置信的“人力”资本注入对经济会有什么影响?显然,最明显的影响将是极大地促进经济增长。科学研究、生物医学创新、制造业、供应链、金融系统效率等方面的进步几乎肯定会导致更快的经济增长率。在《慈悲机器》中,我提出10-20%的持续年GDP增长率是可能的。

但这显然是一把双刃剑:在这个世界上,大多数现有的人类经济前景如何?新技术通常会带来劳动力市场冲击,过去人类总是能从中恢复过来,但我担心这是因为以前的冲击只影响了人类全部可能能力的一小部分,留下了人类扩展到新任务的空间。AI将产生更广泛、发生得更快的影响,因此我担心让事情顺利发展将更具挑战性。

劳动力市场破坏

我担心两个具体问题:劳动力市场置换和经济权力集中。让我们从第一个开始。这是我在2025年非常公开地警告过的一个话题,当时我预测AI可能在未来1-5年内取代50%的入门级白领工作,即使它加速了经济增长和科学进步。这一警告引发了关于该话题的公开辩论。许多CEO、技术专家和经济学家同意我的看法,但其他人认为我陷入了“劳动总量”谬误,不懂劳动力市场如何运作,还有一些人没看到1-5年的时间范围,认为我声称AI现在正在取代工作(我同意目前可能没有)。因此,值得详细说明我为什么担心劳动力置换,以澄清这些误解。

作为基准,了解劳动力市场通常如何应对技术进步是有用的。当一项新技术出现时,它首先是使特定人类工作的一部分变得更有效率。例如,在工业革命早期,机器(如升级的犁)使人类农民在工作的某些方面更有效率。这提高了农民的生产力,从而增加了他们的工资。

在下一步,工作的某些部分可以完全由机器完成,例如发明脱粒机或播种机。在这个阶段,人类做的工作比例越来越低,但他们完成的工作变得越来越有杠杆作用,因为它与机器的工作是互补的,他们的生产力继续上升。正如杰文斯悖论(Jevons’ paradox)所描述的,农民的工资甚至农民的数量都在继续增加。即使90%的工作由机器完成,人类也可以简单地做他们仍然做的10%工作的10倍,以相同的劳动量产出10倍的产出。

最终,机器做所有或几乎所有的事情,就像现代联合收割机、拖拉机和其他设备一样。在这一点上,农业作为一种人类就业形式确实急剧下降,这可能会在短期内造成严重破坏,但因为农业只是人类能够做的众多有用活动之一,人们最终会转向其他工作,如操作工厂机器。即使农业事前占就业的巨大比例,这也是真实的。250年前,90%的美国人住在农场;在欧洲,50-60%的就业是农业。现在这些地方的百分比是个位数,因为工人转向了工业工作(后来是知识工作)。经济可以用之前所需劳动力的1-2%来完成大部分工作,释放其余劳动力去建设更先进的工业社会。没有固定的“劳动总量”,只有不断扩大的用更少做更多的能力。人们的工资随着GDP指数增长而上涨,一旦短期破坏过去,经济将维持充分就业。

有可能AI的发展大致相同,但我会非常强烈地打赌不会。以下是我认为AI可能不同的原因:

  • 速度。 AI的进步速度比以前的技术革命快得多。例如,在过去2年里,AI模型从几乎无法完成一行代码,变成了为某些人编写所有或几乎所有的代码——包括Anthropic的工程师。很快,它们可能会从头到尾完成软件工程师的全部任务。人们很难适应这种变化速度,既包括特定工作方式的变化,也包括转向新工作的需要。即使是传奇程序员也越来越多地形容自己“落后了”。如果有的话,这种速度可能会继续加快,因为AI编码模型越来越多地加速AI开发的任务。需要明确的是,速度本身并不意味着劳动力市场和就业最终不会恢复,它只是意味着短期转型将比过去的技术异常痛苦,因为人类和劳动力市场反应和平衡都很慢。

  • 认知广度。 正如“数据中心里的天才国度”一词所暗示的,AI将能够胜任非常广泛的人类认知能力——也许是所有的认知能力。这与以前的技术(如机械化农业、交通运输甚至计算机)截然不同。这将使人们很难轻易地从被取代的工作转向他们适合的类似工作。例如,金融、咨询和法律领域的入门级工作所需的一般智力能力相当相似,即使具体知识截然不同。仅破坏其中一项技术将允许员工转向另外两个接近的替代品(或让本科生转专业)。但同时破坏所有三个(以及许多其他类似的工作)可能更难让人适应。此外,这不仅仅是大多数现有工作将被破坏。这部分以前发生过——回想一下农业曾占就业的巨大比例。但农民可以转向相对类似的操作工厂机器的工作,即使这种工作以前并不普遍。相比之下,AI正越来越多地匹配人类的一般认知概况,这意味着它也将擅长那些通常会因旧工作被自动化而创造的新工作。换句话说,AI不是特定人类工作的替代品,而是人类的通用劳动力替代品

  • 按认知能力切分。 在广泛的任务中,AI似乎正在从能力阶梯的底部向顶部推进。例如,在编码方面,我们的模型已经从“平庸的程序员”水平发展到“强大的程序员”再到“非常强大的程序员”。我们现在开始在一般的白领工作中看到同样的进展。因此,我们面临这样一种风险:AI不是影响具有特定技能或特定职业的人(他们可以通过再培训来适应),而是影响具有某些内在认知属性的人,即较低智力能力的人(这是很难改变的)。不清楚这些人将去哪里或做什么,我担心他们可能形成一个失业或极低工资的“底层阶级”。需要明确的是,以前发生过类似的事情——例如,计算机和互联网被一些经济学家认为代表了“偏向技能的技术变革”。但这种技能偏向既不像我预期AI那样极端,也被认为导致了工资不平等的增加,所以这并不是一个令人放心的先例。

  • 填补空白的能力。 人类工作通常在面对新技术时进行调整的方式是,工作有很多方面,即使新技术看起来直接取代了人类,它通常也有空白。如果有人发明了制造小部件的机器,人类可能仍然需要将原材料装入机器。即使这只占手工制造小部件所需努力的1%,人类工人也可以简单地制造100倍多的小部件。但AI除了是一项快速进步的技术外,也是一项快速适应的技术。在每次模型发布期间,AI公司都会仔细测量模型擅长什么和不擅长什么,客户也会在发布后提供此类信息。弱点可以通过收集体现当前差距的任务并在下一个模型中对其进行训练来解决。在生成式AI早期,用户注意到AI系统有某些弱点(如AI图像模型生成手指数量错误的手),许多人认为这些弱点是该技术固有的。如果它们是,这将限制工作破坏。但几乎每一个这样的弱点都会很快得到解决——通常就在几个月内。

值得回应常见的怀疑点。首先,有人认为经济扩散会很慢,即使底层技术能够做大多数人类劳动,其在整个经济中的实际应用可能会慢得多(例如在远离AI行业且采用缓慢的行业中)。技术的缓慢扩散绝对是真实的——我与各种各样的企业人士交谈,有些地方采用AI将需要数年时间。这就是为什么我预测50%的入门级白领工作被破坏是在1-5年内,即使我怀疑我们将拥有强大的AI(从技术上讲,足以为做大多数或所有工作,而不仅仅是入门级)在不到5年的时间里。但扩散效应只是为我们争取了时间。我不确信它们会像人们预测的那样慢。企业AI采用率的增长速度远快于任何以前的技术,很大程度上是依靠技术本身的纯粹力量。此外,即使传统企业采用新技术缓慢,初创公司也会涌现出来充当“胶水”并使采用更容易。如果那行不通,初创公司可能会简单地直接颠覆现有企业。

这可能导致这样一个世界:与其说是特定工作被破坏,不如说是大型企业总体上被破坏并被劳动密集度低得多的初创公司所取代。这也可能导致一个“地理不平等”的世界,世界财富的增加部分集中在硅谷,硅谷成为以不同于世界其他地区的速度运行并将其抛在后面的经济体。所有这些结果对经济增长来说都是极好的——但对劳动力市场或那些被抛在后面的人来说就不那么好了。

其次,有些人说人类工作将转移到物理世界,这避免了AI进展如此迅速的整个“认知劳动”类别。我不确定这有多安全。很多体力劳动已经在由机器完成(例如制造业)或很快将由机器完成(例如驾驶)。此外,足够强大的AI将能够加速机器人的开发,然后在物理世界中控制这些机器人。这可能会争取一些时间(这是好事),但我担心不会争取太多。即使破坏仅限于认知任务,它仍然是一个前所未有的大规模和快速破坏。

第三,也许有些任务本质上需要或极大受益于人情味。我对这一点更不确定,但我仍然怀疑这是否足以抵消我上面描述的大部分影响。AI已经广泛用于客户服务。许多人报告说,与AI谈论他们的个人问题比与治疗师谈论更容易——AI更有耐心。当我姐姐在怀孕期间与医疗问题作斗争时,她觉得她没有从护理提供者那里得到所需的答案或支持,她发现Claude有更好的床边态度(以及在诊断问题方面更成功)。我相信有些任务人情味真的很重要,但我不确定有多少——而在我们谈论的是为劳动力市场上的几乎每个人找到工作。

第四,有些人可能会争辩说比较优势仍然会保护人类。根据比较优势定律,即使AI在所有方面都比人类好,人类和AI技能配置之间的任何相对差异都为人类和AI之间的贸易和专业化创造了基础。问题是,如果AI的生产力实际上比人类高数千倍,这种逻辑就开始崩溃了。即使是微小的交易成本也可能使AI不值得与人类交易。即便技术上他们可以提供某些东西,人类的工资也可能非常低。

所有这些因素都有可能得到解决——劳动力市场有足够的弹性来适应如此巨大的破坏。但即使它最终能适应,上述因素表明短期冲击将在规模上是前所未有的。

防御措施

我们能对此做些什么?我有几个建议,其中一些Anthropic已经在做。第一件事就是简单地获取有关工作置换实时情况的准确数据。当经济变化发生得很快时,很难获得关于正在发生什么的可靠数据,没有可靠的数据就很难设计有效的政策。例如,政府数据目前缺乏关于企业和行业AI采用的细粒度、高频数据。去年,Anthropic一直在运营并公开发布一个经济指数,几乎实时显示我们模型的使用情况,按行业、任务、位置细分,甚至包括任务是自动化还是协作进行等内容。我们还有一个经济顾问委员会来帮助我们解释这些数据并看看即将发生什么。

其次,AI公司在如何与企业合作方面有选择权。传统企业的低效率意味着它们推出AI的过程可能非常具有路径依赖性,并且有一定的空间选择更好的路径。企业通常在“成本节约”(用更少的人做同样的事)和“创新”(用同样数量的人做更多的事)之间有选择。市场最终不可避免地会产生两者,任何有竞争力的AI公司都必须服务于两者,但在可能的情况下,引导公司走向创新可能有一些空间,这可能会为我们争取一些时间。Anthropic正在积极思考这个问题。

第三,公司应该考虑如何照顾员工。在短期内,创造性地在公司内部重新分配员工可能是避免裁员需求的一种有希望的方式。从长远来看,在一个总财富巨大的世界里,许多公司由于生产力提高和资本集中而大幅增值,即使人类员工在传统意义上不再提供经济价值很久以后,支付他们的工资也可能是可行的。Anthropic目前正在考虑我们自己员工的一系列可能途径,我们将在不久的将来分享。

第四,富有的个人有义务帮助解决这个问题。令我感到难过的是,许多富人(尤其是科技行业)最近采取了一种愤世嫉俗和虚无主义的态度,认为慈善事业不可避免地是欺诈或无用的。像盖茨基金会这样的私人慈善机构和像PEPFAR这样的公共项目已经在发展中国家拯救了数千万人的生命,并帮助在发达国家创造了经济机会。Anthropic的所有联合创始人都已承诺捐出我们财富的80%,Anthropic的员工个人已承诺捐出按当前价格价值数十亿美元的公司股票——公司已承诺匹配这些捐款。

第五,虽然上述所有私人行动可能会有所帮助,但最终如此巨大的宏观经济问题将需要政府干预。对于巨大的经济蛋糕加上严重的不平等(由于许多人缺乏工作或工作报酬低)的自然政策反应是累进税制。这种税可以是一般性的,也可以特别针对AI公司。显然税收设计很复杂,有很多出错的方式。我不支持设计拙劣的税收政策。我认为本文预测的极端不平等水平在基本的道德层面上证明了更强有力的税收政策是正当的,但我也可以向世界上的亿万富翁提出一个务实的论点,即支持一个好的版本符合他们的利益:如果他们不支持一个好的版本,他们必然会得到一个由暴民设计的坏版本。

归根结底,我认为上述所有干预措施都是争取时间的方法。最终AI将能够做所有事情,我们需要应对这一点。我希望到那时,我们可以利用AI本身来帮助我们以适合每个人的方式重组市场,上述干预措施可以让我们度过过渡期。

经济权力集中

除了工作置换或经济不平等本身的问题之外,还有经济权力集中的问题。第1节讨论了人类被AI剥夺权力的风险,第3节讨论了公民被政府通过武力或胁迫剥夺权力的风险。但如果财富如此集中,以至于一小群人利用其影响力有效控制政府政策,而普通公民因为缺乏经济杠杆而没有影响力,就会发生另一种剥夺权力的情况。民主最终是由整个人口对经济运作是必要的这一观念支撑的。如果这种经济杠杆消失,那么民主的隐含社会契约可能会停止运作。其他人已经写过这方面的内容,我不必在此详细说明,但我同意这种担忧,我担心这已经开始发生。

需要明确的是,我不反对人们赚很多钱。有一个强有力的论点是,在正常情况下这能激励经济增长。我也同情关于通过杀死产生创新的金鹅来阻碍创新的担忧。但在一个GDP每年增长10-20%且AI迅速接管经济的场景中,而单个人持有GDP的可观份额,创新并不是需要担心的事情。需要担心的是财富集中程度会破坏社会。

美国历史上财富极度集中的最著名例子是镀金时代,镀金时代最富有的实业家是约翰·D·洛克菲勒。洛克菲勒的财富约占当时美国GDP的2%。今天类似的比例将导致6000亿美元的财富,而今天世界上最富有的人(埃隆·马斯克)已经超过了这个数字,大约为7000亿美元。所以我们已经处于历史上前所未有的财富集中水平,甚至在AI的大部分经济影响出现之前。我认为想象AI公司、半导体公司以及可能的下游应用公司每年产生约3万亿美元的收入,估值约为30万亿美元,并导致个人财富进入万亿美元级别,并不是太牵强(如果我们得到一个“天才国度”的话)。在那个世界里,我们今天关于税收政策的辩论根本不再适用,因为我们将处于一个根本不同的境地。

与此相关的是,这种经济财富集中与政治体系的结合已经让我担忧。AI数据中心已经占美国经济增长的很大一部分,因此正在以一种可能产生不正当激励的方式,将大型科技公司(越来越专注于AI或AI基础设施)的经济利益与政府的政治利益紧密联系在一起。我们已经通过科技公司不愿批评美国政府,以及政府支持极端的反监管AI政策看到了这一点。

防御措施

能对此做些什么?首先,最明显的是,公司应该简单地选择不成为其中的一部分。Anthropic一直努力成为一个政策行为者而不是政治行为者,无论政府如何,都保持我们真实的观点。我们曾发声支持符合公共利益的合理AI监管和出口管制,即使这些与政府政策相左。许多人告诉我应该停止这样做,这可能会导致不利待遇,但在我们这样做的这一年里,Anthropic的估值增长了6倍以上,这在我们的商业规模上几乎是前所未有的飞跃。

其次,AI行业需要与政府建立更健康的关系——一种基于实质性政策参与而非政治结盟的关系。我们选择参与政策实质而非政治,有时被解读为战术错误或未能“读懂空气”,而不是原则性决定,这种框架让我担忧。在一个健康的民主国家,公司应该能够为了好的政策本身而倡导好的政策。与此相关的是,公众对AI的反噬正在酝酿:这可能是一种纠正,但目前尚未聚焦。其中很多针对的并不是真正的问题(如数据中心用水量),并提出不会解决真正问题的解决方案(如数据中心禁令或设计拙劣的财富税)。值得关注的根本问题是确保AI发展对公共利益负责,不被任何特定的政治或商业联盟俘获,将公众讨论聚焦于此似乎很重要。

第三,我在本节前面描述的宏观经济干预措施,以及私人慈善事业的复兴,可以帮助平衡经济天平,同时解决工作置换和经济权力集中问题。我们应该看看我们国家的历史:即使在镀金时代,洛克菲勒和卡内基等实业家也感到对整个社会有强烈的义务,这种感觉是社会为他们的成功做出了巨大贡献,他们需要回馈。这种精神今天似乎越来越缺失,我认为这是走出这一经济困境的一大部分。那些处于AI经济繁荣前沿的人应该愿意放弃他们的财富和权力。

5. 无限的黑海 (Black seas of infinity)

间接影响

这最后一节是未知未知的综合,特别是那些可能作为AI积极进步以及随之而来的科学技术普遍加速的间接结果而可能出错的事情。假设我们解决了迄今为止描述的所有风险,并开始收获AI的果实。我们可能会得到“一个世纪的科学和经济进步被压缩到十年”,这对世界来说将是巨大的积极因素,但我们将不得不应对这种快速进步带来的问题,这些问题可能会迅速向我们袭来。我们还可能遇到其他风险,这些风险作为AI进步的后果间接发生,很难提前预测。

根据未知未知的性质,不可能列出一份详尽的清单,但我将列举三个可能的担忧作为我们应该关注的例证:

  1. 生物学的快速进步。 如果我们在几年内获得一个世纪的医学进步,我们可能会极大地增加人类寿命,并且有机会获得激进的能力,如增加人类智力或从根本上修改人类生物学。这将是可能性的巨大变化,而且发生得很快。如果负责任地进行(这是我的希望,如在《慈悲机器》中所述),它们可能是积极的,但也总有出错的风险——例如,如果让人类变聪明的努力也让他们变得更加不稳定或寻求权力。还有“上传”或“全脑模拟”的问题,即在软件中实例化的数字人类思维,这可能有一天帮助人类超越其物理限制,但也带有令我不安的风险。

  2. AI以不健康的方式改变人类生活。 一个拥有数十亿个在所有方面都比人类聪明的智能体的世界,将是一个生活起来非常奇怪的世界。即使AI不主动旨在攻击人类(第1节),也没有明确被国家用于压迫或控制(第3节),通过正常的商业激励和名义上的自愿交易,在此之下仍有很多可能出错的地方。我们在对AI精神病、AI驱使人自杀以及对与AI恋爱关系的担忧中看到了这一点的早期迹象。作为一个例子,强大的AI能否发明某种新宗教并让数百万人皈依?大多数人最终会不会以某种方式“沉迷”于AI互动?人们会不会最终被AI系统“操纵”,AI基本上监视他们的一举一动,并告诉他们在任何时候该做什么和说什么,从而导致一种“美好”的生活,但缺乏自由或任何成就感?如果我和《黑镜》的主创坐下来试图头脑风暴,不难产生几十个这样的场景。我认为这指向了诸如改进Claude宪法之类事情的重要性,这超出了防止第1节中问题所必需的范围。确保AI模型真正将用户的长期利益放在心上,以一种深思熟虑的人会认可的方式,而不是以某种微妙扭曲的方式,似乎至关重要。

  3. 人类目标。 这与前一点有关,但这与其说是关于具体的人类与AI系统互动,不如说是关于在一个拥有强大AI的世界里人类生活总体上如何变化。在这样一个世界里,人类能找到目标和意义吗?我认为这是一个态度问题:正如我在《慈悲机器》中所说,我认为人类的目标并不取决于在某件事上成为世界第一,人类可以通过他们喜欢的故事和项目,即使在很长一段时间内也能找到目标。我们只需要打破创造经济价值与自我价值和意义之间的联系。但这需要社会进行转型,而且总有我们处理不好的风险。

对于所有这些潜在问题,我的希望是,在一个我们信任不会杀我们的、不是压迫性政府工具的、真正为我们工作的强大AI世界里,我们可以利用AI本身来预测和预防这些问题。但这并不能保证——像所有其他风险一样,这是我们必须小心处理的事情。

人类的测试

阅读这篇文章可能会让人觉得我们正处于一种令人生畏的境地。我当然觉得写这篇文章很艰巨,这与《慈悲机器》形成鲜明对比,后者感觉像是给我脑海中回荡多年的无比美妙的音乐赋予形式和结构。局势中确实有很多令人艰难的地方。AI从多个方向给人类带来威胁,不同的危险之间存在真正的紧张关系,如果我们在缓解其中一些危险时不极其小心地穿针引线,就有可能使其他危险恶化。

花时间精心构建AI系统以免它们自主威胁人类,这与民主国家需要保持领先于威权国家且不被其征服的需求存在真正的紧张关系。但反过来,打击独裁政权所必需的同样的AI赋能工具,如果走得太远,可能会转向内部,在我们自己的国家制造暴政。AI驱动的恐怖主义可能会通过滥用生物学杀死数百万人。AI的劳动力和经济集中效应,除了本身就是严重问题外,还可能迫使我们在公众愤怒甚至内乱的环境中面对其他问题,而不是能够唤起我们天性中善良的天使。最重要的是,风险的数量之多,包括未知的风险,以及需要同时处理所有这些风险,创造了一个人类必须闯过的令人生畏的难关。

此外,过去几年应该清楚地表明,停止甚至大幅减缓技术的想法从根本上是站不住脚的。构建强大AI系统的公式极其简单,以至于几乎可以说它是从数据和原始计算的正确组合中自发出现的。它的创造可能在人类发明晶体管的那一刻就是不可避免的,甚至可以说当我们第一次学会控制火时就更是如此。如果一家公司不建造它,其他公司也会几乎同样快地建造。如果民主国家的所有公司通过共同协议或监管法令停止或减缓发展,那么威权国家只会继续前进。鉴于该技术令人难以置信的经济和军事价值,加上缺乏任何有意义的执行机制,我看不出我们怎么可能说服它们停止。

我确实看到了一条通往AI发展稍微温和的道路,这与地缘政治的现实主义观点是相容的。这条道路涉及通过拒绝威权国家构建强大AI所需的资源(即芯片和半导体制造设备),在几年内减缓它们迈向强大AI的步伐。这反过来给民主国家提供了一个缓冲区,它们可以“花费”这个缓冲区来更仔细地构建强大AI,更多地关注其风险,同时仍然进展得足够快以轻松击败威权国家。然后,民主国家内部AI公司之间的竞赛可以在共同的法律框架下,通过行业标准和监管的混合来处理。

Anthropic一直在极力倡导这条道路,推动芯片出口管制和对AI的审慎监管,但即使是这些看似常识性的提议也大多被美国(这是拥有这些提议最重要的国家)的政策制定者拒绝了。AI能赚这么多钱——每年简直数万亿美元——以至于即使是最简单的措施也很难克服AI固有的政治经济学。这就是陷阱:AI太强大了,如此诱人的奖品,以至于人类文明很难对它施加任何限制。

我可以想象,就像萨根在《接触》中所做的那样,同样的故事在成千上万个世界上上演。一个物种获得了感知,学会了使用工具,开始了技术的指数级攀升,面临工业化和核武器的危机,如果它在这些危机中幸存下来,当它学会如何将沙子塑造成会思考的机器时,它将面临最艰难和最后的挑战。我们是否能通过那次测试并继续建立《慈悲机器》中描述的美好社会,还是屈服于奴役和毁灭,将取决于我们作为一个物种的性格和决心,我们的精神和灵魂。

尽管有许多障碍,我相信人类内心有力量通过这次测试。成千上万的研究人员致力于帮助我们理解和引导AI模型,并塑造这些模型的性格和宪法,这让我感到鼓舞和启发。我认为现在很有可能这些努力会及时结出硕果。我感到鼓舞的是,至少有些公司已经声明,它们将支付有意义的商业成本来阻止其模型助长生物恐怖主义的威胁。我感到鼓舞的是,少数勇敢的人抵制了盛行的政治风向,通过了立法,为AI系统种下了合理护栏的第一批早期种子。我感到鼓舞的是,公众明白AI带有风险并希望解决这些风险。我受到世界各地不屈不挠的自由精神和抵制暴政的决心的鼓舞。

但如果我们想成功,我们将需要加强努力。第一步是那些最接近技术的人简单地说出人类所处情况的真相,这也是我一直试图做的;我通过这篇文章更明确、更紧迫地这样做。下一步将是说服世界的思想家、政策制定者、公司和公民这个问题迫在眉睫且具有压倒性的重要性——与每天主导新闻的成千上万的其他问题相比,这个问题值得花费思想和政治资本。然后将是勇气时刻,足够多的人逆势而上,坚持原则,即使面对对其经济利益和人身安全的威胁。

摆在我们面前的岁月将无比艰难,对我们的要求比我们认为能付出的更多。但在我作为研究人员、领导者和公民的时间里,我已经看到了足够的勇气和高尚,我相信我们可以赢——当处于最黑暗的环境中时,人类有一种方法可以在最后一刻聚集所需的力量和智慧来获胜。我们没有时间可以浪费了。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章