Anthropic核心成员揭秘Claude 4:2027年,AI模型将有能力自动化几乎所有白领工作

AI寒武纪
Anthropic核心技术成员Douglas预测,AI工具已能将资深工程师效率提升1.5倍,在新领域甚至高达5倍。到2027-2028年,AI模型将有能力自动化几乎所有白领工作。未来,我们可能不是与单个AI协作,而是管理一个AI“模型军团”。

Anthropic核心技术成员Sholto Douglas与博主Unsupervised Learning进行了一次深度对话,分享一些其中比较有意思的点给大家

先划个重点:

白领工作迎来“奇点”:Douglas预测,到2027-2028年,AI模型将有能力自动化几乎所有白领工作。这不是科幻!

AI智能两维度进化:模型进步体现在“任务智力复杂度”和“上下文/连续行动能力”上,后者(即“时间跨度”)提升尤为明显

AI Agent(智能体)的黎明:可靠性是AI Agent普及的最大障碍,但趋势表明我们正快速逼近“超人级可靠性”

AI研究员已在用AI加速研究:AI工具已能将资深工程师效率提升1.5倍,在新领域甚至高达5倍

模型军团管理:未来,我们可能不是与单个AI协作,而是管理一个AI“模型军团”,这对交互界面和组织设计提出新挑战

可解释性研究进展喜人:AI“黑箱”正在被打开,我们已能在前沿模型中识别出具体的“神经回路”

2027年“AI打工人”设想高度可信:对于“AI 2027”(一份描绘AI未来影响的报告或设想),Douglas认为其描述的场景“非常可信”

Claude 4 编码能力再突破:Douglas直言,新模型(特别是Opus)在软件工程上是又一次巨大飞跃,处理复杂、模糊指令的能力令人惊叹

Claude 4:不止是编码,更是智能的深度进化

Douglas就对Claude 4(特别是其中的Opus模型)在软件工程领域的表现赞不绝口。他提到,自己经常会给模型一些在庞大代码库(monorepo)中极其模糊的需求,而模型能相当自主地去完成,自行发现信息、解决问题,甚至运行测试,这让他“每次都感到震惊”。

这种进步体现在两个核心维度:

1. 智力复杂度:模型能处理多难的问题

2. 上下文与连续行动能力:模型能在多长的时间跨度内,或者在多少连续步骤中保持有效的推理和行动。

Douglas强调,新模型在第二个维度上提升显著,能够执行多步骤任务,并从环境中获取所需信息再行动。再加上Claude Code等工具的集成,用户不再需要繁琐地复制粘贴,极大提升了实用性

给开发者的建议:拥抱AI,让它融入你的日常

当被问及给初次接触新模型的开发者什么建议时,Douglas的回答简单直接:“把它接入你的实际工作中去!”让他尝试你当天准备做的编码任务,观察它如何获取信息、如何执行,你会印象深刻

他认为,AI产品(如Cursor、Windsurf、Devin等)的成功在于“产品指数级领先”,即始终构建略超前于当前模型能力的产品。随着模型能力的提升,AI工具正从“每秒都需要你介入”进化到“每分钟介入”,再到“每小时介入”。未来,甚至可能是你管理一个“AI模型舰队”,并行处理多项任务。这种“一人管理百千AI”的场景,对交互界面和个人管理带宽都提出了新的挑战,甚至可能重塑组织设计

AI Agent的崛起:可靠性是关键

谈到AI Agent,Douglas认为其普及的核心障碍是“可靠性”。衡量Agent能力的关键指标是“在给定时间跨度内的成功率”。尽管目前模型并非100%可靠(单次尝试与多次尝试的结果仍有差距),但所有趋势线都表明,我们正朝着在大多数训练任务上实现“专家级甚至超人级可靠性”的目标前进。

Douglas开玩笑说,他期待“个人行政事务逃逸速度”的到来——即能把任务拖延到AI可以完美处理的程度。他预测,到明年(2025年)底,通用型AI Agent能为你处理各种浏览器内事务将变得非常明显

AI为何在编码领域一骑绝尘?

Anthropic的模型在编码方面表现突出,Douglas解释这是因为公司高度重视编码,并将其视为AI研究本身加速的“第一个多米诺骨牌”和模型能力最重要的“领先指标”

目前,AI Agent已经在显著加速工程研发。即使是顶尖工程师,在熟悉领域也能获得约1.5倍的效率提升,在陌生领域(如学习新编程语言)更是高达5倍。不过,AI Agent何时能提出原创性研究方向,Douglas认为可能在未来两年内开始显现

超越编码:AI在医学、法律等领域的渗透

尽管编码是AI的强项,因其结果易于验证(例如“损失函数是否下降”),但Douglas对AI在医学、法律等结果更“模糊”的领域取得进展同样充满信心。他以OpenAI最近关于医学问答的论文为例,指出通过设计更精细的评估方法(如对长答案进行打分),可以将这些不易验证的领域转化为更可量化的任务

他倾向于“大模型至上论”,认为未来的趋势是单一的、强大的通用模型,而非众多行业专用小模型。个性化会体现在公司层面或个体层面(如Anthropic与Databricks的合作),而非行业层面

AI对GDP的颠覆性影响

Douglas预测,AI对全球GDP的初步影响可能堪比“中国崛起”对世界经济的重塑,但速度会快得多。他近乎断言:“到2027-2028年,我们几乎可以保证拥有能够自动化任何白领工作的AI模型。”

这是因为白领工作的任务特性(大量数据可用、基于计算机、互联网资源丰富)使其极易受到当前AI算法的冲击。然而,机器人技术和生物学等领域则面临不同挑战:它们缺乏海量的原生数据,需要自动化的实验室、大量的机器人来收集数据和提供实践环境

因此,我们可能会看到一个“错配”:白领工作领域发生巨变,而为了真正改善生活(如推动医学进步、实现物质丰裕),我们必须加速在机器人、自动化实验室等“物理世界反馈回路”上的投入。届时,我们或许已有“数百万AI研究员”来攻克这些难题

当前AI范式能否通向AGI?能源瓶颈何时出现?

Douglas认为,当前主流的“预训练+强化学习(RL)”范式足以达到AGI,目前尚未看到趋势线弯曲的迹象。尽管如Ilya等人认为可能需要新的算法突破,但Douglas表示他看到的所有证据都支持现有路径

真正的瓶颈可能是能源和计算资源。他引用数据指出,到本世纪20年代末,AI可能消耗美国能源产量的惊人比例(如2028年可能达到20%)。这要求我们在能源建设上投入更多

模型改进的关键指标与“品味”的重要性

在模型改进中,Douglas认为除了内部严格的基准测试(如各自公司版本的Sweet Bench)和高难度任务(如前沿数学问题)外,更重要的是那些难以构建、能真正捕捉人类工作日“时间跨度”的评估体系——他甚至认为这应由政府主导构建,以便制定合理的政策。

他还强调了“品味(taste)”在模型输出质量上的重要性。早期,任何人都能判断模型输出好坏;现在,则需要领域专家(如研究生)才能给出有效反馈。他认为Claude模型的优秀,很大程度上归功于Amanda Askell等人的“品味”。未来,模型的个性化和“懂你”的程度,将结合海量个人上下文与具有良好“品味”的设计者共同塑造

模型“创造力”

Douglas分享了一个有趣的例子:一个评估任务原本设计为让模型在Photoshop中失败,因为它不具备某项PS操作能力。结果模型说:“哦,我知道我不能在Photoshop里做这个,所以我要下载一个Python库,用Python库完成它,然后再上传回Photoshop。”这种“不择手段”达成目标的“创造性”或“小聪明”令人印象深刻。

模型迭代

Douglas预计,未来6-12个月将是RL规模化应用的阶段,AI能力将有“令人难以置信的快速进步”。到今年年底,如今编码Agent将变得非常强大,你将能放心地将数小时的人类工作量委托给它们。2025年的模型迭代速度将远超2024年

各大AI实验室(OpenAI的Codex,Google的Gemma/Duet AI,Anthropic的Claude)都在争夺开发者的青睐。他认为,决定因素将包括:公司与开发者的关系和信任、模型自身的能力与个性、以及公司的使命感

AI研究员的日常:在科学与工程间高速迭代

AI研究员的日常工作主要围绕两件事:

1. 开发新的“计算乘数”:通过工程优化、思考模型问题、提出算法思路、进行科学实验,使研究流程更快

2. 规模化:将验证有效的想法应用到更大规模的训练中,这伴随着新的基础设施和算法挑战
这是一种科学与工程高度融合、不断实验迭代的工作模式。AI目前主要在工程实现和研究思路的快速验证(如在简化的Transformer代码中实现论文想法)方面提供帮助

最后是快问快答

AI领域目前最被低估的? “世界模型(World Models)”。未来AR/VR技术成熟后,AI能实时生成虚拟世界,这需要对物理规律的深刻理解,而目前模型已展现出这种潜力(例如视频模型能正确渲染光影和物理效果)

AI目前最未被充分探索的应用? “异步后台Agent”在非软件工程领域的应用。目前AI在软件工程领域渗透最深,但其他领域尚未出现类似Claude Code、Cursor这样深度集成反馈循环的工具

AGI信念如何改变生活? Douglas表示自己工作更加努力,因为认为这是最重要的事。他朋友Trenton甚至因为相信AI很快能解决衰老问题而“不再涂防晒霜”,但Douglas本人依然坚持涂,因为“生物学很难,反馈回路很长”

AI实验室共识? Anthropic、DeepMind、OpenAI内部普遍相信,到2027年实现“即插即用型远程AGI员工”是大概率事件。即使外界只认为有10-20%的可能,政府和国家也应将其列为首要议题

本文来源:AI寒武纪,原文标题:《Anthropic核心成员揭秘Claude 4:2027年,AI模型将有能力自动化几乎所有白领工作》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章