Claude Mythos“16小时任务”引恐慌?知名批评者:成功率才一半,AI进步不会无限翻倍

Claude Mythos“16小时任务”数据引爆社交媒体恐慌,但AI批评者Gary Marcus踩下刹车:这个令人震惊的数字背后,成功率门槛仅有50%;进步动力或来自符号工具而非模型本身。

Anthropic最新AI模型Claude Mythos的一项评估数据在社交媒体上引发广泛恐慌,但知名AI批评者Gary Marcus11日最新文章指出,这场恐慌很大程度上源于对数据的误读。

今年3月,AI评估机构METR对Claude Mythos Preview进行了测试,估计其在软件开发任务上的"50%时间跨度"达到至少16小时——即该模型能够完成人类工程师需耗时16小时才能完成的任务,置信区间为8.5至55小时。

这一结果迅速在社交平台引发大量恐慌性解读,部分人士甚至认为该模型已"突破"了METR基准测量的上限。Marcus在其Substack专栏撰文指出,上述解读存在根本性缺陷,目前尚无理由认为AI已接近通用超级智能。

Marcus的核心论点是:METR的测试门槛仅为50%成功率,而非90%或99%。他强调,生成式AI长期以来的核心问题恰恰在于可靠性,一个只需完成一半任务即算"成功"的基准,根本无法反映可靠性表现。此外,该基准仅覆盖软件开发领域,并不代表通用智能水平。

50%成功率:一个被忽视的关键门槛

METR发布的"时间跨度"图表,衡量的是前沿AI模型能够完成的软件开发任务长度,以人类工程师所需时间为参照。从最初能完成人类需耗时一分钟的任务,到两分钟、四分钟,再到如今的16小时,图表呈现出持续上升的趋势。

然而Marcus指出,这一"16小时"成就对应的仅是50%的成功率。他写道,METR同样发布了80%成功率版本的图表,整体表现明显更低。若将门槛提升至95%,当前任务集上仍存在大量提升空间。

Marcus还指出,即便在现有任务集上,Mythos也仅是在50%这一"任意门槛"下才显得接近饱和。此外,该基准聚焦于一至两天的任务,而真实软件工程师的工作往往涉及历时数月乃至数年的项目管理,这一维度完全未被纳入评估。

进步来源存疑:符号工具而非模型扩展

Marcus认为,近期AI在该基准上的进步,很可能主要来自符号工具的整合——包括代码解释器、形式验证机制和任务框架——而非大语言模型本身的规模扩展。他将此视为神经符号AI路线的又一次验证,而非纯粹LLM无限扩展能力的证明。

在更广泛的ECI基准上,预测者Ramez Naam的分析也支持这一判断。据Naam发布的数据,将Anthropic内部ECI与Epoch AI Research的公开ECI进行标准化对比后,Mythos的表现基本符合既有趋势,仅略高于GPT-5.4,并未显示出明显加速迹象。

Marcus据此认为,Mythos的技术优势最适用于编程和数学等可直接应用形式验证的领域,在需要准确世界模型推理、减少幻觉等方面,现有方法可能存在根本性局限。

AI进步不会无限翻倍

围绕METR图表,社交媒体上还出现了更为激进的外推。其中一则预测称,Anthropic到2030年将实现2万亿美元营收。Marcus将此类推断称为"万亿磅婴儿谬误"——婴儿在出生后头四个月体重翻倍,但没有人会据此预测其体重将持续翻倍直至成年。

Marcus写道,极少有指数级过程能够无限持续。AI进步面临多重潜在约束:能源与芯片等资源瓶颈、"基准刷分"(即针对特定测试集过度优化)的边际效益递减、形式验证技术在非结构化问题上的局限,以及部分核心挑战对现有方法的根本不适配性。

他明确表示,"时间跨度"指标不可能持续翻倍至无限,解决软件设计的部分问题也不等同于实现开放性通用智能。

在实际经济影响层面,Marcus对Mythos的判断相对保守。他预计,Mythos在Remote Labor Index(衡量AI能够完成的在线任务比例的基准)上的得分将低于20%,甚至可能低于10%,且在执行实体工作方面不会有实质性改善。

他据此认为,目前能够被AI完全替代的真实全职岗位数量仍将维持在较低水平。Marcus的结论是:Mythos在编程能力上相较前代模型确有显著提升,但现有证据不足以支持其已迈向广义超级智能的判断。"目前还不需要恐慌。"他写道。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。