Claude Mythos“16小时任务”引恐慌？知名批评者：成功率才一半，AI进步不会无限翻倍

05/11 15:08

Claude Mythos“16小时任务”数据引爆社交媒体恐慌，但AI批评者Gary Marcus踩下刹车：这个令人震惊的数字背后，成功率门槛仅有50%；进步动力或来自符号工具而非模型本身。

Anthropic最新AI模型Claude Mythos的一项评估数据在社交媒体上引发广泛恐慌，但知名AI批评者Gary Marcus11日最新文章指出，这场恐慌很大程度上源于对数据的误读。

今年3月，AI评估机构METR对Claude Mythos Preview进行了测试，估计其在软件开发任务上的"50%时间跨度"达到至少16小时——即该模型能够完成人类工程师需耗时16小时才能完成的任务，置信区间为8.5至55小时。

这一结果迅速在社交平台引发大量恐慌性解读，部分人士甚至认为该模型已"突破"了METR基准测量的上限。Marcus在其Substack专栏撰文指出，上述解读存在根本性缺陷，目前尚无理由认为AI已接近通用超级智能。

Marcus的核心论点是：METR的测试门槛仅为50%成功率，而非90%或99%。他强调，生成式AI长期以来的核心问题恰恰在于可靠性，一个只需完成一半任务即算"成功"的基准，根本无法反映可靠性表现。此外，该基准仅覆盖软件开发领域，并不代表通用智能水平。

50%成功率：一个被忽视的关键门槛

METR发布的"时间跨度"图表，衡量的是前沿AI模型能够完成的软件开发任务长度，以人类工程师所需时间为参照。从最初能完成人类需耗时一分钟的任务，到两分钟、四分钟，再到如今的16小时，图表呈现出持续上升的趋势。

然而Marcus指出，这一"16小时"成就对应的仅是50%的成功率。他写道，METR同样发布了80%成功率版本的图表，整体表现明显更低。若将门槛提升至95%，当前任务集上仍存在大量提升空间。

Marcus还指出，即便在现有任务集上，Mythos也仅是在50%这一"任意门槛"下才显得接近饱和。此外，该基准聚焦于一至两天的任务，而真实软件工程师的工作往往涉及历时数月乃至数年的项目管理，这一维度完全未被纳入评估。

Marcus认为，近期AI在该基准上的进步，很可能主要来自符号工具的整合——包括代码解释器、形式验证机制和任务框架——而非大语言模型本身的规模扩展。他将此视为神经符号AI路线的又一次验证，而非纯粹LLM无限扩展能力的证明。

在更广泛的ECI基准上，预测者Ramez Naam的分析也支持这一判断。据Naam发布的数据，将Anthropic内部ECI与Epoch AI Research的公开ECI进行标准化对比后，Mythos的表现基本符合既有趋势，仅略高于GPT-5.4，并未显示出明显加速迹象。

Marcus据此认为，Mythos的技术优势最适用于编程和数学等可直接应用形式验证的领域，在需要准确世界模型推理、减少幻觉等方面，现有方法可能存在根本性局限。

围绕METR图表，社交媒体上还出现了更为激进的外推。其中一则预测称，Anthropic到2030年将实现2万亿美元营收。Marcus将此类推断称为"万亿磅婴儿谬误"——婴儿在出生后头四个月体重翻倍，但没有人会据此预测其体重将持续翻倍直至成年。

Marcus写道，极少有指数级过程能够无限持续。AI进步面临多重潜在约束：能源与芯片等资源瓶颈、"基准刷分"（即针对特定测试集过度优化）的边际效益递减、形式验证技术在非结构化问题上的局限，以及部分核心挑战对现有方法的根本不适配性。

他明确表示，"时间跨度"指标不可能持续翻倍至无限，解决软件设计的部分问题也不等同于实现开放性通用智能。

在实际经济影响层面，Marcus对Mythos的判断相对保守。他预计，Mythos在Remote Labor Index（衡量AI能够完成的在线任务比例的基准）上的得分将低于20%，甚至可能低于10%，且在执行实体工作方面不会有实质性改善。

他据此认为，目前能够被AI完全替代的真实全职岗位数量仍将维持在较低水平。Marcus的结论是：Mythos在编程能力上相较前代模型确有显著提升，但现有证据不足以支持其已迈向广义超级智能的判断。"目前还不需要恐慌。"他写道。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。