质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?

机器之心
苹果认为,以DeepSeek-R1、OpenAI o1/o3、Claude 3.7 Sonnet为代表的推理大模型并非真正进行推理,而更像是擅长记忆模式。该研究引发争议,有观点认为模型的性能崩溃并非源于推理能力不足,而是受限于其输出token的限制。

当前,AI 的「推理」能力已经在以 DeepSeek-R1、OpenAI o1/o3、Claude 3.7 Sonnet 为代表的推理大模型中得到了验证,它们显示出了非常类人的思考过程。

然而近日,苹果团队的一篇论文对 LLM 的推理能力提出了质疑,并提出了自己的观点 —— 像 DeepSeek-R1、o3-mini 这类模型实际上根本没有进行推理,只是很擅长记忆模式罢了。

相关的一则推文在 x 上的阅读量已经突破了 1000 万。

我们接下来看苹果这篇文章如何得出这一结论的:

苹果从问题复杂性的角度探究前沿推理模型(LRM)的推理机制,没有采用用标准基准(例如数学问题),而是采用可控的谜题环境,通过调整谜题元素并保留核心逻辑,系统地改变复杂度,并检验解决方案和内部推理(图 1 顶部)。

这些谜题:(1) 对复杂性进行细粒度控制;(2) 避免现有基准中常见的污染;(3) 仅需明确提供的规则,强调算法推理;(4) 支持基于模拟器的严格评估,从而实现精确的解决方案检查和详细的故障分析。

实证研究揭示了关于当前推理模型(LRM)的几个关键发现:

首先,尽管这些模型通过强化学习习得了复杂的自我反思机制,但它们未能发展出适用于规划任务的泛化问题解决能力,其性能在超过一定复杂度阈值后会崩盘至零。

其次,苹果在等效推理计算条件下对 LRM 和标准 LLM 进行了比较,揭示了三种不同的推理机制(图 1 底部)。其中对于更简单、低组合性的问题,标准 LLM 表现出更高的效率和准确性。随着问题复杂度的适度增加,思维模型会获得优势。然而,当问题达到高复杂度且组合深度更长时,两种模型类型的性能都会完全崩溃(图 1 左下)。值得注意的是,接近这个崩溃点时,尽管 LRM 的运行速度远低于代数限制,但随着问题复杂度的增加,它们开始减少推理工作量(以推理时间 token 衡量)(图 1 中下)。这表明,相对于问题复杂度,LRM 的推理能力在推理时间尺度上存在根本的限制。

最后,苹果对中间推理轨迹或思维的分析揭示了与复杂性相关的模式:在较简单的问题中,推理模型通常会尽早识别出正确的解决方案,但会低效地继续探索错误的替代方案 —— 这是一种「过度思考」现象。在中等复杂度下,正确的解决方案只有在广泛探索错误路径后才会出现。超过一定的复杂度阈值,模型将完全无法找到正确的解决方案(图 1 右下)。这表明 LRM 具有有限的自我修正能力,虽然很有价值,但也暴露出其根本的效率低下和明显的扩展限制。

这些发现凸显了现有 LRM 的优势和局限性,并对这些系统中推理的属性提出了质疑,这对它们的设计和部署具有重要意义。

总结来说,这项工作的贡献包括如下:

对当前基于既定数学基准的 LRM 评估范式提出质疑,并利用算法谜题环境设计了一个可控的实验平台,该环境能够根据问题复杂性进行可控的实验。

实验表明,最先进的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能开发出可泛化的问题解决能力。在不同环境中,当复杂度超过一定水平时,准确率最终会降至零。

苹果发现 LRM 的推理能力在问题复杂性方面存在一个扩展极限,这一点可以从思维 token 在达到某个复杂性点后呈现的反直觉下降趋势中看出。

苹果质疑当前基于最终准确率的评估范式,并借助确定性谜题模拟器将评估范围扩展到思维轨迹的中间解。分析表明,随着问题复杂度的增加,正确的解会系统性地出现在思维的后期,而错误的解则不然,这为理解推理模型 (LRM) 中的自我修正机制提供了定量层面的见解。

苹果发现 LRM 在执行精确计算方面存在一些令人惊讶的局限性,包括它们无法从显式算法中获益,以及它们在不同谜题类型之间的推理不一致。

论文标题:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

在这篇论文的作者中,共同一作为 Parshin Shojaee,她现在为 Virginia Tech 三年级博士生,且为苹果的研究实习生。另一位共一 Iman Mirzadeh 为苹果的 ML 研究工程师。此外,Yoshua Bengio 的兄弟 Samy Bengio 也参与了这项工作,他现为苹果的 AI 和机器学习研究高级总监。

数学与谜题环境

目前,我们尚不清楚近期基于强化学习的思维模型所观察到的性能提升是归因于「更多接触已建立的数学基准数据」,还是归因于「分配给思维 token 的显著更高的推理计算能力」,又或是归因于「基于强化学习的训练所开发的推理能力」?

最近的研究通过比较基于强化学习的思维模型与其非思维标准 LLM 对应的上限能力 (pass@k),利用已建立的数学基准探索了这个问题。他们表明,在相同的推理 token 预算下,非思维 LLM) 最终可以在 MATH500 和 AIME24 等基准测试中达到与思维模型相当的性能。

苹果还对前沿的 LRM 进行了比较分析,例如 Claude-3.7-Sonnet(有思维 vs. 无思维)和 DeepSeek(R1 vs V3)。结果如图 2 所示,在 MATH500 数据集上,当提供相同的推理 token 预算时,思维模型的 pass@k 性能与非思维模型相当。然而,苹果观察到这种性能差距在 AIME24 基准上有所扩大,在 AIME25 上进一步扩大。这种不断扩大的差距带来了解释上的挑战。

这可以归因于:(1)复杂性不断增加,需要更复杂的推理过程,从而揭示思维模型在更复杂问题上的真正优势;或者(2)在较新的基准(尤其是 AIME25)中数据污染减少。有趣的是,人类在 AIME25 上的表现实际上高于 AIME24,这表明 AIME25 的复杂度可能较低。然而,模型在 AIME25 上的表现比 AIME24 更差 —— 这可能表明在前沿 LRM 的训练过程中存在数据污染。

鉴于这些不合理的观察结果以及数学基准不允许对问题复杂性进行控制操纵的事实,苹果转向了能够进行更精确和系统实验的谜题环境。

谜题环境

苹果评估了 LRM 推理在四个可控谜题上的性能,这些谜题涵盖了组合深度、规划复杂度和分布设置。谜题如下图 3 所示。

汉诺塔谜题(Tower of Hanoi)包含三个桩子和 n 个大小不同的圆盘,这些圆盘按大小顺序(最大的在底部)堆叠在第一个桩子上。目标是将所有圆盘从第一个桩子移动到第三个桩子。有效的移动方式包括一次只移动一个圆盘、只取桩子顶部的圆盘,以及永远不要将较大的圆盘放在较小的圆盘上。此任务的难度可以通过初始圆盘的数量来控制,因为初始圆盘数量为 n 时所需的最小移动次数为 2^n − 1。然而,在本研究中,苹果不对最终解决方案的最优性进行评分,而只衡量每次移动的正确性以及是否达到目标状态。

跳棋(Checker Jumping)是一个一维谜题,将红色棋子、蓝色棋子和一个空格排成一条线。目标是交换所有红色和蓝色棋子的位置,有效地镜像初始配置。有效的移动包括将棋子滑入相邻的空位,或跳过恰好一个相反颜色的棋子落入空位。在谜题过程中,任何棋子都不能后退。该任务的复杂性可以通过棋子的数量来控制:如果棋子数量为 2n,则所需的最小移动次数为 (n + 1)^2 − 1。

过河(River Crossing)是一个约束满足规划难题,涉及 n 个参与者及其对应的 n 个代理,他们必须乘船过河。目标是将所有 2n 个个体从左岸运送到右岸。船最多可载 k 个人,且不能空载。当参与者与另一个代理在一起而没有自己的代理时,会出现无效情况,因为每个代理都必须保护其客户免受竞争代理的侵害。此任务的复杂性也可以通过存在的参与者 / 代理对的数量来控制。当 n = 2 或 n = 3 对时,使用船容量 k = 2;当对数较大时,使用 k = 3。

积木世界(Blocks World)是一个积木堆叠难题,要求将积木从初始配置重新排列成指定的目标配置。目标是找到完成此转换所需的最少移动次数。有效移动仅限于任何堆叠的最顶层积木,该积木可以放置在空堆叠上或另一个积木之上。此任务的复杂性可以通过存在的积木数量来控制。

实验及结果

本文实验是在推理模型及其对应的非推理模型上进行的,例如 Claude 3.7 Sonnet(thinking/non-thinking)和 DeepSeek-R1/V3。

复杂性如何影响模型推理?

为了研究问题复杂性对推理行为的影响,本文在可控谜题环境中开展了推理与非推理模型对的对比实验,比如 Claude-3.7-Sonnet(thinking/non-thinking)和 DeepSeek(R1/V3)。

图 4 展示了两类模型在所有谜题环境中随问题复杂度变化的准确率。

作为补充,图 5 在相同推理 token 计算量下(所有谜题平均值),呈现了这些模型对的性能上限(pass@k)。

上述结果都表明,这些模型的行为在复杂性方面存在三种状态:

在问题复杂度较低的第一种状态下,本文观察到非推理模型能够获得与推理模型相当甚至更好的性能。

在复杂度适中的第二种状态下,能够生成长思维链的推理模型的优势开始显现,推理、非推理模型之间的性能差距开始扩大。

最有趣的状态是问题复杂度更高的第三种状态,两种模型的性能都崩溃为零。

这些结果都表明,虽然推理模型延缓了这种崩溃,但它们最终也会遇到与非推理模型相同的根本限制。

接下来,本文又研究了不同推理模型在问题复杂度变化时的效果。测试模型包括 o3-mini(中 / 高配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B 以及 Claude-3.7-Sonnet(thinking)。

图 6 表明,所有推理模型在面对复杂度变化时都呈现出相似的模式:随着问题复杂度的提升,模型准确率逐渐下降,直至超过模型特定的复杂度阈值后完全崩溃(准确率归零)。

本文还发现推理模型最初会随着问题复杂度成比例地增加思维 Token 使用量。然而,当接近临界阈值(该阈值与其准确率崩溃点高度吻合)时,尽管问题难度持续增加,模型却会反直觉地减少推理投入。这一现象在 o3-mini 系列变体中最为显著,而在 Claude-3.7-Sonnet(思维版)模型中相对较轻。值得注意的是,尽管这些模型的推理生成长度远未达到上限,且拥有充足的推理计算预算,但随着问题复杂度提升,它们却未能有效利用思维阶段额外的计算资源。这种行为表明,当前推理模型的思维能力相对于问题复杂度存在根本性的扩展局限。

推理模型的思维内部发生了什么?

为了更深入地理解推理模型的思考过程,本文对模型推理轨迹进行了细粒度分析。重点关注 Claude-3.7-Sonnet-Thinking。

基于推理轨迹的分析进一步验证了前文所述的三种复杂度模式,如图 7a 所示。

对于简单问题(低复杂度):推理模型通常在思维早期就能找到正确解(绿色分布),但随后持续探索错误解(红色分布)。值得注意的是,与正确的解决方案(绿色)相比,错误解决方案(红色)的分布更倾向于思维的末端。这种现象,在文献中被称为过度思考(overthinking),导致了计算的浪费。

当问题变得稍微复杂时,这种趋势就会逆转:模型首先探索不正确的解决方案,然后再得出正确的解决方案。此时错误解(红色)的分布位置相较于正确解(绿色)明显下移。

最后,对于复杂度更高的问题,会出现崩溃,这意味着模型无法在思维中生成任何正确的解决方案。

推理模型令人困惑的行为

如图 8a 和 8b 所示,在汉诺塔环境中,即使本文在提示中提供算法 —— 以便模型只需要执行规定的步骤 —— 模型性能也不会提高,并且观察到的崩溃仍然发生在同一点左右。

此外,在图 8c 和 8d 中,本文观察到 Claude 3.7 Sonnet thinking 模型表现出截然不同的行为模式。该模型在提出的解决方案中首次出现错误的时间往往较晚,而在过河谜题中,该模型仅能生成有效解直至第 4 步。值得注意的是,该模型在解决需要 31 步的问题(N=5)时能达到近乎完美的准确率,却无法解决仅需 11 步的过河谜题(N=3)。这可能表明网络上 N>2 的过河谜题范例较为稀缺,意味着 LRMs 在训练过程中可能较少接触或记忆此类实例。

研究惹争议

对于苹果的这项研究,有人表示如果真是这样,那又如何解释 o3-preview 在 ARC 基准测试上的表现呢?

有人认为苹果的研究具有误导性,他们只测试了 DeepSeek R1 和 Claude 3.7。虽然其他模型可能会失败,但说「ALL 推理模型失败是不公平的。

还有人(x 用户 @scaling01)复现了苹果论文中的汉诺塔谜题及使用的精确prompt,有了一些有趣的发现:

你至少需要 2^N - 1 步,并且输出格式要求每步包含 10 个 token 以及一些常量。

此外,Sonnet 3.7 的输出限制为 128k,DeepSeek R1 为 64k,o3-mini 为 100k。这包括它们在输出最终答案之前使用的推理 token!

所有模型在圆盘数量超过 13 个时准确率都将为 0,这仅仅是因为它们无法输出那么多!

最大可解规模且没有任何推理空间:DeepSeek:12 个圆盘;Sonnet 3.7 和 o3-mini:13 个圆盘。如果你仔细观察模型的输出,就会发现,如果问题规模过大,它们甚至不会进行推理。

由于移动次数太多,则将解释求解算法,而不是逐一列出所有 32,767 个移动次数。

因此可以发现:

至少对于 Sonnet 来说,一旦问题规模超过 7 个圆盘,它就不会尝试进行推理。它会陈述问题本身以及求解算法,然后输出解决方案,甚至不会考虑每个步骤。

有趣的是,这些模型在每次移动时都有 X% 的概率选出正确的 token。即使有 99.99% 的概率,由于问题规模呈指数级增长,模型最终也会出错。

此外,苹果论文对游戏复杂性的解读也非常令人困惑 仅仅因为汉诺塔谜题需要的步数比其他塔多得多,而其他的只需要二次或线性更多的步数,这并不意味着汉诺塔谜题更难。

这位用户直言不讳地称这项工作为「胡说八道」,模型实际上不是受限于推理能力,而是输出 token 的限制造成的。

简单来说,这位用户的观点就是:所有模型在圆盘数量超过13个时准确率降至0,仅仅是因为它们无法输出那么多。

OpenAI 的员工也凑起了热闹,表示「这波对苹果研究的深挖很棒。」

有人还表示,如果这波分析没错的话,那苹果的研究将没有意义。

本文作者:机器之心,来源:机器之心,原文标题:《质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章