AGI最后拼图，一文看懂什么是强化学习？其护城河是什么？

06/09 18:45

分析表示，强化学习是推动大模型推理能力跃升的核心，这一技术或成为AGI前最后关键范式，其理密集型特性带来了算力挑战。此外，高质量数据是强化学习护城河，数据质量比数量更重要，AI设计AI的循环加速技术迭代。

当DeepSeek-R1以更低成本实现类似性能突破时，Claude能够连贯工作数小时完成复杂任务时，意味着AI发展已经迈入推理时代，强化学习技术的重要性不言而喻，将重塑AI产业的技术栈乃至商业模式。

6月8日，AI研究公司SemiAnalysis发布长篇报告《强化学习：环境、奖励破解、智能体、扩展数据》，深度剖析了强化学习的工作原理以及影响因素，并预测了后续AI发展趋势。

报告表示，强化学习（RL）或成为AGI前最后关键范式，其理密集型特性带来了算力挑战。此外，高质量数据是强化学习护城河，AI设计AI的循环加速技术迭代。

以下是文章亮点：

强化学习（RL）或成为AGI前最后关键范式：强化学习是推动大模型推理能力跃升的核心技术，尤其在思维链（CoT）生成和长程任务连贯性上表现突出，被视作实现AGI前的终极技术路径。

可验证奖励场景率先商业化：编码、数学等奖励函数明确的任务（如SWE-Bench性能提升30%+）已实现落地，OpenAI的o1、DeepSeek-R1等模型验证其价值。医疗、写作等非验证领域通过“LLM评判者+人工评分标准”构建奖励函数（如HealthBench医疗评估），OpenAI、阿里Qwen-3已实现技术落地。

推理密集型特性带来了算力挑战：RL是推理密集型的，模型需要为每个问题生成多个答案，每个答案可视为一个"推出"。推演数量可从几个答案到数百次尝试不等，这使RL推理密集，对每个问题生成如此多答案。这一特点产生重大影响，因为大多数环境仅在CPU服务器而非GPU上运行，需要在专用外部机器上运行，增加了另一层工程复杂度。

环境计算市场潜力巨大：构建高拟真、抗奖励破解的RL环境需数百CPU/GPU协同，可靠、可扩展且易于实施的环境将面临极大的需求，预计这将成为初创公司蓬勃发展的领域，数字孪生环境（如工业、生物仿真）市场空间巨大。

高质量数据是强化学习护城河：数据质量比数量更重要，高质量数据有助于生成足够清晰的强化学习信号，使模型能够更好地完成所需的任务。OpenAI的强化微调 (RFT)等服务被低估，拥有用户数据AI初创公司可以构建自定义强化学习模型。如果企业能够搭建合适的强化学习环境，那么企业定制模型的时代或许会到来。

奖励破解率下降成竞争力指标：Claude 3.7篡改测试用例、GPT-4o谄媚行为揭示奖励函数设计风险。Claude 4通过环境优化将奖励破解率从15.2%降至14.3%，RL安全性与模型能力同等重要，Anthropic技术方案受企业客户追捧。

智能体任务时长指数级增长：模型连贯时长每7个月翻倍（2024年达4小时），支撑远程办公、芯片设计等长周期任务，但需解决稀疏奖励（Sparse Reward）问题。

AI自己设计AI的循环已现端倪：递归自我改进在某种程度上已经发生，Claude 4用AI优化编译器/内核，OpenAI Codex辅助下一代模型开发，AI设计AI的循环加速技术迭代。

以下是文章全文（由AI翻译，略有删减）

扩展强化学习：环境、奖励破解、智能体、扩展数据

推理时扩展（Test time scaling）范式正在蓬勃发展。推理模型持续快速改进，变得既更有效又更经济。衡量现实世界软件工程任务的评估，如 SWE-Bench，正以更低的成本获得更高的分数。下图展示了模型如何变得更便宜且更好。

强化学习 (Reinforcement Learning, RL) 是这一进展的原因。我们在之前的报告中已涵盖此点，概述了 RL 如何通过生成思维链 (Chain of Thought, CoT) 解锁了模型进行推理的能力。我们预计这一范式将持续下去。

除了 CoT 创新之外，模型的连贯性（思考）时间也更长，这解锁了智能体（Agentic）的能力。工具使用（如搜索、利用 Python 进行计算等能力）是模型能够长时间规划、推理和操作的结果。更好的推理能力让模型有更多时间“思考”，从而从简单的聊天机器人演变为规划者。这反过来又催生了更具连贯性的智能体。随着机器学习研究者在可验证领域扩展 RL，这些连贯的智能体将开始涉足更复杂的涉及计算机使用的任务，例如完全自动化的远程办公和系统工程/架构设计。

尽管进展显著，但扩展 RL 算力在整个基础设施栈中带来了新的瓶颈和挑战。RL 可能是通往 AGI（通用人工智能）之前的最后一个范式。机遇巨大，投资亦然。数十亿美元已轻易投入用于预训练模型。更多的资金将被释放用于扩展 RL，但其基础设施需求却大不相同。让我们看看实现目标需要什么。

强化学习如何工作

强化学习 (RL) 在概念上很简单。一个强化学习模型从其当前在任意环境（Environment）中的状态获取信息，生成一组用于选择动作（Action）的概率，然后执行该动作。模型的目标是实现某个目标，并由一个“奖励函数（Reward Function）”定义。强化学习发生在调整模型权重的过程中，使得生成的最高概率动作更有可能带来更高的奖励。

强化学习并非新技术。RL 是一种较旧的技术，早于大型语言模型。例如，它是掌握围棋和国际象棋的系统背后的技术基础。然而，RL 最终在像 LLM 这样的通用技术上取得了成功，这对能力和技术扩散都具有重大意义。

可验证的奖励 (Verifiable Rewards)

LLM 中的 RL 在具有可验证奖励的领域效果最好。这意味着像编码和数学这样的任务，有 RL 所需的清晰奖励定义。在奖励函数定义较为模糊的领域，推理模型难以取得进步。当 OpenAI 在 GPT-4o 上进行 RL 得到 o1 时，他们最大的收益出现在具有可验证奖励的领域。

随着该领域的发展，工具使用等新领域正在开放。OpenAI 的 o3 可以放大图片，推理所见内容，运行一些计算，进行更多推理，然后提供答案。这解锁了一系列模型现在可以很好完成的任务，例如识别图片的拍摄地点。这样的任务在技术上是可验证的，但并未被明确训练过。然而，尽管取得了惊人的成果，实验室在 RL 上投入的资金通常很少，尤其是相对于预训练的花费而言。阻碍 RL 算力匹配并超越预训练算力的瓶颈是什么？不可验证的领域会被解决吗？

强化学习是推理密集型

研究最流行的 RL 算法之一可以深入了解 RL 对推理的依赖程度，组相对策略优化（Group Relative Policy Optimization, GRPO）是一种常用算法，也是 DeepSeek 用于训练 R1 的算法。

在 GRPO 中，模型被要求回答一个问题。模型为该问题生成多个答案。每个答案可以被视为一个“推演（Rollout）”，本质上是模型尝试寻找解决方案的过程。换句话说，“推演”是模型生成答案或解决问题的单次尝试。每个问题的推演次数可以从几个答案到数百次尝试不等。没有技术限制，但使用的推演越多，占用的内存和算力就越大。

这使得 RL 成为推理密集型，因为每个问题生成了如此多的答案。这一点具有重大影响，我们将在报告中的多个地方提及。

然后，模型生成的答案会根据基本事实（Ground Truth）进行评分。特别是在 GRPO 中，每个答案都会获得一个奖励分数（Reward Score）。正确性并非唯一因素，实际上奖励函数可以通过多种方式调整，但其他因素包括格式和语言一致性。

奖励计算完成后，模型通过梯度下降（Gradient Descent）进行更新，以增加生成更可能获得正奖励的答案的概率。GRPO 是近端策略优化（Proximal Policy Optimization, PPO）的一种变体，它消除了对评判模型（Critic Model）（在 PPO 中预测未来奖励）的需求，使其内存效率更高。PPO 和 GRPO 都可以使用学习到的奖励模型或基于规则的奖励。来判断答案质量。由于其较低的内存需求，GRPO 在开源社区获得了高度采用，但我们预计实验室将继续使用 PPO 的变体。PPO 由 OpenAI 发明，实验室内部可用的版本现在与 GRPO 经常与之比较的公共版本有实质性的不同。实验室面临的算力约束也较少。

核心思想是，RL 通常需要一个问题、一个用于对照的答案，以及一种向模型发出信号指示其行为应如何改变的方式。模型探索寻找答案的方式可以不同，但它需要以不同推演的形式生成多个答案，因此对推理端要求很高。然后模型被更新以使正确答案更可能出现，因此也存在隐含的训练方面。

奖励函数很难定义

如前所述，在可验证奖励方面取得了显著进展。原因之一是奖励函数易于定义。数学题的答案要么正确要么错误。然而，从技术上讲，奖励函数可以是用户想要优化的任何东西。

从概念上讲，模型在 RL 下的主要目标是最大化总奖励。例如，如果一个模型被训练来下国际象棋，其主要目标是在不违反任何规则的情况下赢得比赛。模型可以通过发现在不同情况下哪些走法有助于获胜来下棋并持续改进。模型可以通过其运行的环境获得反馈。我们稍后将深入探讨这一点，但在国际象棋的例子中，可以将其视为模型可以与之交互的棋盘和棋子。

为更细粒度的任务定义奖励被描述为一种“黑暗艺术”，因为这非常难以做好。即使在清晰的环境中，设置正确的奖励函数也需要大量的研究、测试和优化。其中一个例子是芯片设计。AlphaChip是Google 设计的一个用于辅助芯片设计并用 RL 训练的模型。该模型协助设计了Google使用的TPUv6芯片，将TPUv6中的线长减少了 6.2%。在这种情况下，奖励函数被明确定义为：

这指导模型精确地最小化重要因素：线长、拥塞和密度。请注意，即使对于一个相对简单的奖励函数，其设置也并非易事。拥塞和密度都有标量值来调整其重要性（由 Lambda 和 Gamma 表示）。这些值是基于工程师希望做出的权衡，经过大量实验后得出的，最终决定线长是最重要的因素。

如何在不可验证的领域设置奖励？

不可验证的领域包括写作或战略等领域，这些领域不存在明确正确的答案。人们质疑强化学习是否真的能够应用于此类领域。我们认为可以。事实上，这已经有人实现了。

这需要改变奖励机制。不是依赖正式的验证器进行检查，而是可以使用其他模型根据评分标准（Rubric）来判断答案是否正确与否。

OpenAI 使用 RL 来改变模型行为，这比数学问题更不明确。OpenAI 的深思熟虑对齐（deliberative alignment）论文在其过程中使用 RL，以确保模型更安全、具有更少的错误拒绝，同时使用一个 LLM 作为评判者（Judge）和一个评分标准。此外，该过程仅使用了合成数据（Synthetic Data）。如前所述，他们还发现这种方法“在分布外安全场景上实现了强大的泛化”。这种针对不可验证方法的 RL 形式已被用于 o1、o3-mini 和 o4-mini 的训练，并将继续用于未来的推理模型。

能够进行推理不仅有助于做数学题，也有助于许多其他任务，包括不可验证的任务。例如，在许多情况下，推理帮助模型更好地区分在何时拒绝是必要的。然而，不可否认的是，在不可验证领域，某些因素比其他因素更重要。例如，模型个性极大地影响写作风格。

在不可验证领域的 RL 也更加不稳定 – GPT-4o 的谄媚行为（Sycophantic Behavior）部分原因是 OpenAI 在用户偏好数据上进行了 RL。这是一个善意的奖励函数导致不利和不受欢迎行为的例子。

RL 帮助你更好地进行 RL

改进模型的 RL 可以直接增强 RL 过程本身，形成一个正反馈循环（Feedback Loop）。这是由于如上所述，通常使用带有评分标准的 LLM 评判者来提供 RL 信号。使用推理模型作为 LLM 评判者意味着该模型能更好地理解评分标准，并能通过给定响应辨别更细微的差别。

OpenAI 的深度研究（Deep Research）也被吹捧为 RL 推动不可验证领域取得进展的一个例子。实际上，OpenAI 同时使用了具有真实答案的可验证任务和不可验证任务。需要理解的是，与前面的例子类似，不可验证的任务是由另一个带有评分标准的 LLM 评判的。

阿里巴巴的 Qwen-3 也采用了 LLM 作为评判者，它利用大量合成数据并结合 LLM-Judges 在没有参考答案的情况下提供信号。

我们认为评分标准开辟了大量领域。在另一个例子中，OpenAI 展示了模型在各种医疗保健任务上的性能。OpenAI 召集了 260 多名医生编写评分标准，供评判模型在评估响应时使用。

HealthBench是一个优秀的评估，值得赞扬的是 OpenAI 发布了它。

该评估也反映了 LLM 评判者在衡量不可验证奖励性能方面的有效性。而如果可以衡量，就可以通过 RL 来改进。这凸显了 RL 与评估之间未被充分重视的关系，后者可以显示 RL 运行的进展情况。

环境 (Environments)

要进行 RL，你需要强化一个动作或结果，需要一个环境（Environment）让模型或智能体获得反馈，以便它理解接下来要采取什么动作。这导致了RLEF（Reinforcement Learning Execution Feedback，强化学习执行反馈）的出现，即当我们在环境中运行模型产生的代码并使用结果作为奖励信号。

环境是模型执行动作并接收反馈的场景或模拟。像国际象棋和围棋这样的棋盘游戏是环境的绝佳例子：目标定义明确，规则清晰。随着通用性的增加，我们得到了诸如智能体在视频游戏中赛车或在生物反应器模拟中控制特定参数集等域。除此之外，我们还有数学、代码甚至浏览器等域。

环境的不同配置可能导致不同的智能体行为。配置不当的环境可能导致模型误解任务或无法正确泛化。这可能导致“**奖励破解（Reward Hacking），我们将在本报告后面讨论。

因此，设计一个能够精确定义奖励函数的强大环境极其困难。即使在需要简单环境的领域（例如编码），大量使用单元测试也会导致模型的重点不再是编写良好的代码，而是通过单元测试。因此，一个工程挑战是如何建立一个忠实于预期目标（编写良好的代码）的环境。

设置具有正确奖励函数的环境是一回事，但另一个方面是将其设计好。创建可扩展、强大的环境是一个关键的技术挑战。

环境有许多要求。一个例子是延迟（Latency）。智能体执行动作与环境受到影响之间的延迟很重要，同样重要的是智能体需要快速获得反馈。否则，推演的很多时间都花在智能体等待执行下一步上。其他考虑因素包括持续可靠的连接（以避免崩溃和中断过程），结合容错（Fault Tolerance）和检查点（Checkpointing）（使故障能够优雅处理）。需要处理多个不同的推演或轨迹，并且要做好。还需要一个完整的安全基础设施作为支撑，以保护模型免受外部渗透或试图逃离环境的尝试。

模型本身也存在一些故障模式会使事情变得困难，例如执行耗尽其可用机器资源的动作。工程环境涉及保护模型免受自身影响，维护足够安全的基础设施，以及围绕延迟和可靠性的一系列工程挑战。它们还需要准确地表示模拟或环境，以便智能体正确了解需要改进的地方，同时也要确保无法被利用。

所有这些要求使得扩展环境变得相当困难，尤其是第一次。正如我们将要谈到的，模型更长的连贯时间甚至使简单的环境也难以维护。对于像计算机使用这样的情况尤其如此，我们将在后面的章节中更深入地研究。

尽管基础设施工程可能看起来很平凡，但它对于 RL 的成功至关重要。如果推演耗时过长，验证模型就会闲置，浪费资源。因此，重要的是弄清楚该模型如何用于其他事情（例如评判另一个推演）。

这些软件限制还必须适应硬件约束。例如，大多数环境仅在 CPU 服务器上运行，而不是在 GPU 上。这意味着在外部专用机器上运行，这又增加了一层工程。

需要记住的是，大多数公共 RL 环境侧重于与评估性能相关的单轮问题（Single Turn Problems）。像 OpenAI 的 o3 这样的模型建立在利用多工具调用（Multiple Tool Calls）的环境之上。我们在后面的章节中解构了如何构建 o3 模型，但由于环境随着更多工具调用而复杂性增加，这也带来了另一组挑战。

奖励破解

如前所述，设置正确的奖励可能很困难，因为模型可能会误解目标并以不理想的方式进行优化。奖励破解发生在模型利用环境或奖励结构中的漏洞获得高分，但并未真正完成预期任务时。奖励破解长期以来被认为是一个重大问题，早在 2016 年就由 Dario Amodei（现为 Anthropic CEO）等研究人员强调过。例如，一个机械臂因将红色积木放置在蓝色积木上方很高处而获得奖励，它通过将红色积木倒置而不是正确堆叠来利用奖励。这是因为奖励是根据积木底面的高度来判断的。

展示了另一种故障模式：一个旨在教机器人行走的物理模拟中的智能体，发现了一个允许其在不实际迈步的情况下水平移动的软件故障。

在 LLM 的情况下，Claude 3.7 Sonnet 通过修改测试用例而不是改进其代码以通过原始测试来展示奖励破解。例如，一个第三方评估者发现 Claude 会直接编辑。Claude 会直接编辑“测试”文件以使所有测试都通过，而不是编写代码来通过原始测试。Anthropic 发现了这个问题，虽然他们实施了部分缓解措施，但这种模式在 Claude 3.7 中仍然可见。

虽然这些案例很有趣，但问题在于，工程师们总是无法准确描述奖励函数，或者只有在代理发现错误后才发现环境中的错误。许多此类奖励破解实例的案例都是设计者从未考虑过的路径，虽然在训练过程中可以进行迭代，但对于LLM来说，这很难做到。虽然机器人环境在目前的开发初期更容易调整，但大语言模型拥有庞大而复杂的动作空间，这使得奖励破解攻击更难以预防。

解决奖励破解对所有实验室都至关重要，并将借鉴许多来自安全导向团队的想法。这是安全和对齐（Alignment）工作有助于推动企业和公司采用的另一个例子。

在 Claude 4 版本中，Anthropic 通过改进环境、明确奖励信号以及实施主动监控，显著减少了奖励破解攻击。这并非一项简单的任务，需要大量的专业知识和技能。

但 RL 和奖励破解并非唯一的瓶颈，基础设施本身就是一个大瓶颈，这始于 RL 所需的数据。

数据与样本效率 (Data and Sample Efficiency)

乍一看，RL 似乎非常样本高效（Sample Efficient）：在训练 Qwen 模型的“推理 RL”阶段，使用了不到 4 千个查询-答案对。这相对于基础模型带来了显著的性能提升，并声称具有强大的样本效率。

然而，真实情况更为复杂。这 4000 个问答对中的每一个都有非常严格的要求：它们不应在模型的冷启动阶段（训练的前一阶段）被使用过，必须尽可能具有挑战性，覆盖广泛的子领域，但也要在模型的能力范围内。

这些要求并非微不足道，生成合适的合成数据涉及大量的过滤和重复的模型推理。此外，要求问题具有挑战性但又不能对模型过于挑战，这需要实验和验证问题是否适合那个狭窄的区间。在某些数据不是合成生成的情况下，实验室正在招募 STEM 博士来帮助编写对模型足够具有挑战性的问题和答案。这些博士也被招募来为 LLM 评判者编写评分标准。

像 ScaleAI、Mercor 和 Handshake 这样的公司现在正从 AI 实验室获得大量业务，以协助此招聘过程。

Qwen涉及另一个 RL 阶段，他们尽可能给人留下高效印象符合其最大利益，因此他们没有分享下一阶段的样本数量。这是因为样本数量远大于 4000。

在这个阶段，他们在超过 20 个不同的领域进行了 RL。他们还使用了所有三种类型的奖励模型（基于规则的、带/不带真实答案的 LLM-评判者），这需要复杂的工程和算力。

长远来看，我们预计实验室将在数百个专业领域进行 RL，以显著提升模型性能。质量比数量更重要——模型会精确地优化其训练数据——因此仔细选择和过滤这些数据至关重要。

因此，虽然使用的样本是 4000 个，但达到这一步耗费了大量的算力。可以说，就数据而言，RL 是样本高效的，但就计算而言，它肯定是样本低效的。与预训练相比，RL 需要显著更大的工程团队来有效设置。

数据是护城河 (Data is the Moat)

最终，Qwen 表明，高质量的数据是扩展 RL 的独特重要资源。高质量数据有助于为模型提供足够清晰的 RL 信号，使其在所需任务上做得更好。生成这些数据通常需要巨大的推理量。

更广泛地说，公司或企业可以聚合自己的数据，并使用像 OpenAI的强化微调（Reinforcement Fine Tuning, RFT）这样的服务。RFT 允许使用自定义评分器，并允许企业根据评分器或数据的结果更新模型。我们认为这仍然是一个被低估的发布，即使不考虑模型的进一步进展，也可能产生巨大的影响。

事实上，拥有一款能够聚合或收集用户行为的产品非常有价值，因为它最终是最重要的数据集。一个有趣的启示是，拥有用户数据的人工智能初创公司可以构建自定义强化学习模型，而无需投入大量计算预算来合成数据。如果企业能够搭建合适的强化学习环境，那么企业定制模型的时代或许会到来。相比于基础模型的持续发展，企业微调模型通常都失败了。

智能体任务的时间范围正在延长

现在，模型能够保持更长时间的一致性。更长期的任务需要能够长期可靠运行的环境和基础设施，这进一步提高了工程需求。

下图显示，独立编码任务的翻倍趋势为7个月，但我们预计编码以外的任务的翻倍时间会更快。OpenAI的深度研究是首个能够连贯工作超过几分钟的模型，我们预计其上限将显著且快速地上升。

然而，这里存在一个矛盾。智能体任务具有极高的经济价值，但由于其复杂性和资源密集性，带来了重大的 RL 挑战。

任务时间延长意味着每次 RL 迭代也需要更长时间，从而拖慢整个训练过程。

计算机的使用就是一个例子，它说明了长期任务的诸多问题。首先，作为一项智能体任务，它更接近现实世界的问题和行为，这带来了新的挑战。在使用计算机的情况下，智能体会遇到许多反机器人网页脚本、验证码以及晦涩难懂的 Cloudflare 保护功能。这种情况发生得相对零散。诸如此类的细节为环境增加了另一层以前不存在的调试。使用计算机需要大量的基础设施，例如虚拟机和浏览器连接。这些现在需要长时间稳定运行，此外还要满足先前讨论的环境工程要求。

计算机使用任务通常持续数小时。这意味着推演时间变长，奖励变得更稀疏。换句话说，智能体执行了十倍多的步骤，但只对最后一个 token 进行奖励。这使得 RL 信号变弱。计算机使用还依赖于图像和视频来向模型展示正在发生的事情。虽然已经有工作尝试通过流式传输 HTML 文件或设置网页的文本表示来进行计算机使用，但模型在此上下文中不理解图像代表什么。让文本表示工作将减少计算机使用的内存需求。

环境算力 (Environment Compute)

我们看到，在环境计算（而非仅仅强化学习计算）方面的投资潜力巨大。例如，一个高度逼真且难以奖励破解的环境，可以同时使用数十或数百个 CPU。这是一个全新的、具备扩展潜力的领域。由于信号清晰，逼真度可以带来惊人的性能提升。

未来，这些环境也将在模拟现实世界数字孪生的 GPU 上运行。值得注意的是，这些 GPU 的需求有所不同，它们仍然具备图形/渲染功能，例如 RTX Pro GPU 或客户端 GPU。AI 专用 GPU 和 ASIC（例如 H100、B200、TPU、Trainium 等）缺乏重要的图形/渲染相关硬件。因此，大量资源被投入用于构建用于强化学习环境（而非其他地方描述的常规强化学习环境）的 AI 世界模型。这将使扩展变得更加容易，否则，由于各种异构类型的软件和硬件，环境复杂性将激增。

可靠、可扩展且易于实施的环境将面临极大的需求，我们预计这将成为初创公司蓬勃发展的领域。目前已有多家初创公司启动。某些功能的瓶颈并非来自模型能力（o3 足够智能，可以完成大多数任务），而是来自与世界互动和收集上下文的能力。

我们认为这对于人工智能在科学领域的应用尤其令人兴奋——例如，可以设置与实验室中任何可测量事物相连接的环境。这样的设置将使人工智能代理能够控制物理世界，并在接收来自环境的反馈时操纵和改变各种因素。在某些情况下，例如控制熔炉的温度，反馈循环可以相对较快，模型可以快速迭代。

然而，在其他有价值的实验中，实验需要很长时间，模型将需要具有匹配的连贯时间。再加上需要多次推演，这可能导致计算和物理上都要求很高的设置。

在生物学、半导体制造和其他材料科学领域，考虑模型正在运行和测试的推演/消融（Ablations）的反馈回路非常重要。这些生物、制造和工业过程在运行速度和验证速度上存在限制。

某些领域 RL 算力产生影响的所需时间要长得多，而其他领域则会因快速反馈回路而迅速改变。物理 AI 固有的反馈回路比数字世界慢，因此需要非常强大的数字孪生环境。

与评估的类比

粗略地打个比方，概念上更简单的模型评估也很难运行。Docker 镜像经常失败，多项选择题的简单格式更改（例如，从 (A) 更改为 (1)）就可能使模型的评估性能改变高达 5%。在评估基础设施刚刚扩展时，Anthropic 曾公开讨论过评估的工程挑战。GPQA 是一种常用的评估工具，用于测试物理、化学和生物等研究生水平的模型，但它似乎存在“噪音上限”。虽然它显示模型会停滞，但由于答案标签错误，不可能获得 100% 的准确率。

从很多方面来看，随着代理任务长度的增加，问题变得越来越严重。模型可采取的动作空间大幅增加，其相干时间也在增加，而创建能够评估这些长期能力的评估模型则极具挑战性。这也使得评估成本显著增加。

评估基础设施本身并不新鲜，概念也很简单，但其繁琐的计算却会导致死亡。搭建大型强化学习基础设施并进行扩展，更是需要耗费数百万美元。

RL 改变了硬件和数据中心建设的平衡

用于 GB200 和 GB300 的 Nvidia NVL72 系统在推理领域实现了关键进展。增加的计算能力允许在更低延迟下实现更高吞吐量，共享内存允许更大的世界规模（World Size）来分散KV 缓存（KV Cache）。虽然这实现了在推理阶段更好地对推理模型进行批处理（Batching），对 RL 也有重大影响。

对于 RL，增加的内存支持了许多不同的能力。首先，它允许对给定问题进行更多推演。其次，它允许更好地处理长线智能体任务。第三，它更好地容纳更大或更具推理能力的模型作为评判者，这对不可验证领域尤其有帮助。第四，这种范式高度依赖于合成数据生成和过滤，而这又依赖于推理，NVL72 系统在这方面表现卓越。但利用率不足（Underutilization）是该过程中一个困难的部分。

对于在线强化学习，最后一个 rollout 的完成时间与第一个 rollout 的完成时间之间可能存在时间差。对所有不同的采样副本进行负载平衡非常困难。由于不同的采样器和训练器采用不同的拓扑结构，权重的广播也可能导致严重的利用率不足。

强化学习的所有阶段都需要推理，但推理并不需要像与训练时代那样集中化。强化学习需要大量的计算，但不需要位于同一位置。

例如，一个领域的合成数据可以在一个数据中心生成和验证，但训练过程可能在另一个完全不同的数据中心进行。随着强化学习在计算领域的主导地位，我们可能会看到数据中心建设的转变。虽然预训练扩展仍然需要最大的多GW数据中心，但强化学习的去中心化程度如何目前尚无定论。

与一次性占用数万个 GPU 的预训练不同，强化学习专用的推理时间可以根据容量进行调整。这意味着实验室现在可以在非高峰时段利用 GPU，例如在其强化学习流程中生成合成数据。

事实上，我们知道至少有一家实验室正在利用未充分利用的推理集群，并运行此流程，以便通过合成数据生成有效地将免费计算资源交付给训练。在实验室中，推理和训练之间的界限将继续模糊，从而能够为模型提供更多计算资源，而不仅仅是最大的训练集群。这些未充分利用的计算资源实际上被免费交付给训练，因为推理集群需要根据峰值需求进行配置。

Prime Intellect 在其 Intellect-2 模型中展示了 RL 的去中心化（Decentralized）特性，该模型是针对推理模型的全局分布式 RL 运行。

在硬件设计方面，增加的推理和长智能体任务使内存更加重要。RL 使用的FLOPs少于预训练，但仍仍然需要大量的内存。长远来看，硬件开发将会随之改变，以适应这一变化。这包括网络拓扑等其他因素。我们认为强化学习改变的不仅仅是硬件设计，它还在改变研究的组织方式。。

RL正在改变实验室的结构

语言模型的强化学习是推理真正融入训练过程的首批案例之一。推理性能现在直接影响训练速度。这意味着生产级推理（快速、高效、廉价）现在已成为模型训练过程中不可或缺的一部分。

之前，每个实验室都会区分“产品服务推理”和“内部推理”（例如，用于评估）。但考虑到强化学习所需的海量推理，在训练栈中直接构建高度优化的推理栈至关重要。

我们在公司结构中看到了这种现象。OpenAI 合并了研究和应用研究推理团队。同样，Anthropic 和 Google 也因此对其生产和内部团队进行了大规模重组。

这种范式转变的一个后果是需要大量的推理算力。

RL允许频繁的模型更新

预训练机制与当前机制的一个显著区别是，可以在模型发布后进行 RL。这意味着可以发布一个模型，继续进行 RL 以扩展能力，然后再次更新模型。这种迭代开发可用于逐步扩展现有模型。这正是新版 DeepSeek R1 所实现的。

这对于后期训练来说通常都是正确的——当前的 GPT-4o 已经更新多次，并且不再比最初发布的 GPT-4o 模型更长。

由于新范式，我们预计 Anthropic 将比以前更频繁地更新其 Claude 模型。

递归自我改进已开始发挥作用

在强化学习中，我们谈到了通过更好的模型成为更好的评判者来实现自我提升，但还有另一个重要的维度需要考虑。其理念是，模型本身有助于训练和编码下一个模型。Claude 4 System 让我们能够具体了解实验室的想法。Anthropic 对编译器开发、内核工程，甚至四足机器人的强化学习进行了评估。

事实是，实验室正在做的大量工作是艰难的工程工作，旨在充分利用可用硬件的每一寸性能。编译器、内核、内存管理优化、超参数调整等，都是可以衡量和改进的编码任务。它们各自对模型的效率都有巨大影响。递归自我改进通这个充满奇特含义的术语通常很吸引人，但事实上，它在某种程度上已经发生了。实验室也可以通过对这些任务进行强化学习来加倍努力，并且拥有大量可以完成这些任务的内部模型。

其中大部分最初将围绕不引人注意的繁琐工作进行，并逐渐转向研究新的架构。

当前的模型并不会显著加快开发速度。但 OpenAI 的 Codex 工具已经在帮助员工构建下一个版本。思考自我改进的方式是，模型将让工程师花更少的时间编码，花更多的时间思考与研究数据相关的主题。在模型开发受工程工作瓶颈限制的范围内，这些瓶颈将被解决。然而，实际上，模型开发受到多种其他因素的瓶颈限制，包括获得算力的机会。真正的递归自我改进也将极大地加速研究和数据。

工具使用与 o3

强化学习的有效性在 o3 模型中得到了清晰的展现，尤其是在其对外部工具的高级运用方面。o3 表明，智能固然有用，但能够访问工具并有效运用则更加重要。OpenAI 为实现这一能力做了几件事。首先是确保模型能够访问工具。这可以作为报告中提到的更广泛的基础设施（例如，访问环境）的一部分来实现。在模型层面，访问可以通过特殊令牌触发，模型可以使用这些令牌来访问工具。例如，模型使用特殊令牌来<search>触发外部搜索，从而返回可直接用于推理过程的结构化结果。赋予模型访问多个不同特殊令牌的权限，使其能够快速轻松地访问不同的环境。

另一个挑战是选择合适的训练问题集。即使模型可以使用工具，如果不需要，它也可能选择完全不使用。有效地训练模型需要提出足够难的问题，需要工具的帮助，并确保模型能够自然地利用外部资源。这很难做到，需要大量的测试来验证。然而，过度使用工具会降低性能，使奖励信号变得复杂，并降低整体效率。

其他因素包括确保推演具有许多初始状态，每个起点有多个响应以帮助稳定性和学习效率，为格式错误的输出添加惩罚，并为正确使用的标签添加奖励。

制作 o3 需要为模型提供对多个工具的访问（例如通过特殊标记），并在迫使模型使用这些工具的问题上进行训练。

为什么o3会产生幻觉？

尽管o3查找和研究事物的能力很强，却因产生幻觉而声名狼藉。该模型经常编造事实。随着 RL 算力的扩展，这个问题变得更糟。为什么会这样？

我们认为这可以追溯到这些模型的训练方式。模型通常仅因正确结果而获得奖励，而不会因错误推理而受到惩罚，这使得它们能够通过有缺陷的逻辑实现准确性。

例如，一个模型可能在简单的棋盘游戏中获胜，尽管它误解了规则，从而错误地认为其有缺陷的推理是可接受的。这不仅没有惩罚模型的错误思考，反而积极地奖励它们。

我们预计这种行为不仅仅发生在棋盘游戏中。这无意中教会了模型在新的、未经训练的场景中产生幻觉，将有缺陷的推理扩展到更广泛的背景中。使用推理模型作为评判者将在一定程度上有所帮助，因为它们可以纠正整个推理轨迹。其他想法包括更具体的奖励信号，对每个 token 进行不同的奖励，惩罚错误逻辑的同时奖励正确答案。

需要明确的是，这种错误的奖励行为可能对代码等事情产生影响。模型可能编写糟糕的代码，但仍然通过单元测试，这更加强调了拥有正确奖励函数的必要性。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。