o3意味着什么？2025年“缩放定律”继续，成本更贵也更不可控

2024/12/24 16:15

Anthropic联合创始人Jack Clark认为明年，AI界将结合“测试时扩展”和传统的预训练扩展方法，进一步挖掘AI模型的潜力。不过，虽然o3模型让人们重新相信AI扩展法则的进展，但是，o3使用了前所未见的计算量，这意味着每个答案的成本更高了，也意味着o3无法成为人们的日常使用工具。

AI扩展法则进入第二代，当然，成本也是如此。

近期，AI发展似乎进入了“第二个扩展法则时代（Second era of Scaling Laws）”，一些分析师指出，改进AI模型的既定方法正在呈现出收益递减的趋势，目前，一种新的、有前景的方法是“测试时扩展（ test-time scaling）”，这是OpenAI的o3模型采用的方法，也是o3表现如此出众的原因。

需要注意的是，尽管o3模型让人们重新相信AI扩展法则的进展，但也并非十全十美：o3使用了前所未见的计算量，这意味着每个答案的成本更高了，也意味着o3无法成为人们的日常使用工具。

具体来说，“测试时扩展”意味着OpenAI在ChatGPT的推理阶段使用了更多的计算资源——在用户按下生成按钮后到AI给出答案之间的那段时间，OpenAI可能是在使用更多的计算芯片来回答用户的问题，也可能是在使用更强大的推理芯片，甚至可能是更长时间地运行这些芯片，毕竟，在某些情况下，o3在10到15分钟后才给出答案。

此外，Anthropic联合创始人Jack Clark和另一些分析师指出，o3在ARC-AGI基准测试中的出色表现标志着AI模型的进步，但是，通过这一测试并不意味着AI模型已经达到了通用人工智能（AGI），毕竟，o3在一些非常简单的任务上仍然失败了，而这些任务人类可以轻松完成——显然，o3和“测试时扩展”仍未解决大语言模型的幻觉问题。

AI在2025年的进步将比2024年更快，o3就是证据

Clark在周一的博客中表示，o3模型表明，基于目前已有强大基础模型，在推理时让大语言模型“测试时扩展”，能够带来巨大的回报。Clark预计，接下来最有可能发生的事情是，强化学习（RL）和底层基础模型将同时得到扩展，这将带来更加戏剧性的性能提升。

“这是一个大新闻，因为它表明，相较于2024年，2025年AI的进展应该会进一步加速。”

Clark补充表示，最近有很多奇怪的报道，说“扩展已经遇到瓶颈”，对此，Clark反驳称：

“从狭义上讲，这是对的，因为较大的模型在应对挑战性基准时，获得的得分提升比其前代模型要小，但从更广义上讲，这种说法是错误的，因为o3背后的技术意味着扩展仍在继续……到2025年，我们将看到现有方法（大模型扩展）和新方法（基于RL的“测试时扩展”等）的结合。”

Clark还补充道，明年，AI界将结合“测试时扩展”和传统的预训练扩展方法，进一步挖掘AI模型的潜力。

表现出众的o3

许多人将OpenAI发布的o3模型视为AI扩展进程没有“夭折”的证明——o3在基准测试中表现出色，在一项名为ARC-AGI的通用能力测试中，它的得分远远超过所有其他模型，某次尝试中得分甚至达到了88%，而o1的最好表现仅为32%。并且，o3在一项困难的数学测试中达到了25%的得分，没有任何其他AI模型的得分超过2%。

o系列模型的共同创造者Noam Brown在上周五表示，OpenAI在宣布o1模型后的仅仅三个月就发布了o3模型，AI性能的进步速度令人印象深刻：

“我们有充分的理由相信，这一发展轨迹将继续下去。”

价格昂贵的o3

尽管o3模型让人们重新相信AI扩展法则的进展，但也并非十全十美：o3使用了前所未见的计算量，这意味着每个答案的成本更高了。

Clark在博客中写道：

“或许唯一需要注意的点是，o3之所以表现得更好，部分原因在于它在推理时的运行成本更高——能够利用“测试时扩展”意味着在某些问题上，你可以通过增加计算资源得到更好的答案。这很有意思，因为它使得运行AI系统的成本变得更加难以预测——之前，你只需通过查看模型本身以及生成某个输出的成本，就能估算出运行生成模型的费用。”

再一次回到这张图，除了o3在纵坐标上获得的极高得分，o3在横坐标上也一骑绝尘——o3的高得分版本在每个任务上使用了超过1000美元的计算资源，而o1在每个任务上仅仅使用了约5美元的计算资源，o1-mini在每个任务上只用了几美分。

ARC-AGI基准测试的创造者Francois Chollet在博客中写道：

“OpenAI为了生成88%的得分，使用了比o3高效版本多出约170倍的计算资源，而高效版本的得分仅比高得分版本低12%。”

Chollet继续补充道：

“o3是一个能够适应之前从未遇到的任务的系统，可以说在ARC-AGI领域的表现已经接近了人类的水平，当然，这种通用性的代价很高，且目前还不具备经济效益。”

不过，现在讨论具体定价还为时尚早了，毕竟，AI模型的价格在过去一年中大幅下跌，OpenAI也尚未宣布o3的实际费用。更值得探究的是，o3高昂计算价格显示出，突破当前领先AI模型的性能门槛，到底需要多大的计算量。

仍有局限的o3

虽然o3在各类测试中表现出色，但它确实不是十全十美的。

分析师指出，o3或其后继模型不会成为像GPT-4或谷歌搜索这样的“日常使用工具”，因为这些模型使用了过多的计算资源，无法回答日常的小问题，比如“克里夫兰布朗队怎么才能有机会进入2024年季后赛”。

是的，使用了“扩展测试时计算”的AI模型可能仅适用于更宏观的问题，比如“克里夫兰布朗队如何在2027年成为超级碗冠军队”。但是，只有当你是克里夫兰布朗队的总经理时，使用这些工具来做出重大决策，可能才值得你付出如此高昂的计算成本。

正如沃顿商学院教授Ethan Mollick在指出的那样，只有财力雄厚的机构才有可能负担得起o3，至少在初期是这样。

目前，OpenAI发布了一个200美元的订阅层级，供用户使用高计算版本的o1，但根据报道，OpenAI最近还在考虑推出价格为2000美元的订阅层级——看到o3使用的计算资源后，可以理解为什么OpenAI会如此考虑了。

此外，虽然o3在ARC-AGI基准测试中的出色表现标志着AI模型的进步，但是，通过这一测试并不意味着AI模型已经达到了通用人工智能（AGI），毕竟，o3在一些非常简单的任务上仍然失败了，而这些任务人类可以轻松完成——显然，o3和“测试时扩展”仍未解决大语言模型的幻觉问题。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

o3意味着什么？2025年“缩放定律”继续，成本更贵也更不可控

AI在2025年的进步将比2024年更快，o3就是证据

表现出众的o3

价格昂贵的o3

仍有局限的o3

谷歌I/O大会All in AI：Gemini模型上新，搜索框25年来最大改版，AI眼镜回归，Spark智能体首秀

谷歌I/O大会今夜揭幕： Gemini 4.0悬念、全栈智能体与AI购物

谷歌I/O大会前瞻：Gemini 4.0要来了？但这不是最重要的

DeepSeek V4“寄予厚望”！国产算力“进攻的矛”--超节点

算力租赁：中国AI新核心资产