GPT-5.2首发评测：很强，能执行复杂深度任务，但慢得抓狂

AI寒武纪

2025/12/12 08:01

来源：华尔街见闻（Wallstreetcn）

作者： AI寒武纪

发布： 2025年12月12日 08:01（北京时间）

核心要点

GPT-5.2在深度推理与代码生成上展现出“强到离谱”的能力，其遵循复杂指令的意愿和任务完成度显著超越前代
然而，评测同时指出，其标准“思考”模式速度过慢，严重影响了日常使用体验，导致用户不得不在速度与深度之间根据任务需求切换不同模型

GPT-5.2在深度推理与代码生成上展现出“强到离谱”的能力，其遵循复杂指令的意愿和任务完成度显著超越前代。然而，评测同时指出，其标准“思考”模式速度过慢，严重影响了日常使用体验，导致用户不得不在速度与深度之间根据任务需求切换不同模型。

为了紧急对抗谷歌的Gemini 3 ，OpenAI 刚刚推出了GPT-5.2，sam Altman 叫喊这是很长时间以来最大的更新

基准测试分数官方的发布博客文章都有，跑分屠榜，编程能力非常强，但现在的这些分数看看就好了，感兴趣的看这里

https://openai.com/index/introducing-gpt-5-2/

GPT-5.2 的幻觉减少了大约 30-40%

价格更贵了

另外圣诞节还有发布，估计是图像模型更新？ChatGPT 的“成人模式”目前计划于明年第一季度推出

这里我分享一下大神OthersideAI CEO Matt Shumer 对 GPT-5.2 深度评测，这哥们已经拿到内测两周了

核心要点先放在前面：

指令遵循和任务意愿：GPT-5.2 Thinking 在指令遵循和尝试完成困难任务的意愿上，迈出了有意义的一步

代码生成能力提升巨大：比 GPT-5.1 好得多。能力更强、更自主、更谨慎，并且愿意编写多得多的代码

视觉和长上下文：大幅改进，尤其是在理解图像中的位置和处理大型代码库方面

速度是主要缺点：作者体验中，Thinking 模式在处理大多数问题时都非常慢（尽管其他测试者反馈不一）。他几乎从不使用 Instant 模式

GPT-5.2 Pro：在深度推理方面强到离谱，但速度很慢，而且偶尔会陷入长时间思考后仍然失败的境地

Codex CLI：GPT-5.2 是作者在命令行工具中使用过的最接近 Pro 级编码能力的模型，但实现这一能力的高级推理模式有时需要漫长的等待

以下是详细评测内容。

GPT-5.2 Thinking：直觉的提升

GPT-5.2 最引人注目的地方在于它遵循指令的方式——不是基础的“我说你做”，而是“真正完成我所描述的整个任务”

作者举了一个例子。在测试创意写作时，他要求模型先想出50个情节构思，然后再选出最好的一个来写故事。大多数模型会走捷径，可能只给出10个想法，选一个就开始。

而 GPT-5.2 确实生成了全部50个构思，然后才进行选择。这听起来是小事，但并非如此。在进行创意工作或研究时，多出来的40个想法中可能就包含了那个真正有趣的火花。模型信任流程，而不是为了速度而优化，这一点至关重要。

作者进一步测试，要求它写一本200页的书。虽然书页内容本身很弱且简短，模型还无法一次性写出可出版的小说，但令人印象深刻的是，它确实尝试去做了。它构建了整本书的结构，甚至设置成了PDF格式。大多数模型会假设自己做不到，甚至不会尝试，它们会告诉你“这太长了”，或者只给你一个大纲

GPT-5.2 则是直接上手。这种愿意尝试宏大任务（即便不完美）的意愿，开启了新的工作流。

代码生成：真正的进步

GPT-5.2 在代码生成方面确实比以前的模型有了巨大进步。它写的代码质量更高，能处理的任务也更庞大

例如，作者用 Three.js 动画来压力测试其空间推理能力。他要求模型构建一个棒球场景，它生成的风格比大多数模型更逼真（纹理/光照效果很棒），但空间感知和物体放置仍有很大改进空间

此外，该模型愿意编写比之前版本多得多的代码，并且能持续工作更长时间不中断。这是实实在在的能力提升。

视觉和长上下文

5.2 版本的视觉能力有显著提升。它对图像的理解，特别是位置和空间关系，有了很大的不同（尽管空间生成能力仍在开发中）。这对操作计算机的智能体来说是个好消息。

它的长上下文能力也很出色。在处理大型代码库、大量数据和长篇分析时感觉比以前更稳定，这也是 GPT-5.2 在智能体编码工作流中表现出色的原因之一。

作者在这里吐槽了一点：模型已经变得如此强大，但 OpenAI 的 ChatGPT 界面却完全没跟上。例如，ChatGPT 中的 Canvas 界面仍然无法处理大量代码。他最初在 Canvas 中尝试 Three.js 测试，但模型输出的代码量超出了 Canvas 的处理能力

另外，Pro 模式仍然只能在 ChatGPT 内部使用，而不能在 Codex CLI 中使用，这让作者持续感到沮丧。为了解决这个问题，他使用一个叫 RepoPrompt 的工具：将本地代码库转成提示词粘贴给 5.2 Pro，再把模型的回答粘贴回 RepoPrompt，由后者将变更应用到代码库。虽然多了一个步骤，但这让他能在真实代码库上利用 Pro 级别的推理能力。

风格

用过 OpenAI 模型的人都知道它们对项目符号（bullet points）的执着。GPT-5.2 延续了这一传统。当你让它解释某件事时，往往会得到一个项目符号列表，而其实几段清晰的文字效果会更好。通过精心设计提示词（比如明确要求流畅的散文风格），可以规避这个问题。

除了项目符号，写作风格整体有所改善。虽然不是对 GPT-5.1 的巨大飞跃，但确实更好了一些

积极的一面是，GPT-5.2 学会了在回答中保持简洁。当我问一些简单问题时，偶尔能得到简单的答案。作者表示，虽然这还没成为默认行为，但已是进步。

速度问题

这一点影响了作者的日常使用：标准的 GPT-5.2 Thinking 很慢。根据他的经验，即使是简单直接的问题，速度也非常非常慢。不过，他也提到其他测试者报告了不同的速度表现，有些任务快，有些任务慢。

在实际工作中，这意味着他很少使用 GPT-5.2 Thinking。他的工作流变成了：

• 快速问题 → Claude Opus 4.5
• 深度推理 → GPT-5.2 Pro

标准的 Thinking 模型处于一个尴尬的中间地带：比 Opus 慢，又没有 Pro 完整的推理优势。

各模型横向对比

作者同时使用 Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2，它们在他的工作流中形成了明确分工：

用于快速提问：“X的语法是什么”或“提醒我Y如何工作”这类问题Claude Opus 4.5 胜出。它更快，更直接。

用于研究和复杂推理：GPT-5.2 Pro 明显更胜一筹。当任务需要从多个角度思考、需要整合大量上下文时，Pro 的表现最优

用于前端UI生成：GPT-5.2 Thinking 和 Pro 都比之前的 GPT 模型有进步，但两者都不及 Gemini 3 Pro。这里的区别很微妙：Gemini 3 Pro 有最好的审美感，其 UI 看起来很棒。但它在布局和前端工程方面的可靠性稍差。所以，如果需要功能正确、能处理边缘情况的UI，作者还是会用 Opus 或 GPT。如果只是追求漂亮，并愿意自己修复代码，Gemini 3 Pro 是目前最佳选择

GPT-5.2 Pro：一个缓慢的天才

Pro 模式是真正有趣的地方。它是一个独立的系统，且只在 ChatGPT 中可用。

简而言之：Pro 聪明到离谱。Thinking 和 Pro 之间的智能差距立即可见。但比原始智能更重要的是 Pro 的思考意愿。它会花费比以往 Pro 模型长得多的时间来解决一个问题。对于研究任务，如果需要，它会进行极长时间的资料搜集。

食谱测试

作者举了一个具体例子。他向模型寻求膳食计划帮助，并强调自己“没有时间做饭”，需要一个7天的计划（每天三餐两点）。

Pro 提供了出色的食谱计划，但最突出的是它的配料表——比其他模型建议的简单得多。它理解了“没时间”不仅限制了烹饪时间，也限制了购物的复杂性、准备工作和心力开销。它领会了作者的心态，而不仅仅是字面请求。

作者表示，看到这种程度的理解相当令人震惊。他把同样的提示发给了所有其他前沿模型，没有一个考虑到这一点。

提示词编写

GPT-5.2 非常擅长编写提示词，这对于充分利用 AI 模型和构建集成 LLM 的软件都很有帮助。它写的提示词考虑周到，并且能预见到作者未曾考虑的边缘情况。在这方面，它与 Claude Opus 4.5 不相上下，并且明显优于 Gemini 3 Pro。

Codex CLI 实测

在 Codex CLI 中，作者对 GPT-5.2 进行了广泛测试，结果是越用越印象深刻。这是他所见过的在命令行中最接近 Pro 级模型的体验。它一次性做对的频率远超其他工具。美中不足的是，他只能使用“超高推理模式”，这个模式有时会花费漫长的时间，甚至比 Pro 还慢。

其自主性比以前的模型有明显提升。但真正的区别在于它收集上下文的方式。Claude Opus 4.5 倾向于在完全理解问题前就开始写代码，它会做出假设，然后碰壁。

而 GPT-5.2 不会这样。它会先提问、读取文件、探索代码库。先收集上下文，再编写代码。

这改善了作者的工作流。他检查模型工作的次数越来越少。除非任务至关重要（例如生产代码），他常常让它直接运行而不审查每一处更改。

一些小怪癖

作者也遇到了一些 Pro 模式的奇怪行为。它似乎会卡在相互冲突的指令之间，在犹豫几分钟后，把一个简单的任务退回给用户。偶尔，它会思考很长时间，然后仍然失败，这非常浪费时间。据称 OpenAI 已经知晓并正在调查。

使用场景总结

经过两周测试，作者给出了他的实用分工：

1. 快速提问和日常任务：Claude Opus 4.5 仍是首选。它快、准，不浪费时间。
2. 深度研究、复杂推理：GPT-5.2 Pro 是目前最好的选择。在这种场景下，正确性比速度更重要。
3. 前端样式和UI美学：Gemini 3 Pro 目前能生成最好看的结果，但需要准备好自己做一些工程清理工作。
4. 在 Codex CLI 中进行严肃的编码工作：GPT-5.2 是首选，其上下文收集行为和可靠性使其成为智能体编码任务的默认选项。

最后总结

GPT-5.2 是一次真正的改进。指令遵循能力明显提高，Pro 模式的智能和可靠性令人印象深刻。对于需要审慎推理的复杂任务，这是作者用过的最好的模型。

然而，标准 Thinking 模型的速度问题使他日常很少使用。他最终的用法是：快速任务用 Opus 4.5，深度工作用 Pro。

但对于那些 GPT-5.2 擅长的任务，它的表现确实非常亮眼

source：

https://shumer.dev/gpt52review

来源：AI寒武纪

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。