为了紧急对抗谷歌的Gemini 3 ,OpenAI 刚刚推出了GPT-5.2,sam Altman 叫喊这是很长时间以来最大的更新

基准测试分数官方的发布博客文章都有,跑分屠榜,编程能力非常强,但现在的这些分数看看就好了,感兴趣的看这里
https://openai.com/index/introducing-gpt-5-2/

GPT-5.2 的幻觉减少了大约 30-40%

价格更贵了

另外圣诞节还有发布,估计是图像模型更新?ChatGPT 的“成人模式”目前计划于明年第一季度推出

这里我分享一下大神OthersideAI CEO Matt Shumer 对 GPT-5.2 深度评测,这哥们已经拿到内测两周了
核心要点先放在前面:
指令遵循和任务意愿:GPT-5.2 Thinking 在指令遵循和尝试完成困难任务的意愿上,迈出了有意义的一步
代码生成能力提升巨大:比 GPT-5.1 好得多。能力更强、更自主、更谨慎,并且愿意编写多得多的代码
视觉和长上下文:大幅改进,尤其是在理解图像中的位置和处理大型代码库方面
速度是主要缺点:作者体验中,Thinking 模式在处理大多数问题时都非常慢(尽管其他测试者反馈不一)。他几乎从不使用 Instant 模式
GPT-5.2 Pro:在深度推理方面强到离谱,但速度很慢,而且偶尔会陷入长时间思考后仍然失败的境地
Codex CLI:GPT-5.2 是作者在命令行工具中使用过的最接近 Pro 级编码能力的模型,但实现这一能力的高级推理模式有时需要漫长的等待
以下是详细评测内容。
GPT-5.2 Thinking:直觉的提升
GPT-5.2 最引人注目的地方在于它遵循指令的方式——不是基础的“我说你做”,而是“真正完成我所描述的整个任务”
作者举了一个例子。在测试创意写作时,他要求模型先想出50个情节构思,然后再选出最好的一个来写故事。大多数模型会走捷径,可能只给出10个想法,选一个就开始。
而 GPT-5.2 确实生成了全部50个构思,然后才进行选择。这听起来是小事,但并非如此。在进行创意工作或研究时,多出来的40个想法中可能就包含了那个真正有趣的火花。模型信任流程,而不是为了速度而优化,这一点至关重要。
作者进一步测试,要求它写一本200页的书。虽然书页内容本身很弱且简短,模型还无法一次性写出可出版的小说,但令人印象深刻的是,它确实尝试去做了。它构建了整本书的结构,甚至设置成了PDF格式。大多数模型会假设自己做不到,甚至不会尝试,它们会告诉你“这太长了”,或者只给你一个大纲
GPT-5.2 则是直接上手。这种愿意尝试宏大任务(即便不完美)的意愿,开启了新的工作流。
代码生成:真正的进步
GPT-5.2 在代码生成方面确实比以前的模型有了巨大进步。它写的代码质量更高,能处理的任务也更庞大
例如,作者用 Three.js 动画来压力测试其空间推理能力。他要求模型构建一个棒球场景,它生成的风格比大多数模型更逼真(纹理/光照效果很棒),但空间感知和物体放置仍有很大改进空间

此外,该模型愿意编写比之前版本多得多的代码,并且能持续工作更长时间不中断。这是实实在在的能力提升。
视觉和长上下文
5.2 版本的视觉能力有显著提升。它对图像的理解,特别是位置和空间关系,有了很大的不同(尽管空间生成能力仍在开发中)。这对操作计算机的智能体来说是个好消息。
它的长上下文能力也很出色。在处理大型代码库、大量数据和长篇分析时感觉比以前更稳定,这也是 GPT-5.2 在智能体编码工作流中表现出色的原因之一。
作者在这里吐槽了一点:模型已经变得如此强大,但 OpenAI 的 ChatGPT 界面却完全没跟上。例如,ChatGPT 中的 Canvas 界面仍然无法处理大量代码。他最初在 Canvas 中尝试 Three.js 测试,但模型输出的代码量超出了 Canvas 的处理能力
另外,Pro 模式仍然只能在 ChatGPT 内部使用,而不能在 Codex CLI 中使用,这让作者持续感到沮丧。为了解决这个问题,他使用一个叫 RepoPrompt 的工具:将本地代码库转成提示词粘贴给 5.2 Pro,再把模型的回答粘贴回 RepoPrompt,由后者将变更应用到代码库。虽然多了一个步骤,但这让他能在真实代码库上利用 Pro 级别的推理能力。
风格
用过 OpenAI 模型的人都知道它们对项目符号(bullet points)的执着。GPT-5.2 延续了这一传统。当你让它解释某件事时,往往会得到一个项目符号列表,而其实几段清晰的文字效果会更好。通过精心设计提示词(比如明确要求流畅的散文风格),可以规避这个问题。
除了项目符号,写作风格整体有所改善。虽然不是对 GPT-5.1 的巨大飞跃,但确实更好了一些
积极的一面是,GPT-5.2 学会了在回答中保持简洁。当我问一些简单问题时,偶尔能得到简单的答案。作者表示,虽然这还没成为默认行为,但已是进步。
速度问题
这一点影响了作者的日常使用:标准的 GPT-5.2 Thinking 很慢。根据他的经验,即使是简单直接的问题,速度也非常非常慢。不过,他也提到其他测试者报告了不同的速度表现,有些任务快,有些任务慢。
在实际工作中,这意味着他很少使用 GPT-5.2 Thinking。他的工作流变成了:
-
• 快速问题 → Claude Opus 4.5
-
• 深度推理 → GPT-5.2 Pro
标准的 Thinking 模型处于一个尴尬的中间地带:比 Opus 慢,又没有 Pro 完整的推理优势。
各模型横向对比
作者同时使用 Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2,它们在他的工作流中形成了明确分工:
用于快速提问:“X的语法是什么”或“提醒我Y如何工作”这类问题Claude Opus 4.5 胜出。它更快,更直接。
用于研究和复杂推理:GPT-5.2 Pro 明显更胜一筹。当任务需要从多个角度思考、需要整合大量上下文时,Pro 的表现最优
用于前端UI生成:GPT-5.2 Thinking 和 Pro 都比之前的 GPT 模型有进步,但两者都不及 Gemini 3 Pro。这里的区别很微妙:Gemini 3 Pro 有最好的审美感,其 UI 看起来很棒。但它在布局和前端工程方面的可靠性稍差。所以,如果需要功能正确、能处理边缘情况的UI,作者还是会用 Opus 或 GPT。如果只是追求漂亮,并愿意自己修复代码,Gemini 3 Pro 是目前最佳选择
GPT-5.2 Pro:一个缓慢的天才
Pro 模式是真正有趣的地方。它是一个独立的系统,且只在 ChatGPT 中可用。
简而言之:Pro 聪明到离谱。Thinking 和 Pro 之间的智能差距立即可见。但比原始智能更重要的是 Pro 的思考意愿。它会花费比以往 Pro 模型长得多的时间来解决一个问题。对于研究任务,如果需要,它会进行极长时间的资料搜集。
食谱测试
作者举了一个具体例子。他向模型寻求膳食计划帮助,并强调自己“没有时间做饭”,需要一个7天的计划(每天三餐两点)。
Pro 提供了出色的食谱计划,但最突出的是它的配料表——比其他模型建议的简单得多。它理解了“没时间”不仅限制了烹饪时间,也限制了购物的复杂性、准备工作和心力开销。它领会了作者的心态,而不仅仅是字面请求。
作者表示,看到这种程度的理解相当令人震惊。他把同样的提示发给了所有其他前沿模型,没有一个考虑到这一点。
提示词编写
GPT-5.2 非常擅长编写提示词,这对于充分利用 AI 模型和构建集成 LLM 的软件都很有帮助。它写的提示词考虑周到,并且能预见到作者未曾考虑的边缘情况。在这方面,它与 Claude Opus 4.5 不相上下,并且明显优于 Gemini 3 Pro。
Codex CLI 实测
在 Codex CLI 中,作者对 GPT-5.2 进行了广泛测试,结果是越用越印象深刻。这是他所见过的在命令行中最接近 Pro 级模型的体验。它一次性做对的频率远超其他工具。美中不足的是,他只能使用“超高推理模式”,这个模式有时会花费漫长的时间,甚至比 Pro 还慢。
其自主性比以前的模型有明显提升。但真正的区别在于它收集上下文的方式。Claude Opus 4.5 倾向于在完全理解问题前就开始写代码,它会做出假设,然后碰壁。
而 GPT-5.2 不会这样。它会先提问、读取文件、探索代码库。先收集上下文,再编写代码。
这改善了作者的工作流。他检查模型工作的次数越来越少。除非任务至关重要(例如生产代码),他常常让它直接运行而不审查每一处更改。
一些小怪癖
作者也遇到了一些 Pro 模式的奇怪行为。它似乎会卡在相互冲突的指令之间,在犹豫几分钟后,把一个简单的任务退回给用户。偶尔,它会思考很长时间,然后仍然失败,这非常浪费时间。据称 OpenAI 已经知晓并正在调查。
使用场景总结
经过两周测试,作者给出了他的实用分工:
-
1. 快速提问和日常任务:Claude Opus 4.5 仍是首选。它快、准,不浪费时间。
-
2. 深度研究、复杂推理:GPT-5.2 Pro 是目前最好的选择。在这种场景下,正确性比速度更重要。
-
3. 前端样式和UI美学:Gemini 3 Pro 目前能生成最好看的结果,但需要准备好自己做一些工程清理工作。
-
4. 在 Codex CLI 中进行严肃的编码工作:GPT-5.2 是首选,其上下文收集行为和可靠性使其成为智能体编码任务的默认选项。
最后总结
GPT-5.2 是一次真正的改进。指令遵循能力明显提高,Pro 模式的智能和可靠性令人印象深刻。对于需要审慎推理的复杂任务,这是作者用过的最好的模型。
然而,标准 Thinking 模型的速度问题使他日常很少使用。他最终的用法是:快速任务用 Opus 4.5,深度工作用 Pro。
但对于那些 GPT-5.2 擅长的任务,它的表现确实非常亮眼
source:
https://shumer.dev/gpt52review
来源:AI寒武纪



