GPT-5真的拉胯吗？网友：还我4o、还我4.5

机器之心

2025/08/09 01:19

宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 认为，由于 GPT-5 是个集成模型，其中一些模型表现优异，而另一些则较为平庸。 OpenAI 并未公开底层模型选择的细节，这种不透明性可能导致用户对 GPT-5 的表现感到困惑。

一觉醒来，朋友圈被 GPT-5 刷了屏。

在昨晚长达一个多小时的发布直播中，OpenAI 介绍了 GPT-5 的性能，演示了诸多实用案例，在此不赘述，感兴趣的朋友可以移步：刚刚，奥特曼发布 GPT-5！人人免费用「博士级」智能，基准图错误遭全网吐槽。

奥特曼发推表示，GPT-5 是我们迄今为止最智能的模型。

LMArena 基准测评结果也已出炉，GPT-5 在文本、网页开发、视觉领域、难题、编程、数学、创意、长查询等各个领域都排名第一。

不过，网上对 GPT-5 的评价褒贬不一。

有人表示，提前体验 GPT-5 将近两周，发现它展现了巨大的进步，超越了之前的版本，并且在科学推理、事实准确性和创意表达方面达到了新的高度。

网友 @emollick 则认为 GPT-5 非常聪明，并且能完成各种任务，是一个非常重大的突破。

比如让它制作一个程序化的野兽派建筑生成器，可以以酷炫的方式拖拽和编辑建筑、并不断改进它。

也有人表示，GPT-5在前端体验、减少幻觉和提升写作质量方面有显著改进，免费用户和企业用户将感受到明显的提升。

但也有不少人给出了差评。

网友 @petergyang 让 GPT-5 制作一个《Flappy Bird》小游戏，GPT-5 生成的游戏网页根本点不进去。

同时，他还贴脸开大，拉来 Claude Sonnet4 与之对比，输入同样的提示词，Claude Sonnet4 生成效果相当不错，画风可爱、真实可玩。

还有网友使用 GPT-5 重构代码库，尽管代码看起来非常漂亮、整洁，但最终并没有成功运行。

明明都是 GPT-5，为什么大家的体验结果大相径庭？

接下来，我们就奉上一手实测，来看看 GPT-5 是个什么水平。

一手实测

目前，GPT-5已向20%的付费用户推出，机器之心编辑部也被幸运抽中。

升级后的页面长得相当简洁，之前像 GPT-4.5、GPT-4o 等模型图标都消失，取而代之的是 GPT-5、GPT-5 Thinking 和 GPT-5 Pro。

接下来就是实测环节。

先来看看它的写作能力。

我们让它模仿林黛玉的风格，写一篇吐槽工作的段子。

GPT-5 生成的字里行间确实一股子班味，但少了些林妹妹阴阳怪气的调调，比喻句用的倒挺多，但「老板已如寒霜扑面而来」是个什么鬼。

接下来让 GPT-5 讲三个能让人笑抽风的笑话，完全 get 不到它的笑点在哪里：

再来试试它的中文理解能力。

我们出了一道像绕口令的题目：大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借给十舅发给十一舅工资的 1000 元。请问谁才是小偷？

虽然涉及一系列亲戚，但 GPT-5 并没被绕晕，找到偷窃的直接行为人四舅。

而对于那道经典的「木棍过城门」的推理题，GPT-5 依然搞不定。

最后，我们着重测评了它的编码能力。

输入提示「Generate an SVG of a pelican riding a bicycle」（生成鹈鹕骑自行车的 SVG 图像），GPT-5 仅思考 6 秒并很快生成完毕，结果生成的鹈鹕相当潦草，自行车的轮子也和主体分离。

我们又让它使用 p5.js 创建一个精彩的动画，GPT-5 直接罢工了，输出一个黑屏界面。

本以为是提示词太简单导致 GPT-5 难以理解，但相同的内容给到 Gemini，Gemini 给出了结果。

这一波测下来，感觉不像是 GPT-5 的实力，于是我们又让它创建一个动画天气卡片，提示词：「创建一个 HTML 文件，包含 CSS 和 JavaScript，用来生成动画天气卡片，卡片用不同的动画形式直观地表示以下天气状况：风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪)，并排显示所有卡片，底部有一个漂亮的按钮可以切换动画速度。」

看起来，输入详细的提示，GPT-5 表现会好一些。