预期管理失败的奥特曼、无法实现AGI的GPT-5

腾讯科技
83
GPT-5各项都有增量,但没有超出预期。能力的量变而不是质变。在奥特曼连续一两年营造情绪期待之后,用户对它的期望值被推得很高。实事求是地说,它没有达到预期。

在“能力超人类”的预期中,GPT-5赶在8月份上线了。

8月8日凌晨,OpenAI正式发布GPT-5模型,全家桶包含GPT-5、GPT-5 mini、GPT-5 nano和GPT-5 Pro四个版本。

OpenAI用“最智能、最快、最实用” 来评价新模型,如果在这个基础上还要加一个标签,业界普遍认为是“平价”。首先是对C端用户限量免费,其次是对API用户“大降价”——输入1.25美元/百万tokens,而输入只要10美元。

那么,除了让奥特曼成为行业里的“价格屠夫”之外,OpenAI交出的这份作业究竟是否符合预期?

“量变而非质变” “更便宜的 OpenAI与回归开源” “安全与可用性更好的平衡”

8月8日,在腾讯科技、智源社区、清华大学人工智能国际治理研究院联合发起的AGI之路解读直播中,智源研究院数据研究组负责人刘广、华中师范大学人工智能教育学部助理教授熊宇轩、中科大墨子青年学者、清华大学人工智能国际治理研究院青年科学家 张辉分别给出了自己的总结。

“(之前)预期过高,实际效果虽有提升(推理、工具调用),但未达预期属于 ‘意料之中的进步’。”刘广说。张辉也给予了类似的评价,“GPT-5 的进步不够 ‘惊艳’,边际效率不高,未满足用户因长期铺垫产生的高预期。”

在刘广看来,GPT-5大量使用合成数据、建立数据分级分类体系,以及开发通用的数据质量评估模型,这些工程层面的优化在一定程度上缓解了高质量数据稀缺的问题,但作为OpenAI的期间模型,GPT-5也表现不足的地方,比如推理相关的研究。

“我们既不清楚推理能力的真正来源,也无法确定什么才是真正有效的推理形式。”刘广说。

GPT-5上线之前,Anthropic和谷歌先后卡位,分别推出Claude opus 4.1、Genie 3世界模型,尤其是前者,公开预热未来还会有新动作,暗示8月份将出现基座模型“热战”。

“OpenAI 受压力不得不推出(GPT-5),”熊宇轩说。

在熊宇轩看来,Anthropic、谷歌、DeepSeek、Kimi等的这些国内外的竞争对手都在推着OpenAI上新。同时,外界对安全的担忧也在逐渐缓和,再加上“多模型路由(Router)”也属于更偏商业的考虑,“这些都在推动 OpenAI 走向 ‘更便宜、更开放’,对行业是好事。”

对于新的多模型路由能力,熊宇轩将其定义为早期MoE的延伸,不属于颠覆性技术突破。“有时像开跑车,有时像用越野车,根据任务灵活调配。”

张辉长期从事安全研究,他和熊宇轩一样关注安全,尤其是GPT-5的 “安全补全” 能力。

“它在安全与可用性之间实现了较好的平衡。”张辉说,尤其是对于GPT-5从“拒答” 转向 “安全补全”,张辉认为这是一个积极的信号。“过去强拒答会损害正常使用, ‘安全补全’ 通过动态阈值、用户意图分类,实现了安全与性能的双向提升,证明安全与创新可共存。”

以下为直播实录全文(在不改变原意的情况下有调整删减):

腾讯科技:首先,可以做一个快速填空题。GPT-3带来了ScalingLaw,GPT-3.5带来了 RLHF,GPT-4 带来了MoE,GPT-4o带来了全模态,o1开辟了推理的新范式。那么,GPT-5带来了什么?可以用一到两个关键词组合来回答,最多不超过两个。

熊宇轩:这次 GPT-5上线,更像是OpenAI商业策略的转向:更便宜、更开放。配合此前的 GPT-OSS,可视为对开源社区的一次回归与拥抱。

张辉:我觉得它的安全补全(safecompletion)机制很值得关注,也给了我不少启发——在安全性与可用性之间找到了一个相对良好的平衡。

刘广:各项都有增量,但没有超出预期。能力的量变而不是质变。

腾讯科技:奥特曼对GPT-5进行了多次隆重的铺垫,那这个模型对于 OpenAI来说到底意味着什么?

刘广:GPT-4o发布已经有一段时间,大家一直期待GPT-5。据说内部经历了多轮“赛马”,淘汰了不少版本,主要因为数据问题和训练过程中的意外导致性能达不到预期。其中一个关键障碍是“数据墙”——高质量数据几乎没有增量。后来,团队通过合成数据等手段缓解了这一问题。

从最新版本来看,GPT-5在推理能力和调用工具能力上都有显著提升。技术报告和system card 中提到,训练中不仅使用了学者贡献的数据,也利用了模型生成的数据;在数据处理上,还进行了分级分类,将可信和非可信来源区分开,并辅以人工与模型联合筛选。经过这一系列数据工作的打磨,GPT-5在安全性和推理能力上的提升是预料之中的。

只是因为研发周期拉得很长,外界期望值又很高,所以发布后的效果更像是一种“情理之中”的结果。

张辉:我比较赞同刘老师的看法——GPT-5的确不够惊艳。

在奥特曼连续一两年营造情绪期待之后,用户对它的期望值被推得很高。实事求是地说,它没有达到预期。不过,从个人零星的测试和体验来看,仍有一些值得学习和借鉴的地方,甚至包括它失败的经验。

就这款产品而言,未达预期其实也是意料之中的。尤其值得注意的是,奥特曼自己的表述也发生了变化——从最初的“已经实现通用人工智能”,到后来的“还没有实现”。这种话术转变,本身就说明了外界期望与实际进展之间的落差。

熊宇轩:我认为,GPT-5更像是一个信号,标志着行业进入新的转折点。它或许不是一次颠覆性的技术创新,但从模型架构到数据收集,都体现出大模型发展已进入新的阶段。

回想GPT-4发布时,安全问题曾引发广泛担忧,甚至有人呼吁暂停GPT-5 的研发,奥特曼当时也说短期内不会推出。但几年过去,GPT-5还是来了,这至少说明两点:

第一,行业变化极快、竞争激烈,迫使OpenAI不得不加速前进;

第二,从安全角度看,许多曾经的担忧被证明没有想象中那样直接威胁人类,且已有多种可行的控制手段。

对OpenAI 来说,GPT-5更多是商业层面的布局。例如新版本的模型路由(Router),本质上只是早期 MoE 的延伸——有时像开跑车,有时像用越野车,根据任务灵活调配,并非颠覆性技术突破。

但它带来的结果是模型更便宜、更开放、更易用。这不仅对OpenAI自身有益,也会推动整个行业朝着更可用、更普及的方向发展。

腾讯科技: Plus用户在账号上只能看到GPT-5,其他的历史模型都不见了。是不是未来OpenAI想用这样一个大一统的模型去统一所有的模型?

张辉:我觉得原因可能有多方面。直觉上,首先是站在用户角度做了操作简化——在商业竞争激烈、竞品纷纷简化设置的背景下,这样做能提升易用性。其次,从品牌管理来看,OpenAI现在的品牌效应极大,把系列产品整合进GPT-5,有助于形成统一品牌形象,这在管理上是科学合理的。

最后,也不能排除技术创新的因素——比如Router的引入,到底属于怎样的创新?它如何自动识别用户提示词和意图?这里面是否隐藏着更深的技术突破,还需要继续观察。

腾讯科技:怎么看这种多模型路由架构?它可以根据需求自由选择调用哪个模型的能力,这算是多大的创新?

熊宇轩:其实模型之间本来就有分工,体现在功能和规模上。这个思路并不新,比如清华黄高老师很早就提出过“动态神经网络”——根据任务难度动态选择网络结构。到了大模型时代,理念还是一样的。

GPT-5 中既有需要thinking的推理模型,也有不需要thinking的模型;前者资源占用更高、运行时间更长。这样做,一方面能帮用户省钱,另一方面也能降低自身运营负载,从而提供更好的整体体验。所谓“大统一模型”更多是一个概念包装,背后既有技术考量,也有商业运营上的策略因素。

刘广:路由这个概念,学术界早就有研究,工业界也早有实践,比如前段时间 360 就尝试过多 Agent 或多模型融合的路由机制。OpenAI的不同之处,可能是在效果、体验和工程优化上做得更好。

从创新角度看,它更多是把已有思路做到极致——就像GPT-3时代,通过单纯扩大规模就显著提升了能力一样。在这个方向上,GPT-5属于工程层面的极致优化,由此带来更好的体验和一定的能力提升,这是一种偏工程性的创新。

腾讯科技:让GPT-5 计算“9.9 − 9.11”,不开thinking模式是错的,开启后就对了。为什么?这里的技术难点是不是仍然很大?

刘广:难点在于何时需要推理、何时不需要。人类会本能判断并在需要时用工具;模型没有先验,且并不擅长精确数值计算。从这个角度看,它算错并不意外。按理说它可以调用内置工具(如 Python),但如何在合适的时机自动调用合适的工具、以及是否触发推理,目前仍是瓶颈。

腾讯科技:像这种“小学数学题”,或者“识别图片里有几根手指”这类人类一眼就能看出的任务还没完全解决,这是不是大模型“刻在基因里”的缺陷?

张辉:从安全治理角度看,这更像是内生风险。模型缺乏人类的先验与世界常识,对“什么时候需要推理”本身的理解不足。它主要通过“刷题”式学习,数据里可能很少遇到“9.9 − 9.11”这样的边界案例。

至于你点开thinking按钮后,背后到底是架构级的创新,还是只是触发了外部工具,两者意义差别很大。但根子上,这依然是内生性问题:没有先验、难以自适应地判断是否需要推理与何时调用工具。

腾讯科技:在AI for医疗或for science这样的复杂领域,GPT-5 的能力进化能在多大程度上提供帮助?发布后是否解锁了新的应用场景?

熊宇轩:OpenAI自己宣称,在医疗和经济数据等领域的表现都非常好,达到SOTA水平。但这些领域最核心的问题是结果是否可信。过去我们谈到幻觉问题,可以通过RAG引入外部知识来缓解。GPT-5在数据构造、清洗和质量提升上确实有自己的方法,但这更多是工程优化。

至于推理,我们当然希望它能真正发挥作用,但它究竟能做到哪一步,仍有待验证。现在的 CoT(思维链)是不是真正的推理,学术界也有争议。尤其在医疗这种关乎生命安全的领域,更需要以谨慎而乐观的态度看待它的发展。

腾讯科技:所以OpenAI目前也还没有真正解决——究竟什么时候该让模型进行推理,什么才是最合适的推理?

熊宇轩:它确实把这个问题抛了出来,并且声称现在的模型 Router 就是在解决这件事。但效果到底如何,还需要观察一段时间。

刘广:顺着熊老师的观点,现在学界还在探讨——什么才是真正的大模型推理?是显式的 CoT(思维链),还是隐式的推理?推理的形式究竟应该是什么样?更关键的是,我们其实并不清楚推理能力是怎么产生的,那又该如何提升?这是一个很大的谜团。

比如 Bengio 的文章就指出,现在的CoT往往并不忠实(faithful)。如果推理过程和最终答案不一致,那么基于推理链的监控也就失效。这样一些原理性问题不解决,很难为下一步发展铺路。

从数据角度看,是否构造大量推理数据就能提升推理能力?这又引出了新问题:这种能力是自然涌现的,还是通过强化学习得来的?答案并不确定。所以,OpenAI 提出的很多功能,背后的机理可能仍然缺乏足够解释。

腾讯科技:这次GPT-5在数据领域有哪些创新?又是如何应对高质量数据不够用的问题?

刘广:过去大家都说遇到了“数据墙”,高质量数据基本用完了。一条可行路径就是使用合成数据——当模型能力足够强时,就可以生成接近人类产出的数据。我认为GPT-5很可能大量采用了这种方式。实际上,国内不少公司,比如 DeepSeek、千问,也都在预训练中引入合成数据,这已经成为业内公认的手段。

另一个有意思的例子是IMO数学竞赛金牌事件。OpenAI 抢先宣布获奖,背后依托的是一套通用的强化学习方法和一个通用推理模型。这类模型的难点在于如何给没有标准答案的问题打分;如果解决了这个机制,就能用来筛选和评估数据。

从GPT-5的技术报告看,他们对信息来源进行了分类,并用统计方法和模型打分,这与reward model的设计密切相关。有人认为,这可能是此前“超级对齐”团队留下的技术遗产。

张辉:从安全角度看,数据源保真是很必要的。这次GPT-5的一大亮点,是提出以输出为中心的安全策略。听起来像常识,但它之所以特别提,是因为在输入阶段,涉及用户意图识别的问题。可能一开始模型在这方面有所偏差,现在又回到正确路径上来。

这对我有启发——从输出端来谈内容安全确实没错。至于现实中的挑战,比如数据源和幻觉问题,技术上都可以处理。GPT-5 强调的意图识别,如果真的能准确分类用户意图,就能让安全策略更加多样。

不过,OpenAI也承认,即便做了意图分类,仍会出现有害输出,这是不可避免的,我觉得这种承认本身体现了实事求是的态度。

腾讯科技:即使GPT-5这次能力跃升低于预期,从商业角度,它能否带来更多用户和API收入?

熊宇轩:在全球范围内,应该还是会有增长的。毕竟OpenAI是行业的引领者,一旦发布新产品,总有人会去尝试。但在国内,这个效果就不一定了。现在国内的大模型已经很强,日常工作场景完全能胜任。

有时差距不大,我反而更倾向用国内模型,比如 DeepSeek、豆包、千问,这些在日常编程等任务中已经非常好用。

刘广:OpenAI在一些应用场景上依然是断档式领先,比如 deep research、信息收集整理,幻觉率极低。但竞争压力同样巨大,尤其是来自 Claude。GPT-5 这次提出了并行 Agent 的支持,但还需要时间验证,到底能否在实际表现上超越Claude。

国内很多公司,比如 Kimi 的K2,已经兼容Claude的生态。这背后其实反映了两种理念的差异:OpenAI坚持一个大模型打天下,而Claude走的是工业化路径——小步快跑、构建工具生态。目前来看,产业界和个人开发者更偏向于Claude这种路线。

熊宇轩:但这次也能看出,OpenAI正在尝试新的方向。它的这个router,在某种程度上可以看作是对Agent的一种编排。从这一点来看,OpenAI确实已经被逼到不得不去做这样的尝试。

腾讯科技:未来这些模型公司是不是会转向“通用 Agent 生态 + 平台”的模式?

熊宇轩:有可能会走向通用Agent生态,也可能像刘老师说的那样,在模型研发上大家已经差不多了。接下来竞争的重点,可能会落在数据上,比如数据的合成、多样性、有效性、安全性,以及与人类价值观的对齐。

此外,还要关注数据与模型之间的匹配问题——并不是简单生成更多数据就一定好,还需要和模型的架构、规模相适配。

腾讯科技:从普通人的角度看,现在这些模型公司好像又走回了相似的路线,变得越来越同质化,而且价格可能会越卷越低?

刘广:是的,我认为价格肯定会越来越低。现在很多模型都免费了,甚至开源了。DeepSeek 开源之后,反而变成——如果你不把最好的模型开源出来,你就很难在台面上竞争。

但开源有两面性:一方面,它对市场推广很有帮助,可以让很多传统企业快速用起来;另一方面,对 ToB 商业模式是很大的冲击。开源是否可持续,我还不好判断,但可以确定的是,它会让模型的使用成本持续下降,也会让它更加普及。

刘广:我觉得目前还处在起步阶段,不能说完全没有差距。比如谷歌最近推出的视频模型,可能就是一个新的方向——不再卷文本,而是卷视频生成。语言模型是不是已经“卷”到头了?现在还不能下这个结论。

熊宇轩:我们也不是说以后就不研发模型了,只是现阶段,从用户使用的角度看,差异并没有那么大。就像开法拉利和开普通车,在城市限速的情况下,跑得再快也有限。用户的需求就在那,所以哪怕模型在性能上还有差异,最后也很可能走向同质化。

比如谷歌做出了视频模型,你觉得 Meta 后面不会做吗?当大家都做起来之后,又会回到我们刚才提到的循环——从模型到数据,再到安全,数据、算法和算力都会以螺旋式的方式不断上升。

腾讯科技:我们进入下一个更难解决的问题,就是这次提出的“安全补齐”(Safe Completion)。过去模型遇到一些严重的安全问题会直接拒答,而现在转变为安全完成。这种做法能真正实现可用性和安全性的平衡吗?还是说,它是在牺牲安全性、更多地迁就可用性?

张辉:从 GPT-5公布的信息来看,它确实在这方面做了努力尝试。以前那种过于强硬的拒答,其实并不好——很多时候用户并不是在作恶,比如一个小学生学习化学时提出某个问题,如果直接拒答,反而会损害它的有用性。

我们常有惯性思维,觉得安全和创新是对立的,但其实不是。从 GPT-5的结果来看,安全补齐通过算法上的一些创新,不仅没有降低性能,反而带来了整体提升。这说明安全和创新是可以相辅相成的。

我认为这是一个好开端。哪怕只是做一个简单的安全补齐,比如设置动态变化的有害阈值等一系列小的微创新,也能同时提升安全性和性能。这对后续的Agent研发也很有启发意义。

腾讯科技:昨天OpenAI被吐槽的那个错误图表,到底是什么样的失误,才会让他们在这么重要的发布会上犯这样低级的错误?

刘广:我刚才也和几位老师聊过,这种低级错误,很可能是他们自己画完图后,觉得自己的表现特别好,就把分数拉高了一点。至于其他团队成员有没有复核,或者干脆是用 GPT-5 自己去检查的,这就不好说了,但这都有可能导致这样的结果。

张辉:我觉得这也不算意外,毕竟 OpenAI 以前也出现过类似的“观感失误”。有可能是提示词的风格设定,让模型倾向于强调“我特别好,对方特别差”,于是它就在柱状图里不断放大自己的优势。模型自己对这个结果很满意,觉得实现了用户意图。

熊宇轩:我反而觉得更大的可能是他们内部确实太着急了,也说明这次发布会的压力很大,准备得比较仓促。

腾讯科技:前段时间奥特曼接受采访时说,他自己有一种“比起 AI 毫无用处”的感觉。AI 的能力是不是已经迭代到让人类开始怀疑自己的目标感了?留给我们的时间窗口还有多久?

张辉:这个问题确实比较致命,也不好预测。有的人说是 2025 年,有的人说是 2027 年。在我看来,可能奥特曼用大模型的方式和我不太一样。我更多是用它来帮我检索文献,虽然它会生成很多不存在的文献,但也有一些是真的,还会附上原始链接,对做 RAG 很有帮助。你要说用大模型用到瑟瑟发抖、怀疑人生,我目前倒还没有遇到过。

熊宇轩:我觉得这个事情要从两个方面来看。第一,AI 越强,只要我们可控,那肯定是好事,能提升我们的工作效率。至于害怕,我觉得应该用动态的观点去看。它确实会取代一些职业,但也可能催生新的业态。

比如教师这个职业,未来可能会演变成“师-机-生”三方交互的形态,老师的角色会从单纯的知识传授者变成既传授知识,也教学生如何和大模型打交道。所以它既可能让人担忧,也有可喜的一面。我还是倾向于谨慎而乐观地看待它。

刘广:我总体是比较乐观的。就像刚才熊老师提到教育的例子,我注意到OpenAI的GPT-5里也专门有一个面向教育的入口,可能会把思维过程写得更详细,甚至提供 API 去检查作业是否由 AI 生成。一方面是为了辅助学生学习,另一方面又要防止学生作弊,这中间本身就有矛盾。

我认为关键还是可控性。如果 AI 在可控范围内去做这些事,就没问题;但如果不可控,比如之前传闻它拒绝关机、假装关机但实际上没有,那就非常让人毛骨悚然。不过从目前来看,我还是偏乐观的,只要安全机制、沙箱机制设计得足够好,这类风险是有可能在一定程度上被规避的。

熊宇轩:我还是回到开头提到的router(路由)机制。虽然从学术上看,它的创新性并不算特别大,但实际上却重新引领了业界的竞争方向,也为后续的 Agentic AI 发展起到很大推动作用。从商业角度看,它可能让更多人用得起GPT,这点意义不小。

张辉:抛开性能不谈,我觉得它在安全措施和安全治理上有所进步。它通过安全补齐这样的机制创新,让满足用户体验的性能和内容安全实现了同步提升,也给我们提供了一种新的思路——安全不一定要牺牲可用性。

刘广:我认为 OpenAI 在 AGI 的定义和路径上做了一些妥协。过去它强调一个模型能做所有事,现在则是打包一系列模型,再结合 agent 和工具调用往前推进。这种路线调整,本身也是一种现实选择。

本文来源:腾讯科技,原文标题:《预期管理失败的奥特曼、无法实现AGI的GPT-5|AGI之路》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关阅读