打脸OpenAI!谷歌Gemini高级版获IMO 2025官方认证金牌:纯自然语言端到端推理

AI寒武纪
谷歌DeepMind刚刚发布重磅博客,宣布其搭载了 “深度思考”(Deep Think) 能力的高级版Gemini,在2025年国际数学奥林匹克竞赛(IMO)中,以6题解出5题、总分35分的成绩,正式达到金牌标准!

就在全球科技圈还在议论OpenAI抢跑宣称其内部模型拿下IMO金牌之际,真正的“官方认证”王者来了。谷歌DeepMind刚刚发布重磅博客,宣布其搭载了 “深度思考”(Deep Think) 能力的高级版Gemini,在2025年国际数学奥林匹克竞赛(IMO)中,以6题解出5题、总分35分的成绩,正式达到金牌标准!

这一成绩经过了IMO官方协调员的认证,所有解题过程都在4.5小时的比赛时限内完成,并且全程使用自然语言进行端到端的推理

哈哈哈,相比于OpenAI的自我宣称,谷歌拿出了无可辩驳的官方战报,这下我好像终于知道了OpenAI为什么抢跑了,Sam Altman一定是提前知道了什么,我也好像懂了为什么OpenAI不顾IMO组委会反对提前宣称自己的实验模型获得了金牌,一个官方认证的结果一定让sam 寝食难安,如果不提前炒作一下,这个结果一定对OpenAI造成巨大的打击

真正的金牌选手:5道满分,端到端自然语言搞定

这一成就的含金量,体现在以下几个颠覆性的进步上:

从“形式数学”到“自然语言”的飞跃:

还记得去年(IMO 2024)吗?谷歌的AlphaGeometry和AlphaProof虽然达到了银牌标准,但需要人类专家先将自然语言的题目“翻译”成AI能理解的Lean等形式化语言。而今年的Gemini,则实现了端到端的突破,直接读取并理解用自然语言描述的官方题目,然后直接生成严谨的、人类可读的数学证明。这标志着AI的推理能力向人类的直觉和灵活性迈进了一大步

竞赛级效率:

去年的系统需要数天的计算时间。而今年的模型,在4.5小时的竞赛规定时间内就完成了所有解题和证明生成

官方认证,无可争议:

博客明确指出,其模型结果由IMO协调员使用与学生解决方案相同的标准进行官方评分和认证,IMO 主席 格雷戈尔·多利纳尔教授博士:

这是谷歌发布的解题过程,有13页pdf,我反正是看不懂,数学大神请享用挑刺:

谷歌的官宣与OpenAI的抢跑

OpenAI在IMO闭幕式前突然宣称,其一个内部实验模型也达到了金牌水平。然而,这一行为立刻引发了巨大争议:

无视规则: 据悉,IMO组委会曾明确要求OpenAI不要在闭幕式前发布结果,但OpenAI并未听从

缺乏认证: OpenAI的成绩完全是“自我报告”,并未经过IMO官方的独立验证和评分

方法论不透明: 其模型和方法并未在赛前进行任何披露。

这一系列骚操作引来陶哲轩(Terence Tao)的公开回应,也就不奇怪他在社交媒体上对OpenAI的态度了:

对于任何没有在赛前披露其方法论的、自我报告的AI竞赛成绩,我将不予置评。

陶哲轩内心戏:你他么既当裁判又当运动员,难道我不懂吗?

金奖背后

谷歌是如何实现这一惊人飞跃的?答案是深度思考Deep Think 高级模式

平行思考(Parallel Thinking): Deep Think高级模式能让模型不再局限于单一的线性推理路径。它可以同时探索和组合多种可能的解决方案,就像一个顶尖数学家在脑中同时演算几条解题思路,最终选择最优的一条

强化学习与高质量数据: 谷歌通过新颖的强化学习技术,专门针对多步推理、问题解决和定理证明数据对Gemini进行了训练。同时,还为其提供了大量高质量的数学问题解决方案语料库。

研发团队还在模型的指令中加入了一些关于如何解决IMO问题的通用提示和技巧

所以最后,问大家一个问题,AGI还有多远?

来源:AI寒武纪,原文标题:《打脸OpenAI!谷歌Gemini高级版获IMO 2025官方认证金牌:纯自然语言端到端推理》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章