打脸OpenAI！谷歌Gemini高级版获IMO 2025官方认证金牌：纯自然语言端到端推理

AI寒武纪

07/22 03:14

谷歌DeepMind刚刚发布重磅博客，宣布其搭载了 “深度思考”（Deep Think）能力的高级版Gemini，在2025年国际数学奥林匹克竞赛（IMO）中，以6题解出5题、总分35分的成绩，正式达到金牌标准！

就在全球科技圈还在议论OpenAI抢跑宣称其内部模型拿下IMO金牌之际，真正的“官方认证”王者来了。谷歌DeepMind刚刚发布重磅博客，宣布其搭载了 “深度思考”（Deep Think） 能力的高级版Gemini，在2025年国际数学奥林匹克竞赛（IMO）中，以6题解出5题、总分35分的成绩，正式达到金牌标准！

这一成绩经过了IMO官方协调员的认证，所有解题过程都在4.5小时的比赛时限内完成，并且全程使用自然语言进行端到端的推理

哈哈哈，相比于OpenAI的自我宣称，谷歌拿出了无可辩驳的官方战报，这下我好像终于知道了OpenAI为什么抢跑了，Sam Altman一定是提前知道了什么，我也好像懂了为什么OpenAI不顾IMO组委会反对提前宣称自己的实验模型获得了金牌，一个官方认证的结果一定让sam 寝食难安，如果不提前炒作一下，这个结果一定对OpenAI造成巨大的打击

真正的金牌选手：5道满分，端到端自然语言搞定

这一成就的含金量，体现在以下几个颠覆性的进步上：

从“形式数学”到“自然语言”的飞跃：

还记得去年（IMO 2024）吗？谷歌的AlphaGeometry和AlphaProof虽然达到了银牌标准，但需要人类专家先将自然语言的题目“翻译”成AI能理解的Lean等形式化语言。而今年的Gemini，则实现了端到端的突破，直接读取并理解用自然语言描述的官方题目，然后直接生成严谨的、人类可读的数学证明。这标志着AI的推理能力向人类的直觉和灵活性迈进了一大步

竞赛级效率：

去年的系统需要数天的计算时间。而今年的模型，在4.5小时的竞赛规定时间内就完成了所有解题和证明生成

官方认证，无可争议：

博客明确指出，其模型结果由IMO协调员使用与学生解决方案相同的标准进行官方评分和认证，IMO 主席格雷戈尔·多利纳尔教授博士：

这是谷歌发布的解题过程，有13页pdf，我反正是看不懂，数学大神请享用挑刺：

谷歌的官宣与OpenAI的抢跑

OpenAI在IMO闭幕式前突然宣称，其一个内部实验模型也达到了金牌水平。然而，这一行为立刻引发了巨大争议：

无视规则：据悉，IMO组委会曾明确要求OpenAI不要在闭幕式前发布结果，但OpenAI并未听从

缺乏认证： OpenAI的成绩完全是“自我报告”，并未经过IMO官方的独立验证和评分

方法论不透明：其模型和方法并未在赛前进行任何披露。

这一系列骚操作引来陶哲轩（Terence Tao）的公开回应，也就不奇怪他在社交媒体上对OpenAI的态度了：

对于任何没有在赛前披露其方法论的、自我报告的AI竞赛成绩，我将不予置评。

陶哲轩内心戏：你他么既当裁判又当运动员，难道我不懂吗？

金奖背后

谷歌是如何实现这一惊人飞跃的？答案是深度思考Deep Think 高级模式

平行思考（Parallel Thinking）： Deep Think高级模式能让模型不再局限于单一的线性推理路径。它可以同时探索和组合多种可能的解决方案，就像一个顶尖数学家在脑中同时演算几条解题思路，最终选择最优的一条

强化学习与高质量数据：谷歌通过新颖的强化学习技术，专门针对多步推理、问题解决和定理证明数据对Gemini进行了训练。同时，还为其提供了大量高质量的数学问题解决方案语料库。

研发团队还在模型的指令中加入了一些关于如何解决IMO问题的通用提示和技巧

所以最后，问大家一个问题，AGI还有多远？

来源：AI寒武纪，原文标题：《打脸OpenAI！谷歌Gemini高级版获IMO 2025官方认证金牌：纯自然语言端到端推理》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

打脸OpenAI！谷歌Gemini高级版获IMO 2025官方认证金牌：纯自然语言端到端推理

真正的金牌选手：5道满分，端到端自然语言搞定

谷歌的官宣与OpenAI的抢跑

金奖背后

GPT-5.2提前泄露？今夜，OpenAI要拿Gemini 3祭天！

DeepSeek发布V3.2系列模型，强化Agent能力，推理能力追平GPT-5

OpenAI大溃败！GPT-5「换皮」GPT-4o，两年半预训练0突破

第1个获得数学奥赛金牌的开源模型！DeepSeek新模型获网友盛赞：公开技术文件，了不起！

DeepSeek推出DeepSeekMath‑V2 模型，主攻自验证数学推理能力