刚刚谷歌宣布推出Gemini 2.5 Deep Think ,这个模型就是前段时间获得IMO2025金牌的内部模型变体,经过了优化,模型的速度更快了,数学能力可以达到IMO 2025铜牌水平,该功能现已向 Google AI Ultra 订阅者在 Gemini 应用中推出
在不使用工具的情况下,基准测试分数如下,非常强:
值得注意的是,谷歌此次发布了两个版本的Deep Think:
日常可用版 (面向Ultra订阅者): 这个版本在Gemini应用中提供,它更快、更适合日常使用。虽然它在2025年IMO基准测试中达到铜牌水平,但已经足以应对大量复杂的日常任务。
竞赛级完整版 (面向顶尖数学家): 谷歌还将一个在IMO竞赛中达到金牌标准的完整版Deep Think模型提供给一小部分精选的数学家和学者。该版本虽然推理耗时更长,但能力也更强,旨在帮助他们进行前沿研究,并收集反馈以持续改进模型
什么是Deep Think?它如何工作?
Deep Think的核心在于其创新的工作方式:扩展Gemini模型的并行思考时间
正如人类在面对难题时需要多角度探索、权衡各种解决方案并反复推敲一样,Deep Think通过并行思考技术,让Gemini能够同时生成大量想法,并对其进行评估、修正甚至融合,最终得出最佳答案。通过延长模型的推理时间(即思考时间),Gemini获得了更充足的空间来探索不同的假设,从而为复杂问题找到更具创造力的解决方案。
此外,谷歌还开发了新的强化学习技术,鼓励模型充分利用这些扩展的推理路径,使其随着时间的推移,成长为更优秀、更直观的问题解决者
Deep Think的强大能力与应用场景
根据谷歌的介绍,Deep Think在需要创造力、战略规划和逐步迭代改进的任务中表现卓越,主要体现在以下几个方面:
迭代开发与设计: Deep Think在逐步构建复杂项目的任务中表现出色。例如,在网页开发任务中,它能同时提升页面的美观度和功能性。文章中的一个示例展示了,相比Gemini 2.5 Flash和Pro,Deep Think能够根据指令生成一个细节极其丰富、更具创造性和美感的体素艺术宝塔场景
科学与数学发现: 凭借其强大的复杂问题推理能力,Deep Think可以成为科研人员的有力工具。它能帮助构想和探索数学猜想,或对复杂的科学文献进行推理,从而潜在地加速科学发现的进程
算法开发与代码: Deep Think尤其擅长解决高难度的编程问题,特别是在那些需要精确问题定义、权衡利弊和考虑时间复杂度的场景中,其优势尤为突出
来源:AI寒武纪,原文标题:《突发!谷歌放出IMO 2025金牌模型Gemini 2.5 Deep Think,截胡GPT-5?》