📌 一句话总结:Google DeepMind 发布 Gemini 3 Deep Think 重大升级,ARC-AGI-2 逻辑推理得分 84.6% 碾压所有竞品,Codeforces Elo 3455 创 AI 编程竞赛历史新高,正式从「刷榜利器」转型为科研实战工具。
2026-02-13 · 资讯分享 · 阅读时间约 4 分钟
Deep Think 升级了什么
2 月 12 日,Google DeepMind 宣布对 Gemini 3 Deep Think 进行重大升级。这是 Gemini 系列中专门用于深度推理的模式,此次更新的核心方向是:从数学竞赛走向真实科研场景。
Google 表示,这次升级是与科学家和研究人员密切合作完成的,目标是解决那些「没有明确边界、没有唯一正确答案、数据往往不完整」的真实研究问题。
跑分全面领先:四大基准测试对比
| 基准测试 | Deep Think | Claude Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| ARC-AGI-2(逻辑推理) | 84.6% | 68.8% | 52.9% | 31.1% |
| Humanity's Last Exam(学术推理) | 48.4% | 40.0% | 34.5% | 37.5% |
| MMMU-Pro(多模态推理) | 81.5% | 73.9% | 79.5% | 81.0% |
| Codeforces(编程竞赛 Elo) | 3,455 | 2,352 | — | 2,512 |
几个值得注意的数字:
- ARC-AGI-2 的 84.6% 经 ARC Prize 基金会官方验证,领先第二名 Claude Opus 4.6 近 16 个百分点。ARC-AGI-2 测试的是模型在没有记忆模式可依赖时的「流体智能」,这个差距相当惊人。
- Codeforces Elo 3455 意味着 Deep Think 在编程竞赛中已经超越了绝大多数人类顶尖选手。
- MMMU-Pro 的差距很小(81.5% vs 81.0%),说明这次升级主要集中在抽象推理能力,而非视觉处理。
此外,Deep Think 还在 2025 年国际物理奥林匹克和化学奥林匹克的笔试部分达到了金牌水平,并在高级理论物理基准 CMT-Benchmark 上取得 50.5% 的成绩。
真实科研场景:不只是刷榜
Google 这次特别强调了 Deep Think 在真实科研中的应用案例:
罗格斯大学数学家 Lisa Carbone 用 Deep Think 审查了一篇高度技术性的数学论文,Deep Think 成功发现了一个此前通过人类同行评审却未被察觉的微妙逻辑缺陷。
— 来源:Google Blog
杜克大学 Wang Lab 利用 Deep Think 优化复杂晶体生长的制造方法,成功设计出生长超过 100μm 薄膜的配方,达到了此前方法难以实现的精确目标。
— 来源:Google Blog
Google 还展示了一个工程应用:Deep Think 可以将手绘草图分析建模,直接生成 3D 打印文件,将草图变成实物。
谁能用、怎么用
- Google AI Ultra 订阅用户:今天起可在 Gemini App 中直接使用升级版 Deep Think
- 研究人员和企业:首次通过 Gemini API 开放 Deep Think,目前为早期申请阶段
- 这是 Deep Think 首次以 API 形式对外开放,此前只能通过 Gemini App 使用
富贵点评
Google 这波操作很有意思。就在 OpenAI 刚发布 GPT-5.3-Codex-Spark 主打「极速编程」的同一天,Google 直接亮出 Deep Think 的跑分成绩单——ARC-AGI-2 领先 Claude Opus 4.6 近 16 个百分点,Codeforces Elo 甩开一千多分。这不是巧合,这是正面对线。
但更值得关注的是 Deep Think 的定位转变。去年 Google 用它刷数学奥赛和编程竞赛的金牌,今年直接拉着罗格斯大学和杜克大学的科学家做真实科研。发现人类同行评审遗漏的逻辑缺陷、设计半导体晶体生长方案——这些不是「做题」,而是「做事」。当 AI 推理能力开始在真实科研中产出价值,「刷榜」和「落地」之间的鸿沟正在被填平。
不过 MMMU-Pro 上 Deep Think 和自家 Gemini 3 Pro 几乎打平(81.5% vs 81.0%),说明这次升级的重心非常明确:抽象推理和算法能力,而不是全面提升。Google 选择了「做深」而不是「做广」,这个策略在科研场景下是对的。
📋 要点回顾
- ARC-AGI-2 得分 84.6%:经 ARC Prize 基金会验证,大幅领先 Claude Opus 4.6(68.8%)和 GPT-5.2(52.9%)
- Codeforces Elo 3455:AI 编程竞赛历史最高分,超越绝大多数人类顶尖选手
- 科研实战落地:帮助数学家发现同行评审遗漏的逻辑缺陷,为半导体研究设计晶体生长方案
- API 首次开放:Google AI Ultra 用户可直接使用,研究人员和企业可申请 API 早期访问
- 物理化学奥赛金牌:在 2025 年国际物理和化学奥林匹克笔试中达到金牌水平
❓ 常见问题
Q: Gemini 3 Deep Think 和普通 Gemini 3 有什么区别?
A: Deep Think 是 Gemini 3 的专用深度推理模式,专门针对需要长时间思考的复杂问题进行优化,比如数学证明、科学研究和算法设计。普通 Gemini 3 更适合日常对话和通用任务。
Q: ARC-AGI-2 测试的是什么能力?
A: ARC-AGI-2 测试的是「流体智能」——模型在面对全新问题时的推理能力,不能依赖记忆或模式匹配。84.6% 的得分意味着 Deep Think 在处理从未见过的逻辑问题时表现极为出色。
Q: 普通用户能用 Deep Think 吗?
A: 目前需要 Google AI Ultra 订阅才能在 Gemini App 中使用。API 访问则需要单独申请早期访问资格,主要面向研究人员和企业用户。
作者:王富贵 | 发布时间:2026-02-13
参考来源:Google Blog · The Decoder · 9to5Google · Bloomberg