Google 发布 Gemini 3 Deep Think 重大升级:ARC-AGI-2 得分 84.6% 碾压全场,Codeforces Elo 3455 创历史新高

📌 一句话总结:Google DeepMind 发布 Gemini 3 Deep Think 重大升级,ARC-AGI-2 逻辑推理得分 84.6% 碾压所有竞品,Codeforces Elo 3455 创 AI 编程竞赛历史新高,正式从「刷榜利器」转型为科研实战工具。

2026-02-13 · 资讯分享 · 阅读时间约 4 分钟

Deep Think 升级了什么

2 月 12 日,Google DeepMind 宣布对 Gemini 3 Deep Think 进行重大升级。这是 Gemini 系列中专门用于深度推理的模式,此次更新的核心方向是:从数学竞赛走向真实科研场景

Google 表示,这次升级是与科学家和研究人员密切合作完成的,目标是解决那些「没有明确边界、没有唯一正确答案、数据往往不完整」的真实研究问题。

跑分全面领先:四大基准测试对比

基准测试 Deep Think Claude Opus 4.6 GPT-5.2 Gemini 3 Pro
ARC-AGI-2(逻辑推理) 84.6% 68.8% 52.9% 31.1%
Humanity's Last Exam(学术推理) 48.4% 40.0% 34.5% 37.5%
MMMU-Pro(多模态推理) 81.5% 73.9% 79.5% 81.0%
Codeforces(编程竞赛 Elo) 3,455 2,352 2,512

几个值得注意的数字:

  • ARC-AGI-2 的 84.6% 经 ARC Prize 基金会官方验证,领先第二名 Claude Opus 4.6 近 16 个百分点。ARC-AGI-2 测试的是模型在没有记忆模式可依赖时的「流体智能」,这个差距相当惊人。
  • Codeforces Elo 3455 意味着 Deep Think 在编程竞赛中已经超越了绝大多数人类顶尖选手。
  • MMMU-Pro 的差距很小(81.5% vs 81.0%),说明这次升级主要集中在抽象推理能力,而非视觉处理。

此外,Deep Think 还在 2025 年国际物理奥林匹克和化学奥林匹克的笔试部分达到了金牌水平,并在高级理论物理基准 CMT-Benchmark 上取得 50.5% 的成绩。

真实科研场景:不只是刷榜

Google 这次特别强调了 Deep Think 在真实科研中的应用案例:

罗格斯大学数学家 Lisa Carbone 用 Deep Think 审查了一篇高度技术性的数学论文,Deep Think 成功发现了一个此前通过人类同行评审却未被察觉的微妙逻辑缺陷。
— 来源:Google Blog
杜克大学 Wang Lab 利用 Deep Think 优化复杂晶体生长的制造方法,成功设计出生长超过 100μm 薄膜的配方,达到了此前方法难以实现的精确目标。
— 来源:Google Blog

Google 还展示了一个工程应用:Deep Think 可以将手绘草图分析建模,直接生成 3D 打印文件,将草图变成实物。

谁能用、怎么用

  • Google AI Ultra 订阅用户:今天起可在 Gemini App 中直接使用升级版 Deep Think
  • 研究人员和企业:首次通过 Gemini API 开放 Deep Think,目前为早期申请阶段
  • 这是 Deep Think 首次以 API 形式对外开放,此前只能通过 Gemini App 使用

富贵点评

Google 这波操作很有意思。就在 OpenAI 刚发布 GPT-5.3-Codex-Spark 主打「极速编程」的同一天,Google 直接亮出 Deep Think 的跑分成绩单——ARC-AGI-2 领先 Claude Opus 4.6 近 16 个百分点,Codeforces Elo 甩开一千多分。这不是巧合,这是正面对线。

但更值得关注的是 Deep Think 的定位转变。去年 Google 用它刷数学奥赛和编程竞赛的金牌,今年直接拉着罗格斯大学和杜克大学的科学家做真实科研。发现人类同行评审遗漏的逻辑缺陷、设计半导体晶体生长方案——这些不是「做题」,而是「做事」。当 AI 推理能力开始在真实科研中产出价值,「刷榜」和「落地」之间的鸿沟正在被填平。

不过 MMMU-Pro 上 Deep Think 和自家 Gemini 3 Pro 几乎打平(81.5% vs 81.0%),说明这次升级的重心非常明确:抽象推理和算法能力,而不是全面提升。Google 选择了「做深」而不是「做广」,这个策略在科研场景下是对的。

📋 要点回顾

  • ARC-AGI-2 得分 84.6%:经 ARC Prize 基金会验证,大幅领先 Claude Opus 4.6(68.8%)和 GPT-5.2(52.9%)
  • Codeforces Elo 3455:AI 编程竞赛历史最高分,超越绝大多数人类顶尖选手
  • 科研实战落地:帮助数学家发现同行评审遗漏的逻辑缺陷,为半导体研究设计晶体生长方案
  • API 首次开放:Google AI Ultra 用户可直接使用,研究人员和企业可申请 API 早期访问
  • 物理化学奥赛金牌:在 2025 年国际物理和化学奥林匹克笔试中达到金牌水平

❓ 常见问题

Q: Gemini 3 Deep Think 和普通 Gemini 3 有什么区别?

A: Deep Think 是 Gemini 3 的专用深度推理模式,专门针对需要长时间思考的复杂问题进行优化,比如数学证明、科学研究和算法设计。普通 Gemini 3 更适合日常对话和通用任务。

Q: ARC-AGI-2 测试的是什么能力?

A: ARC-AGI-2 测试的是「流体智能」——模型在面对全新问题时的推理能力,不能依赖记忆或模式匹配。84.6% 的得分意味着 Deep Think 在处理从未见过的逻辑问题时表现极为出色。

Q: 普通用户能用 Deep Think 吗?

A: 目前需要 Google AI Ultra 订阅才能在 Gemini App 中使用。API 访问则需要单独申请早期访问资格,主要面向研究人员和企业用户。

作者:王富贵 | 发布时间:2026-02-13

参考来源:Google Blog · The Decoder · 9to5Google · Bloomberg