Google 发布 Gemini 3 Deep Think 重大升级：ARC-AGI-2 得分 84.6% 碾压全场，Codeforces Elo 3455 创历史新高

📌 一句话总结：Google DeepMind 发布 Gemini 3 Deep Think 重大升级，ARC-AGI-2 逻辑推理得分 84.6% 碾压所有竞品，Codeforces Elo 3455 创 AI 编程竞赛历史新高，正式从「刷榜利器」转型为科研实战工具。

2026-02-13 · 资讯分享 · 阅读时间约 4 分钟

Deep Think 升级了什么

2 月 12 日，Google DeepMind 宣布对 Gemini 3 Deep Think 进行重大升级。这是 Gemini 系列中专门用于深度推理的模式，此次更新的核心方向是：从数学竞赛走向真实科研场景。

Google 表示，这次升级是与科学家和研究人员密切合作完成的，目标是解决那些「没有明确边界、没有唯一正确答案、数据往往不完整」的真实研究问题。

跑分全面领先：四大基准测试对比

基准测试	Deep Think	Claude Opus 4.6	GPT-5.2	Gemini 3 Pro
ARC-AGI-2（逻辑推理）	84.6%	68.8%	52.9%	31.1%
Humanity's Last Exam（学术推理）	48.4%	40.0%	34.5%	37.5%
MMMU-Pro（多模态推理）	81.5%	73.9%	79.5%	81.0%
Codeforces（编程竞赛 Elo）	3,455	2,352	—	2,512

几个值得注意的数字：

ARC-AGI-2 的 84.6% 经 ARC Prize 基金会官方验证，领先第二名 Claude Opus 4.6 近 16 个百分点。ARC-AGI-2 测试的是模型在没有记忆模式可依赖时的「流体智能」，这个差距相当惊人。
Codeforces Elo 3455 意味着 Deep Think 在编程竞赛中已经超越了绝大多数人类顶尖选手。
MMMU-Pro 的差距很小（81.5% vs 81.0%），说明这次升级主要集中在抽象推理能力，而非视觉处理。

此外，Deep Think 还在 2025 年国际物理奥林匹克和化学奥林匹克的笔试部分达到了金牌水平，并在高级理论物理基准 CMT-Benchmark 上取得 50.5% 的成绩。

真实科研场景：不只是刷榜

Google 这次特别强调了 Deep Think 在真实科研中的应用案例：

罗格斯大学数学家 Lisa Carbone 用 Deep Think 审查了一篇高度技术性的数学论文，Deep Think 成功发现了一个此前通过人类同行评审却未被察觉的微妙逻辑缺陷。
— 来源：Google Blog

杜克大学 Wang Lab 利用 Deep Think 优化复杂晶体生长的制造方法，成功设计出生长超过 100μm 薄膜的配方，达到了此前方法难以实现的精确目标。
— 来源：Google Blog

Google 还展示了一个工程应用：Deep Think 可以将手绘草图分析建模，直接生成 3D 打印文件，将草图变成实物。

谁能用、怎么用

Google AI Ultra 订阅用户：今天起可在 Gemini App 中直接使用升级版 Deep Think
研究人员和企业：首次通过 Gemini API 开放 Deep Think，目前为早期申请阶段
这是 Deep Think 首次以 API 形式对外开放，此前只能通过 Gemini App 使用

富贵点评

Google 这波操作很有意思。就在 OpenAI 刚发布 GPT-5.3-Codex-Spark 主打「极速编程」的同一天，Google 直接亮出 Deep Think 的跑分成绩单——ARC-AGI-2 领先 Claude Opus 4.6 近 16 个百分点，Codeforces Elo 甩开一千多分。这不是巧合，这是正面对线。

但更值得关注的是 Deep Think 的定位转变。去年 Google 用它刷数学奥赛和编程竞赛的金牌，今年直接拉着罗格斯大学和杜克大学的科学家做真实科研。发现人类同行评审遗漏的逻辑缺陷、设计半导体晶体生长方案——这些不是「做题」，而是「做事」。当 AI 推理能力开始在真实科研中产出价值，「刷榜」和「落地」之间的鸿沟正在被填平。

不过 MMMU-Pro 上 Deep Think 和自家 Gemini 3 Pro 几乎打平（81.5% vs 81.0%），说明这次升级的重心非常明确：抽象推理和算法能力，而不是全面提升。Google 选择了「做深」而不是「做广」，这个策略在科研场景下是对的。

📋 要点回顾

ARC-AGI-2 得分 84.6%：经 ARC Prize 基金会验证，大幅领先 Claude Opus 4.6（68.8%）和 GPT-5.2（52.9%）
Codeforces Elo 3455：AI 编程竞赛历史最高分，超越绝大多数人类顶尖选手
科研实战落地：帮助数学家发现同行评审遗漏的逻辑缺陷，为半导体研究设计晶体生长方案
API 首次开放：Google AI Ultra 用户可直接使用，研究人员和企业可申请 API 早期访问
物理化学奥赛金牌：在 2025 年国际物理和化学奥林匹克笔试中达到金牌水平

❓ 常见问题

Q: Gemini 3 Deep Think 和普通 Gemini 3 有什么区别？

A: Deep Think 是 Gemini 3 的专用深度推理模式，专门针对需要长时间思考的复杂问题进行优化，比如数学证明、科学研究和算法设计。普通 Gemini 3 更适合日常对话和通用任务。

Q: ARC-AGI-2 测试的是什么能力？

A: ARC-AGI-2 测试的是「流体智能」——模型在面对全新问题时的推理能力，不能依赖记忆或模式匹配。84.6% 的得分意味着 Deep Think 在处理从未见过的逻辑问题时表现极为出色。

Q: 普通用户能用 Deep Think 吗？

A: 目前需要 Google AI Ultra 订阅才能在 Gemini App 中使用。API 访问则需要单独申请早期访问资格，主要面向研究人员和企业用户。

作者：王富贵 | 发布时间：2026-02-13

参考来源：Google Blog · The Decoder · 9to5Google · Bloomberg