📌 一句话总结:Google DeepMind 发布两篇论文,展示 Gemini Deep Think 模式已从奥赛解题进化为专业科研工具——自主解决了 4 个数十年未解的数学开放问题,推翻了一个存在 10 年的计算机科学猜想,还用宇宙弦物理中的新方法消除了引力辐射计算中的奇点。
2026年2月24日 · 深度解读 · 阅读时间约 6 分钟
从奥赛金牌到科研前线
2025 年夏天,Gemini Deep Think 在国际数学奥林匹克(IMO)拿到金牌水平的成绩,随后又在国际大学生编程竞赛(ICPC)世界总决赛中取得类似表现。这些成绩证明了 AI 能解决为顶尖学生设计的竞赛题。
但竞赛题和真正的科研之间有一道鸿沟:竞赛题有标准答案,科研问题可能根本无解。2 月 11 日,DeepMind 发布了两篇论文,展示 Gemini Deep Think 如何跨越这道鸿沟,在纯数学、物理学和计算机科学的前沿研究中产出了可发表级别的成果。
Aletheia:会承认失败的数学研究 Agent
DeepMind 构建了一个名为 Aletheia(希腊语「真理」)的数学研究 Agent,由 Gemini Deep Think 驱动。它的核心架构包含三个关键组件:
| 组件 | 功能 |
|---|---|
| 解题生成器 | 基于 Deep Think 模式生成候选解法 |
| 自然语言验证器 | 识别候选解法中的逻辑缺陷,触发迭代修正 |
| 搜索与浏览模块 | 通过 Google Search 查阅文献,防止虚假引用和计算错误 |
最关键的设计是:Aletheia 能够承认自己解不了某个问题。这听起来简单,但对研究者来说极其重要——与其浪费时间检查一个错误的「解法」,不如让 AI 直接说「我搞不定」。
五大硬核成果
两篇论文涵盖了数学、物理和计算机科学三个领域的突破,以下是最亮眼的五个:
1. 自主解决 4 个 Erdős 开放问题
Aletheia 对 Erdős 猜想数据库中的 700 个开放问题进行了半自主评估,自主解决了其中 4 个。其中一个问题(Erdős-1051)的解法还被推广,形成了一篇独立的研究论文。要知道,Erdős 问题是数学界公认的高难度开放问题,有些已经悬而未决数十年。
2. 推翻 10 年计算机科学猜想
2015 年的一篇理论论文提出了一个关于在线次模优化的「显而易见」的规则:复制一个到达的数据项,总是不如直接移动原始项有价值。专家们花了 10 年试图证明这个直觉。Gemini 构造了一个精巧的三元素组合反例,严格证明了这个长期被认为正确的直觉是错的。
3. 跨学科解决经典算法难题
Max-Cut(网络最优分割)和 Steiner Tree(高维点连接)是计算机科学中的经典问题,进展已经停滞多年。Gemini 的突破方式令人意外——它从连续数学中借用了 Kirszbraun 定理、测度论和 Stone-Weierstrass 定理等工具,来解决这些离散算法问题。这种跨领域的「借力」正是人类研究者最难做到的。
4. 宇宙弦引力辐射的新解法
计算宇宙弦的引力辐射需要处理含有「奇点」的复杂积分。Gemini 找到了一种使用 Gegenbauer 多项式的新方法,自然地吸收了奇点,将一个无穷级数折叠成了有限闭合形式的求和。
5. 完全自主生成的研究论文
一篇关于算术几何中特征权重计算的论文(Feng26),完全由 AI 自主生成,没有任何人类干预。这可能是第一篇真正意义上的「AI 独立研究论文」。
人机协作的新范式:Advisor 模式
第二篇论文提出了一种有效的人机协作「配方」——Advisor 模式。在这种模式下,人类研究者扮演「顾问」角色,引导 AI 通过迭代的「Vibe-Proving」循环来验证直觉、修正证明。
论文还总结了几个实用技巧:
- 平衡提示(Balanced Prompting):同时要求 AI 证明和反驳一个命题,防止确认偏误
- 代码辅助验证:用代码检验数学推导的正确性
- 跨领域桥接:利用模型在不同学科间建立深层结构连接的能力
DeepMind 还提出了一个 AI 辅助数学研究的分类体系,从 Level 1(辅助性贡献)到 Level 4(里程碑式突破)。目前他们声称达到了 Level 2(可发表质量),相关论文已提交至知名期刊。他们明确表示尚未达到 Level 3 或 Level 4。
富贵点评
这篇工作最让我印象深刻的不是那些具体的数学突破,而是两个设计哲学:
第一,让 AI 学会说「我不行」。在一个所有 AI 公司都在吹嘘自己模型多强的时代,DeepMind 把「承认失败」作为核心功能来设计,这反而是最务实的选择。对研究者来说,一个能准确告诉你「这题我解不了」的工具,比一个自信满满地给你错误答案的工具有用一万倍。
第二,跨领域的「借力」能力。用连续数学的工具解离散算法问题,用拓扑学和序理论扩展拍卖理论——这种跨学科的联想能力恰恰是人类研究者受限于专业壁垒最难做到的。AI 没有「学科边界」的概念,它的知识库是扁平的,这反而成了优势。
不过也要清醒地看到,DeepMind 自己也承认目前只达到 Level 2(可发表质量),距离真正的重大突破(Level 3-4)还有距离。AI 目前更像是一个极其博学的研究助手,而不是独立的科学家。但从「解奥赛题」到「解开放问题」,这个进化速度已经够吓人了。
📋 要点回顾
- Aletheia 是什么:DeepMind 基于 Gemini Deep Think 构建的数学研究 Agent,具备生成-验证-修正的迭代能力,且能承认无法解决某个问题
- 核心成果:自主解决 4 个 Erdős 开放问题、推翻 10 年计算机科学猜想、跨学科解决 Max-Cut 和 Steiner Tree 问题、宇宙弦物理新解法
- 协作模式:Advisor 模式 + Vibe-Proving 循环 + 平衡提示 + 代码辅助验证
- 分类体系:4 级 AI 辅助研究分类,当前成果达到 Level 2(可发表质量)
- 意义:AI 从「解竞赛题」进化为「解开放科研问题」,成为跨学科的科研协作者
❓ 常见问题
Q: Gemini Deep Think 和普通的 Gemini 有什么区别?
A: Deep Think 是 Gemini 的一种特殊推理模式,会花更多的推理时间(inference-time compute)来深入思考复杂问题。类似于人类面对难题时会「慢下来仔细想」,而不是快速给出直觉答案。研究表明,随着推理时间的增加,Deep Think 的表现持续提升。
Q: AI 自主生成的论文可信吗?
A: DeepMind 对此非常谨慎。他们建立了分类体系来标注 AI 的贡献程度,Level 2 的论文已提交至知名期刊接受同行评审。同时,所有的提示词和模型输出都已在 GitHub 上公开,供社区验证。关键是,这些成果都经过了人类数学家的审核确认。
Q: 这对普通研究者意味着什么?
A: 短期来看,AI 正在成为强大的科研辅助工具,特别擅长文献检索、证明验证和跨学科联想。研究者可以把繁琐的验证工作交给 AI,自己专注于创造性的方向判断。长期来看,人机协作的 Advisor 模式可能成为科研的新标准范式。
作者:王富贵 | 发布时间:2026年2月24日
参考来源:Google DeepMind - Accelerating Mathematical and Scientific Discovery with Gemini Deep Think | 论文:arXiv:2602.10177、arXiv:2602.03837