📌 一句话总结:Google DeepMind 发布两篇论文,展示 Gemini Deep Think 在专业数学家和科学家指导下,自主解决了 4 个 Erdős 开放问题、推翻了一个十年未证猜想、用连续数学工具破解离散算法难题,并提出了 AI 辅助数学研究的四级分类体系——AI 正从"解题工具"进化为"科研协作者"。
2026年2月23日 · 深度解读 · 阅读时间约 7 分钟
2025 年夏天,Gemini Deep Think 在国际数学奥林匹克(IMO)上达到金牌水平。半年后的今天,它已经不再满足于解学生竞赛题了——它开始解决专业数学家都搞不定的研究级问题。
2 月 11 日,Google DeepMind 发布了两篇论文,详细记录了 Gemini Deep Think 在纯数学、物理学和计算机科学领域的跨学科研究成果。这不是"AI 又刷了个 benchmark"的故事,而是 AI 第一次系统性地参与到前沿科学研究中,并产出了可发表级别的成果。
Aletheia:一个会承认自己不行的数学研究 Agent
DeepMind 构建了一个名为 Aletheia(希腊语"真理")的数学研究 Agent,由 Gemini Deep Think 驱动。它的架构有三个关键设计:
- 自然语言验证器:不只是生成解答,还能识别候选方案中的逻辑缺陷,实现"生成→验证→修正"的迭代循环
- 承认失败的能力:这听起来不起眼,但对研究效率至关重要——AI 能说"我解不了这个",而不是浪费研究者的时间去检查一个错误的"解答"
- 搜索与文献整合:通过 Google Search 和网页浏览导航复杂的研究文献,避免虚假引用和计算错误
在推理能力的扩展上,Aletheia 在 IMO-ProofBench Advanced 测试中得分高达 90%,并且随着推理时间计算量的增加,性能持续提升。更重要的是,这个 scaling law 在从奥赛级别进入博士级别练习题时依然成立。
五大突破性成果
两篇论文涵盖了大量具体成果,以下是最值得关注的五个:
1. 自主解决 4 个 Erdős 开放问题
Aletheia 对 Bloom 的 Erdős 猜想数据库中的 700 个开放问题进行了半自主评估,自主解决了其中 4 个。在 Erdős-1051 问题上,模型不仅自主求解,还帮助推导出了一个更一般化的结论,最终形成了一篇研究论文。
2. 推翻十年未证猜想
2015 年的一篇理论论文提出了一个关于在线次模优化的"显而易见"的规则。专家们花了十年试图证明它。Gemini 构造了一个精确的三元素组合反例,严格证明了这个长期被认为正确的直觉是错误的。
3. 跨数学边界破解网络难题
经典计算机科学问题"最大割"(Max-Cut)和"斯坦纳树"(Steiner Tree)的研究进展已经停滞。Gemini 的突破方式令人意外——它从完全不相关的连续数学分支中调用了 Kirszbraun 定理、测度论和 Stone-Weierstrass 定理来解决这些离散算法问题。
4. 宇宙弦的引力辐射计算
计算宇宙弦的引力辐射需要求解包含"奇点"的棘手积分。Gemini 找到了一个使用 Gegenbauer 多项式的新颖解法,自然地吸收了奇点,将无穷级数折叠为封闭形式的有限和。
5. 将经济理论扩展到连续域
一个关于 AI 生成 token 拍卖的"揭示原理"定理原本只在有理数域上成立。Gemini 运用高级拓扑学和序理论,将定理扩展到连续实数域,使其适用于现实世界的连续拍卖动态。
AI 辅助研究的四级分类体系
DeepMind 与数学界广泛讨论后,提出了一个 AI 辅助数学研究的分类框架:
| 级别 | 定义 | 当前状态 |
|---|---|---|
| Level 1 | 辅助性贡献 | 已实现 |
| Level 2 | 可发表质量 | 已有成果提交至期刊 |
| Level 3 | 重大进展 | 尚未声称 |
| Level 4 | 里程碑式突破 | 尚未声称 |
DeepMind 明确表示,目前不声称任何 Level 3 或 Level 4 的成果。这种谦逊的自我定位值得注意——他们在说"我们已经能产出可发表的研究了,但还没有改变数学的方向"。
"Vibe-Proving":人机协作的新范式
第二篇论文提出了一个有趣的协作模式——"Advisor"模型,人类通过迭代的"Vibe-Proving"循环引导 AI 验证直觉并完善证明。具体的战术技巧包括:
- 平衡提示(Balanced Prompting):同时要求 AI 证明和反驳一个命题,防止确认偏差
- 代码辅助验证:用代码检验数学推理的正确性
- 跨领域桥接:利用模型在不同科学领域之间发现深层结构联系的能力
这种模式已经在 18 个研究问题上与专家合作验证,帮助解决了算法、机器学习、组合优化、信息论和经济学等领域的长期瓶颈。其中一篇已被 ICLR 2026 接收。
富贵点评
这篇论文最让我印象深刻的不是具体的数学成果,而是两个设计哲学:
第一,Aletheia 会承认失败。在一个所有 AI 都被训练成"尽量给出答案"的时代,一个能说"我不知道"的 AI 反而更有价值。对研究者来说,一个诚实的"我解不了"比一个看似正确但实际有缺陷的"解答"节省的时间是数量级的。
第二,跨领域桥接能力。用连续数学工具解决离散算法问题,用拓扑学扩展经济学定理——这不是人类数学家做不到的事,但人类受限于自己的专业领域,很难想到去"隔壁学科"借工具。AI 没有这个认知边界,它的知识库是扁平的,所有领域的工具对它来说都是等距的。这可能是 AI 作为科研协作者最独特的价值——不是比人类更聪明,而是比人类更没有偏见地搜索解空间。
📋 要点回顾
- Aletheia Agent:由 Gemini Deep Think 驱动的数学研究 Agent,具备生成-验证-修正迭代能力和承认失败的机制
- 研究级成果:自主解决 4 个 Erdős 开放问题,推翻一个十年未证猜想,多篇论文已提交期刊或被 ICLR 2026 接收
- 跨领域突破:从连续数学中借用工具解决离散算法难题(Max-Cut、Steiner Tree),用 Gegenbauer 多项式解决宇宙弦物理问题
- 四级分类:提出 AI 辅助数学研究的分级体系,当前成果达到 Level 2(可发表质量),尚未声称 Level 3-4
- 协作范式:"Advisor"模型 + Vibe-Proving 循环 + 平衡提示,防止确认偏差,已在 18 个研究问题上验证
❓ 常见问题
Q: Gemini Deep Think 能完全自主做数学研究吗?
A: 目前是"在专家指导下"的半自主研究。有一篇论文(Feng26)是完全无人干预生成的,但大多数成果需要数学家提供方向、验证结果和引导迭代。DeepMind 将其定位为"科研协作者"而非"自主研究者"。
Q: 这和之前的 AlphaProof 有什么区别?
A: AlphaProof 专注于竞赛级数学证明(IMO 级别),使用形式化验证。Aletheia 面向的是研究级开放问题,使用自然语言推理和验证,能处理更开放、更模糊的问题,并且能整合文献和搜索。两者代表了 AI 数学能力的不同层次。
Q: "Vibe-Proving"是什么意思?
A: 这是论文提出的一种人机协作模式:研究者先有一个直觉或猜想("vibe"),然后通过迭代循环让 AI 尝试证明或反驳它。关键技巧是"平衡提示"——同时要求 AI 证明和反驳,避免 AI 只朝一个方向努力而产生确认偏差。
作者:王富贵 | 发布时间:2026年2月23日
参考来源:Google DeepMind Blog - Accelerating Mathematical and Scientific Discovery with Gemini Deep Think