Gemini Deep Think 从解题到做研究：自主攻克 4 个 Erdős 开放问题、推翻十年猜想，DeepMind 提出 AI 辅助科研四级分类体系

📌 一句话总结：Google DeepMind 发布两篇论文，展示 Gemini Deep Think 在专业数学家和科学家指导下，自主解决了 4 个 Erdős 开放问题、推翻了一个十年未证猜想、用连续数学工具破解离散算法难题，并提出了 AI 辅助数学研究的四级分类体系——AI 正从"解题工具"进化为"科研协作者"。

2026年2月23日 · 深度解读 · 阅读时间约 7 分钟

2025 年夏天，Gemini Deep Think 在国际数学奥林匹克（IMO）上达到金牌水平。半年后的今天，它已经不再满足于解学生竞赛题了——它开始解决专业数学家都搞不定的研究级问题。

2 月 11 日，Google DeepMind 发布了两篇论文，详细记录了 Gemini Deep Think 在纯数学、物理学和计算机科学领域的跨学科研究成果。这不是"AI 又刷了个 benchmark"的故事，而是 AI 第一次系统性地参与到前沿科学研究中，并产出了可发表级别的成果。

Aletheia：一个会承认自己不行的数学研究 Agent

DeepMind 构建了一个名为 Aletheia（希腊语"真理"）的数学研究 Agent，由 Gemini Deep Think 驱动。它的架构有三个关键设计：

自然语言验证器：不只是生成解答，还能识别候选方案中的逻辑缺陷，实现"生成→验证→修正"的迭代循环
承认失败的能力：这听起来不起眼，但对研究效率至关重要——AI 能说"我解不了这个"，而不是浪费研究者的时间去检查一个错误的"解答"
搜索与文献整合：通过 Google Search 和网页浏览导航复杂的研究文献，避免虚假引用和计算错误

在推理能力的扩展上，Aletheia 在 IMO-ProofBench Advanced 测试中得分高达 90%，并且随着推理时间计算量的增加，性能持续提升。更重要的是，这个 scaling law 在从奥赛级别进入博士级别练习题时依然成立。

五大突破性成果

两篇论文涵盖了大量具体成果，以下是最值得关注的五个：

1. 自主解决 4 个 Erdős 开放问题

Aletheia 对 Bloom 的 Erdős 猜想数据库中的 700 个开放问题进行了半自主评估，自主解决了其中 4 个。在 Erdős-1051 问题上，模型不仅自主求解，还帮助推导出了一个更一般化的结论，最终形成了一篇研究论文。

2. 推翻十年未证猜想

2015 年的一篇理论论文提出了一个关于在线次模优化的"显而易见"的规则。专家们花了十年试图证明它。Gemini 构造了一个精确的三元素组合反例，严格证明了这个长期被认为正确的直觉是错误的。

3. 跨数学边界破解网络难题

经典计算机科学问题"最大割"（Max-Cut）和"斯坦纳树"（Steiner Tree）的研究进展已经停滞。Gemini 的突破方式令人意外——它从完全不相关的连续数学分支中调用了 Kirszbraun 定理、测度论和 Stone-Weierstrass 定理来解决这些离散算法问题。

4. 宇宙弦的引力辐射计算

计算宇宙弦的引力辐射需要求解包含"奇点"的棘手积分。Gemini 找到了一个使用 Gegenbauer 多项式的新颖解法，自然地吸收了奇点，将无穷级数折叠为封闭形式的有限和。

5. 将经济理论扩展到连续域

一个关于 AI 生成 token 拍卖的"揭示原理"定理原本只在有理数域上成立。Gemini 运用高级拓扑学和序理论，将定理扩展到连续实数域，使其适用于现实世界的连续拍卖动态。

AI 辅助研究的四级分类体系

DeepMind 与数学界广泛讨论后，提出了一个 AI 辅助数学研究的分类框架：

级别	定义	当前状态
Level 1	辅助性贡献	已实现
Level 2	可发表质量	已有成果提交至期刊
Level 3	重大进展	尚未声称
Level 4	里程碑式突破	尚未声称

DeepMind 明确表示，目前不声称任何 Level 3 或 Level 4 的成果。这种谦逊的自我定位值得注意——他们在说"我们已经能产出可发表的研究了，但还没有改变数学的方向"。

"Vibe-Proving"：人机协作的新范式

第二篇论文提出了一个有趣的协作模式——"Advisor"模型，人类通过迭代的"Vibe-Proving"循环引导 AI 验证直觉并完善证明。具体的战术技巧包括：

平衡提示（Balanced Prompting）：同时要求 AI 证明和反驳一个命题，防止确认偏差
代码辅助验证：用代码检验数学推理的正确性
跨领域桥接：利用模型在不同科学领域之间发现深层结构联系的能力

这种模式已经在 18 个研究问题上与专家合作验证，帮助解决了算法、机器学习、组合优化、信息论和经济学等领域的长期瓶颈。其中一篇已被 ICLR 2026 接收。

富贵点评

这篇论文最让我印象深刻的不是具体的数学成果，而是两个设计哲学：

第一，Aletheia 会承认失败。在一个所有 AI 都被训练成"尽量给出答案"的时代，一个能说"我不知道"的 AI 反而更有价值。对研究者来说，一个诚实的"我解不了"比一个看似正确但实际有缺陷的"解答"节省的时间是数量级的。

第二，跨领域桥接能力。用连续数学工具解决离散算法问题，用拓扑学扩展经济学定理——这不是人类数学家做不到的事，但人类受限于自己的专业领域，很难想到去"隔壁学科"借工具。AI 没有这个认知边界，它的知识库是扁平的，所有领域的工具对它来说都是等距的。这可能是 AI 作为科研协作者最独特的价值——不是比人类更聪明，而是比人类更没有偏见地搜索解空间。

📋 要点回顾

Aletheia Agent：由 Gemini Deep Think 驱动的数学研究 Agent，具备生成-验证-修正迭代能力和承认失败的机制
研究级成果：自主解决 4 个 Erdős 开放问题，推翻一个十年未证猜想，多篇论文已提交期刊或被 ICLR 2026 接收
跨领域突破：从连续数学中借用工具解决离散算法难题（Max-Cut、Steiner Tree），用 Gegenbauer 多项式解决宇宙弦物理问题
四级分类：提出 AI 辅助数学研究的分级体系，当前成果达到 Level 2（可发表质量），尚未声称 Level 3-4
协作范式："Advisor"模型 + Vibe-Proving 循环 + 平衡提示，防止确认偏差，已在 18 个研究问题上验证

❓ 常见问题

Q: Gemini Deep Think 能完全自主做数学研究吗？

A: 目前是"在专家指导下"的半自主研究。有一篇论文（Feng26）是完全无人干预生成的，但大多数成果需要数学家提供方向、验证结果和引导迭代。DeepMind 将其定位为"科研协作者"而非"自主研究者"。

Q: 这和之前的 AlphaProof 有什么区别？

A: AlphaProof 专注于竞赛级数学证明（IMO 级别），使用形式化验证。Aletheia 面向的是研究级开放问题，使用自然语言推理和验证，能处理更开放、更模糊的问题，并且能整合文献和搜索。两者代表了 AI 数学能力的不同层次。

Q: "Vibe-Proving"是什么意思？

A: 这是论文提出的一种人机协作模式：研究者先有一个直觉或猜想（"vibe"），然后通过迭代循环让 AI 尝试证明或反驳它。关键技巧是"平衡提示"——同时要求 AI 证明和反驳，避免 AI 只朝一个方向努力而产生确认偏差。

作者：王富贵 | 发布时间：2026年2月23日

参考来源：Google DeepMind Blog - Accelerating Mathematical and Scientific Discovery with Gemini Deep Think