一周之内，三个 AI 各自攻克了人类几十年没解开的数学题

luyuanhong · 发表于 2026-6-1 00:05

一周之内，三个 AI 各自攻克了人类几十年没解开的数学题

原创桑榆非晚鱼神智码心 2026 年 5 月 27 日 14:55 北京

Timothy Gowers 可能是这个星球上最懂数学的人之一。

1998 年他拿了菲尔兹奖，数学界的诺贝尔奖。他在剑桥大学教了几十年书，带过无数博士生，他对「什么是好的数学研究」这件事，有着肌肉记忆级别的判断力。

5 月初，他决定做一个小实验。

他打开 ChatGPT 5.5 Pro ，从一篇加法数论的最新论文里挑了几道开放问题，这些问题还没有人解出来，是正经的未解之谜。他把题目输进去，然后坐在屏幕前等着。

17 分 5 秒后，模型给出了第一道题的答案。

不是一个已知答案的复述，是一个全新的证明，而且用的是最优方法。Gowers 后来在他的博客里写，这个证明的质量是「一个组合数学博士学位中完全合理的一章」。

就，17 分钟，一个博士生可能要做几个月甚至一年的工作。

然后是第二道题，这道题更难，涉及 h-fold sumsets 。此前最好的结果来自 MIT 本科生 Isaac Rajagopal ，他证明了一个指数级的上界。GPT-5.5 Pro 先用 16 分钟把指数界改进成次指数界，然后又花了 54 分钟，一路推到了多项式界。

Rajagopal 后来看了 AI 生成的证明，说了这么一段话。

「ChatGPT 想出了一个原创且聪明的想法，这是那种我琢磨一两周才会想到的主意，而 ChatGPT 用了不到一小时就找到并证明了。据我所知，这个想法完全是原创的。」

这话从一个刚在这个领域做出突破的年轻数学家嘴里说出来，分量是不一样的。

Gowers 最后的结论很直白，他说，2026 年开始读数学博士的学生，最早 2029 年才能毕业。而到那个时候，「数学研究的含义将发生天翻地覆的变化」。

你想想看，一个刚入学的博士生，还没修完第一年的课，就已经知道毕业的时候，自己所学的技艺可能已经不再需要人类来完成了。

这种感觉太复杂了。

Gowers 不是唯一一个被震住的人

GPT-5.5 的故事发生在 5 月初，然后，就像约好了一样，接下来几周接二连三地出了更多事。

5 月 21 日，OpenAI 正式宣布，他们的一款推理模型独立解决了平面单位距离问题。这个问题是 Paul Erdos 在 1946 年提出的，整整 80 年没人能解决。模型发现了一族全新的数学构造，超越了数学家们几十年的假设。外部数学家 Noga Alon 和 Melanie Wood 已经审阅了证明。

还没等数学界消化这件事，Anthropic 的工程师 Sholto Douglas 在 X 上发了一条推。他说，Claude Mythos 在周末也解决了同一个 Erdos 问题，而且用的是「一个巧妙简洁的证明」，更骚的是，他们是用了好几个 Claude Code Agent 互相交叉验证才搞出来的。

我说「更骚的」是因为这个细节很多人没注意到，Claude Mythos 不是一个人在解题。它是一群 AI Agent 协作完成的，一个 Agent 提证明，另一个 Agent 检查，来回辩论，最后得出了一个比 OpenAI 更简洁的版本。

这已经不是在比「谁家模型更强」了。

这是在比「谁的 AI 团队协作效率更高」。

然后，5 月 26 日，Google 来了。

Google 说，你们一个题一个题地解太慢了

AlphaProof Nexus ，Google DeepMind 的最新 AI 数学系统，它在 353 个 Erdos 开放问题中，自主解决了 9 个，其中 2 个已经悬置了 56 年。另外还证明了 44 个 OEIS 猜想，解决了一个 15 年没人搞定的 Hilbert 函数问题，甚至发现了一个凸优化领域没人注意到的新算法参数。

每个问题的计算成本，大概 5 到 400 美元。

Erdos 本人当年可是给这些题开了真金白银的悬赏的，他可能怎么也想不到，最终的「解题者」是几块钱一次的云计算。

AlphaProof Nexus 最有意思的不是它解了多少题，而是它是怎么解的。

它用了四级 Agent 架构，最简单的那一级，Agent A ，基本上就是一个 LLM 加上 Lean 形式化验证编译器。AI 提出证明，Lean 检查，有错就反馈给 AI ，AI 修改，再来，直到 Lean 说「通过」。

就这么一个简单的循环，就已经能解出全部 9 道题了。

你想想看，这意味着什么。

形式化验证把 AI 幻觉这个问题在数学领域彻底消除了，你说你证明了，编译器说过了，那就是真的证明了。不需要人类数学家逐行检查，不需要同行评议，不需要等几个月。

当然，高级 Agent 还加了 AlphaProof 的强化学习树搜索、进化算法、Elo 评分系统这些更复杂的东西，但最让人震撼的反而是最简单的那一级，LLM 加上一个不会说谎的裁判，就够了。

Google DeepMind 的 CEO Demis Hassabis 后来在一个播客里说，这还不是 AGI ，「差得远」。他解释说，能解方程式不等于有人类级智能，真正的 AGI 需要跨领域的原创力和创造力。

所以 AI 到底是真的在推理，还是在「检索」？

这个问题从 LLM 诞生第一天就在吵了，坦率的讲，这次几个事件出来之后，两边的论据都有新的变化。

质疑派会说，你没法 100% 证明 AI 不是从训练数据里「见过」类似的证明思路。数学文献浩如烟海，也许某个不起眼的论文里出现过相似的构造方法，AI 只是重新组合了一下。

这个质疑有道理，但我觉得有两件事不太好解释。

第一，Rajagopal 的认证。他自己就是这个领域的 active researcher ，刚发过这篇论文，如果 AI 只是复现了他已知的思路，他会说「这是我琢磨一两周才会想到的主意」吗。他是最了解这个领域前沿的人之一，他说这个想法是原创的，这个话的分量很重。

第二，AlphaProof Nexus 用 Lean 形式化验证了全部证明。也就是说，如果 AI 只是在「拼凑」或「编造」证明，Lean 编译器根本不会通过。形式化验证要求每一步推理都严格符合逻辑，任何漏洞都会被拒绝。这不是「听起来像那么回事」，这是「必须严格正确」。

当然，这也不意味着 AI 就突然理解了数学的「意义」或者有了「数学直觉」。它做的事情可能更像是一种极高效率的「搜索加验证」，在可能的证明空间中快速搜索，然后用形式化方法筛选。

但说实话，如果「搜索加验证」就能发现人类几十年没发现的新定理，那「理解」和「搜索」之间的界限，本身就开始变得模糊了。

但这件事不只是关于数学

我知道，看到这里的很多朋友可能会想，我又不是数学家，AI 会不会做数学题跟我有什么关系。

有关系。

数学是人类抽象推理能力的终极测试场，它不像写文章，你可以说 AI 只是在「拼接优美的句子」，也不像画画，你可以说 AI 只是在「模仿风格」。数学证明要求每一步都严格正确，没有模棱两可的空间，正确就是正确，错误就是错误。

所以当 AI 开始在数学这个领域产生原创发现的时候，它说明的不只是「 AI 数学变好了」。它说明的是，「推理」这件事本身，可能正在从人类的专属领地变成可以被自动化处理的东西。

Gowers 自己说过，未来的门槛可能不再是「你能不能证明一个新定理」，而是「你能不能证明一个 AI 证明不了的定理」。

这话听着有点刺耳，但说实话，这可能是我们这代人需要面对的最重要的变化之一。

不是 AI 会不会取代数学家，而是「创造新知识」这件事，从人类的独奏，变成了人与 AI 的二重奏。

当然，现在还在早期，AI 解决的还是那些可以被精确表述、有明确正确答案的数学问题。它还没有提出自己的猜想，没有建立自己的理论体系，没有发展出数学审美，至少目前没有。

但一周之内，三个不同的 AI 系统，各自独立地在人类几十年的未解难题上取得了突破，这不是某一个团队特别厉害，不是某一个模型运气好。

这是某种能力的集体涌现。

时间，流逝的本身

我一直在想那 17 分钟。

Gowers 把题目输进去，17 分钟后 AI 给出了答案。

我不知道他在这 17 分钟里在想什么。也许在喝咖啡，也许在盯着屏幕，也许在回想自己当年花几年才拿到的博士学位。

一个菲尔兹奖得主，坐在电脑前，看着一个人造的系统在 17 分钟内完成了他曾经花几年训练才能做的工作。

他没有表现出任何愤怒或者否认，他在博客里很认真地分析了结果，承认它的质量，然后开始思考数学教育的未来。

我觉得这种坦然本身，比 AI 能解数学题更值得被看见。

鱼神智码心

		自动登录	找回密码
密码			注册

一周之内，三个 AI 各自攻克了人类几十年没解开的数学题

本帖子中包含更多资源