数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 203|回复: 0

一周之内,三个 AI 各自攻克了人类几十年没解开的数学题

[复制链接]
发表于 2026-6-1 00:05 | 显示全部楼层 |阅读模式
一周之内,三个 AI 各自攻克了人类几十年没解开的数学题

原创  桑榆非晚  鱼神智码心  2026 年 5 月 27 日 14:55  北京

Timothy Gowers 可能是这个星球上最懂数学的人之一。

1998 年他拿了菲尔兹奖,数学界的诺贝尔奖。他在剑桥大学教了几十年书,带过无数博士生,他对「什么是好的数学研究」这件事,有着肌肉记忆级别的判断力。

5 月初,他决定做一个小实验。

他打开 ChatGPT 5.5 Pro ,从一篇加法数论的最新论文里挑了几道开放问题,这些问题还没有人解出来,是正经的未解之谜。他把题目输进去,然后坐在屏幕前等着。

17 分 5 秒后,模型给出了第一道题的答案。

不是一个已知答案的复述,是一个全新的证明,而且用的是最优方法。Gowers 后来在他的博客里写,这个证明的质量是「一个组合数学博士学位中完全合理的一章」。



就,17 分钟,一个博士生可能要做几个月甚至一年的工作。

然后是第二道题,这道题更难,涉及 h-fold sumsets 。此前最好的结果来自 MIT 本科生 Isaac Rajagopal ,他证明了一个指数级的上界。GPT-5.5 Pro 先用 16 分钟把指数界改进成次指数界,然后又花了 54 分钟,一路推到了多项式界。

Rajagopal 后来看了 AI 生成的证明,说了这么一段话。

「ChatGPT 想出了一个原创且聪明的想法,这是那种我琢磨一两周才会想到的主意,而 ChatGPT 用了不到一小时就找到并证明了。据我所知,这个想法完全是原创的。」

这话从一个刚在这个领域做出突破的年轻数学家嘴里说出来,分量是不一样的。

Gowers 最后的结论很直白,他说,2026 年开始读数学博士的学生,最早 2029 年才能毕业。而到那个时候,「数学研究的含义将发生天翻地覆的变化」。

你想想看,一个刚入学的博士生,还没修完第一年的课,就已经知道毕业的时候,自己所学的技艺可能已经不再需要人类来完成了。

这种感觉太复杂了。

Gowers 不是唯一一个被震住的人

GPT-5.5 的故事发生在 5 月初,然后,就像约好了一样,接下来几周接二连三地出了更多事。

5 月 21 日,OpenAI 正式宣布,他们的一款推理模型独立解决了平面单位距离问题。这个问题是 Paul Erdos 在 1946 年提出的,整整 80 年没人能解决。模型发现了一族全新的数学构造,超越了数学家们几十年的假设。外部数学家 Noga Alon 和 Melanie Wood 已经审阅了证明。



还没等数学界消化这件事,Anthropic 的工程师 Sholto Douglas 在 X 上发了一条推。他说,Claude Mythos 在周末也解决了同一个 Erdos 问题,而且用的是「一个巧妙简洁的证明」,更骚的是,他们是用了好几个 Claude Code Agent 互相交叉验证才搞出来的。



我说「更骚的」是因为这个细节很多人没注意到,Claude Mythos 不是一个人在解题。它是一群 AI Agent 协作完成的,一个 Agent 提证明,另一个 Agent 检查,来回辩论,最后得出了一个比 OpenAI 更简洁的版本。

这已经不是在比「谁家模型更强」了。

这是在比「谁的 AI 团队协作效率更高」。

然后,5 月 26 日,Google 来了。

Google 说,你们一个题一个题地解太慢了

AlphaProof Nexus ,Google DeepMind 的最新 AI 数学系统,它在 353 个 Erdos 开放问题中,自主解决了 9 个,其中 2 个已经悬置了 56 年。另外还证明了 44 个 OEIS 猜想,解决了一个 15 年没人搞定的 Hilbert 函数问题,甚至发现了一个凸优化领域没人注意到的新算法参数。



每个问题的计算成本,大概 5 到 400 美元。

Erdos 本人当年可是给这些题开了真金白银的悬赏的,他可能怎么也想不到,最终的「解题者」是几块钱一次的云计算。

AlphaProof Nexus 最有意思的不是它解了多少题,而是它是怎么解的。

它用了四级 Agent 架构,最简单的那一级,Agent A ,基本上就是一个 LLM 加上 Lean 形式化验证编译器。AI 提出证明,Lean 检查,有错就反馈给 AI ,AI 修改,再来,直到 Lean 说「通过」。

就这么一个简单的循环,就已经能解出全部 9 道题了。

你想想看,这意味着什么。

形式化验证把 AI 幻觉这个问题在数学领域彻底消除了,你说你证明了,编译器说过了,那就是真的证明了。不需要人类数学家逐行检查,不需要同行评议,不需要等几个月。

当然,高级 Agent 还加了 AlphaProof 的强化学习树搜索、进化算法、Elo 评分系统这些更复杂的东西,但最让人震撼的反而是最简单的那一级,LLM 加上一个不会说谎的裁判,就够了。

Google DeepMind 的 CEO Demis Hassabis 后来在一个播客里说,这还不是 AGI ,「差得远」。他解释说,能解方程式不等于有人类级智能,真正的 AGI 需要跨领域的原创力和创造力。



所以 AI 到底是真的在推理,还是在「检索」?

这个问题从 LLM 诞生第一天就在吵了,坦率的讲,这次几个事件出来之后,两边的论据都有新的变化。

质疑派会说,你没法 100% 证明 AI 不是从训练数据里「见过」类似的证明思路。数学文献浩如烟海,也许某个不起眼的论文里出现过相似的构造方法,AI 只是重新组合了一下。

这个质疑有道理,但我觉得有两件事不太好解释。

第一,Rajagopal 的认证。他自己就是这个领域的 active researcher ,刚发过这篇论文,如果 AI 只是复现了他已知的思路,他会说「这是我琢磨一两周才会想到的主意」吗。他是最了解这个领域前沿的人之一,他说这个想法是原创的,这个话的分量很重。

第二,AlphaProof Nexus 用 Lean 形式化验证了全部证明。也就是说,如果 AI 只是在「拼凑」或「编造」证明,Lean 编译器根本不会通过。形式化验证要求每一步推理都严格符合逻辑,任何漏洞都会被拒绝。这不是「听起来像那么回事」,这是「必须严格正确」。

当然,这也不意味着 AI 就突然理解了数学的「意义」或者有了「数学直觉」。它做的事情可能更像是一种极高效率的「搜索加验证」,在可能的证明空间中快速搜索,然后用形式化方法筛选。

但说实话,如果「搜索加验证」就能发现人类几十年没发现的新定理,那「理解」和「搜索」之间的界限,本身就开始变得模糊了。

但这件事不只是关于数学

我知道,看到这里的很多朋友可能会想,我又不是数学家,AI 会不会做数学题跟我有什么关系。

有关系。

数学是人类抽象推理能力的终极测试场,它不像写文章,你可以说 AI 只是在「拼接优美的句子」,也不像画画,你可以说 AI 只是在「模仿风格」。数学证明要求每一步都严格正确,没有模棱两可的空间,正确就是正确,错误就是错误。

所以当 AI 开始在数学这个领域产生原创发现的时候,它说明的不只是「 AI 数学变好了」。它说明的是,「推理」这件事本身,可能正在从人类的专属领地变成可以被自动化处理的东西。

Gowers 自己说过,未来的门槛可能不再是「你能不能证明一个新定理」,而是「你能不能证明一个 AI 证明不了的定理」。

这话听着有点刺耳,但说实话,这可能是我们这代人需要面对的最重要的变化之一。

不是 AI 会不会取代数学家,而是「创造新知识」这件事,从人类的独奏,变成了人与 AI 的二重奏。

当然,现在还在早期,AI 解决的还是那些可以被精确表述、有明确正确答案的数学问题。它还没有提出自己的猜想,没有建立自己的理论体系,没有发展出数学审美,至少目前没有。

但一周之内,三个不同的 AI 系统,各自独立地在人类几十年的未解难题上取得了突破,这不是某一个团队特别厉害,不是某一个模型运气好。

这是某种能力的集体涌现。

时间,流逝的本身

我一直在想那 17 分钟。

Gowers 把题目输进去,17 分钟后 AI 给出了答案。

我不知道他在这 17 分钟里在想什么。也许在喝咖啡,也许在盯着屏幕,也许在回想自己当年花几年才拿到的博士学位。

一个菲尔兹奖得主,坐在电脑前,看着一个人造的系统在 17 分钟内完成了他曾经花几年训练才能做的工作。

他没有表现出任何愤怒或者否认,他在博客里很认真地分析了结果,承认它的质量,然后开始思考数学教育的未来。

我觉得这种坦然本身,比 AI 能解数学题更值得被看见。

鱼神智码心

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2026-6-24 09:41 , Processed in 0.122128 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表