数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 82|回复: 1

普通人用 AI 攻克数学猜想的时代,要来了?

[复制链接]
发表于 2026-5-7 00:42 | 显示全部楼层 |阅读模式
普通人用 AI 攻克数学猜想的时代,要来了?

过度炒作会导致倦怠和冷漠。如果一切都被描绘成某种奇迹般的突破,真正重要的进步就不会被认可。

AI 自主解决有严肃学术背景的数学问题,这是今年第一季度最重要,至少是最引人注目的数学大事件。

撰文 | 嘉伟

AI 大潮一日千里,许多技术还未流行就已过时。有人曾半开玩笑地总结现代 AI 工具的学习经验:“你越不学,就越不用学。”

2025 年夏天,AI 模型在国际数学奥林匹克(IMO)上解出 6 道试题中的 5 道(相当于获得了金牌),震惊了数学界。此后若干团队开始深入研究,在当年年末,已经训练出可以完美解答 USAMO(美国数学奥林匹克竞赛)试题,乃至著名的普特南数学竞赛试题的 AI 模型 [1, 2] 。然而,为他们献上的只有寥寥掌声。因为就在同一时期,已经有 AI 能完全自主解决传奇数学家保罗·埃尔德什(Paul Erdos)遗留的数学问题。相较之下,仅仅是在有标准答案的考试中拿到满分,这个水平就有些尴尬了。

AI 模型自主解决开放的数学问题(以及 AI 辅助人类解决数学问题),堪称是今年上半年最重要的数学事件。它从一开始就经历了一连串的乌龙、炒作和反转。

2025 年 10 月 18 日,OpenAI 旗下研究员 Mark Sellke 在社交平台 X 上高调宣布:他们借助 GPT-5 成功解答了 10 个著名的埃尔德什问题(Erdos problems)。

“经过对 GPT-5 的数千次查询,我们发现了 10 个原本还处于开放状态的问题的解答,分别是 #223、#339、#494、#515、#621、#822、#883(第二部分)、#903、#1043、#1079 。此外,还有 11 个难题取得了重要的部分进展,已更新到官网。甚至在第 827 题上,我们还发现埃尔德什本人原始论文里存在错误,这个错误由 Martínez 和 Roldán-Pensado 两位学者后来进行了修正。看来,未来的科学研究要变得有趣了!”

OpenAI 高管 Kevin Weil 和 OpenAI 另一知名研究员 Sebastien Bubeck 也兴奋地应和:“由 AI 驱动的科学加速时代正式开启了!两位研究员仅一个周末就借助 GPT-5 成功解决了 10 个埃尔德什问题……”

不过 Google DeepMind 的 CEO Demis Hassabis 则在 Mark Sellke 的推文下意味深长地评论道:“太尴尬了(this is embarrassing)!”

原来 OpenAI 的宣传夸大其词,GPT-5 只是通过网络搜索,找到了早已存在的论文,这些论文解答了那些问题。只不过论文本身并不广为人知。

几个月后,还有位数学教授以这个乌龙事件为例,断言现阶段 AI 无法独立攻克有真实学术背景的数学难题。未曾想话音未落,就有不止一个团队站出来表示,他们已经让 AI 独立解决了某些埃尔德什问题。

经过一番甄别与审校,最终认定第一个做到此事的,是一位来自剑桥的 21 岁数学系本科生与他的合作伙伴。

不过在开始他们的故事之前,还是要解释一下什么是埃尔德什问题,以及那些 # 号数字又代表什么。

先把问题放到一起

“埃尔德什问题”通常并不是指某一个特定的数学难题,而是指由 20 世纪最具传奇色彩的匈牙利数学家保罗·埃尔德什生前提出的一大批数学猜想。

埃尔德什是一位“游侠数学家”,没有固定住所,也没有全职工作。他总是提着行李箱在世界各地的大学和研究所之间穿梭,常常不请自来地突然出现在数学家的家门口,嚷嚷“我的大脑随时开放!”他被认为是数学史上最多产的合作者,一生中与超过 500 名数学家联合发表过 1500 多篇论文。

许多著名的埃尔德什问题并非独出机杼,而是他在别人客厅里、在咖啡馆的餐巾纸上,与当地数学家热烈讨论时共同构思出来的。埃尔德什有一个非常著名的习惯——为未解问题开出悬赏。奖金金额从 25 美元(代表难度较低但仍需巧思)到 10000 美元(代表难度极高)不等。

如果在旅途中,他听到别的数学家提出了一个非常优美、重要但尚未解决的问题,即使这个问题不是自己想出来的,他也会自掏腰包为它悬赏,并在各种国际会议上宣扬。

可以说,埃尔德什问题是埃尔德什以独特的个人魅力、敏锐的直觉和慷慨的悬赏,在整个数学界建立起的一个问题宝库。涉及的领域从加性组合、解析数论、极值图论,到一般的集合论、数论、组合学和概率论。

近几年非常有建树的数学家 Thomas Bloom(曼彻斯特大学的皇家学会大学研究员,解析数论和加性组合领域的专家)决定建立一个网站[3],用于收录埃尔德什未解决的开放性难题。

这个网站最初创建于 2023 年 3 月底,问题以“#+数字”编号。一开始 Bloom 只私下分享链接,后来于 2023 年 5 月 28 日正式上线。笔者当时在微博上介绍过这个网站。当时它仅收录了 200 多道问题,网站本身仅能浏览和查找。

因为这些问题来源不一,所以有些问题或许早已得到解决,只不过相关论文被埋没在历史之中。如下面著名的问题 #707 ,是埃尔德什悬赏 1000 美元求解的难题。但后来发现,甚至早在埃尔德什提出这个问题的 30 年前,就有人想过这个问题并解决了它。这揭示了文献检索的困难——即使是顶级数学家也可能忽略已有的成果。


有赏格的数学问题。| 图源:T. F. Bloom, Erdos Problem #707

追求完美的 Thomas Bloom 每每想到自己会遗漏多少重要的资料,都会浑身难受。但没有办法,他只能默念伏尔泰的名言“完美是善的敌人”来劝慰自己。先把网站开起来,尽可能把问题收录在册;先统一标记为开放问题,再随缘或借助网络的力量,为已有答案的问题补上解答。这也是前面 OpenAI 搞了个大乌龙的原因。

因为网站全依赖他一人维护,每天光是手动录入各种文献就要耗费大量宝贵的时间。2025 年 8 月,Bloom 才为这个网站添加了评论功能,结果当天菲尔兹奖得主陶哲轩和 Stijn Cambie、Vjeko Kovac 在评论区讨论一番,就为 #379 找到了一个简短的解决方案。那些对话还保留了数学家的思考痕迹。


交流是有价值的。仅仅是添加了一个评论区供人们讨论,一个猜想就从 open 变成了 solved 。Erdos Problem #379 的证明已通过 Lean 语言校验得到确认。| 图源:T. F. Bloom, Erdos Problem #379

截至目前,erdosproblems.com 网站上有超过 1200 个问题(只有约 100 个问题设有奖金),其中约 44% 已得到解决。

需要澄清的是,埃尔德什问题的难度跨度极大,有些极其困难,有些则“唾手可得”。有媒体动辄冠以“AI 破解 N 年难题”,暗示这个问题非常困难,在 N 年间抵挡住了人类所有的破解尝试。然而实际情况可能只是问题十分冷门,在数学界 N 年无人问津。

把问题放到一起,让故纸堆中的问题被更多数学家看见,这大大加速了这些“遗留问题”的破解进程。有人开始意识到,这个网站恰好可以作为一块试金石,来检验 AI 在真实学术活动中的潜力。

第一个吃螃蟹的 AI


早在 2024 年,诸如 Google DeepMind 开发的强大 AI 模型已经可以辅助人类证明新的数学定理。但 AI ,或者说现在的大语言模型(LLM),能否在不需要人类提示的情况下独立解答一个至今未解的埃尔德什问题?

名为 Axiom Math 的初创公司正试图将数学中的“解谜”环节自动化。它在去年 9 月份宣布获得 6400 万美元的种子轮融资。

今年年初,这家公司表示他们的 AI 模型 AxiomProver 解决了两个困扰数学界数十年的埃尔德什问题—— #124 和 #481 。

然而,这似乎是为了向投资人展示企业业务能力的一次炒作。

真正解决#124的AI 是另一家公司Harmonic名为Aristotle(亚里士多德)的模型。不过Aristotle也投机取巧了:问题#124表述有歧义,其中一种理解方式会让问题变得非常简单。现在网站上收录的#124是消除了歧义的版本,至今未有解答。

AxiomProver 解决的 #481 ,实际上早在 1982 年就已由 David Klarner 给出了证明。

所以上述两例的记录难以服众(不过 AxiomProver 和 Aristotle 非常善于将数学证明转为 Lean 语言),但他们启发了更多的研究者。

Kevin Barreto ,网名 Acer ,线上是亚文化社区里的“furry 控”,线下是剑桥大学数学系 21 岁的本科生。他自 13 岁起就喜欢解析数论这门学科,早就翻过埃尔德什问题网站上所有未解题目。但他从未想过由自己来证明其中的某个猜想。

2025 年 11 月,他看到 Harmonic 的 Aristotle 解决了简化版的 #124 ,就有些坐不住了。因为他当时对人工智能系统的能力还不太信服,觉得如果这些系统能在这些问题上取得进展,那么自己也有机会摘下一枚“低垂的果实”。

低垂的果实,low-hanging fruit 。用于形容那些容易实现、成本低、风险小的目标或任务。陶哲轩在去年用这个短语来描述那些可被 AI 解决的数学问题,它也就成为数学界和 AI 领域的热词。

除了扎实的数学功底,Barreto 还是 Aristotle 最早的测试用户之一。

在连续两次为早有解答的问题提交证明后,Kevin Barreto 与合作伙伴 Liam Price 借助 OpenAI 当时新推出的 GPT-5.2 Pro 解决了 #728 。

2026 年 1 月 7 日,Barreto 使用 Aristotle 把证明过程自动转为 Lean 语言并完成校验,这一成果被陶哲轩称为里程碑式的成就。这是第一个 AI 自主完成的,有严肃学术背景的埃尔德什问题的证明!


实际上,确认这个证明也是经过了一番波折。| 图源:T. F. Bloom, Erdos Problem #728

来势汹汹

这两人的成功,激发了大家的热情。好奇的人们涌向了 Bloom 的网站。高峰时期,每天总计有 15 万不同的访客访问这个网站。要知道,这可是一个纯数学平台。

很多人递交了自己用 AI 生成的证明,可惜大部分网络用户缺少必要的数学知识,难以辨别 AI 的证明是胡言乱语还是真材实料。

陶哲轩建立了资源库[4],用于记录那些真正的证明。

从 1 月初到 2 月 10 日前后的一个多月里,他收到了大量针对这些问题的新解答,其中既有纯 AI 生成的证明,也有人机协作的产物。有些被证明是错误的,还有一些被发现与已有方案相似,但尽管如此,还是有很多新解法被验证——在此期间,网站上又有近 50 个问题被标记为已解决。AI 工具对埃尔德什问题的真正成功率实际上只有一两个百分点;但由于有 600 多个悬而未决的开放问题,这仍然带来了令人印象深刻的实际贡献,尽管这些贡献绝大多数集中在难度天平里“容易”的那一端。

这里展示几个有趣的结果。

Boris Alexeev、Mehtaab Sawhney 等人使用 OpenAI 的内部模型一次解决了 5 个埃尔德什问题[5]。


#1091 :如果一个图的色数为 4 ,而每个小子图的色数至多为 3 ,那么它是否必须包含一个带有许多对角线的奇圈?内部模型给出了一个非常启发性的反例。| 图源: Short proofs in combinatorics, probability and number theory II

美国 17 岁的高中生 Enrique Barschkis 在埃尔德什问题网站的评论区正确解答了一个开放问题 #347 。两个月后,他又用 AI 自主解决了 #1197 。这个少年经常和数学家通信,向其请教诸如椭圆曲线等问题。因此很多美国数学家都知道他,还给予过指导和鼓励。


这个问题,提交者没有使用 AI 。| 图源:T. F. Bloom, Erdos Problem #347

同样 17 岁的 Sky Yang 未用 AI ,证明了 #369 。


这个问题,提交者同样 17 岁,没有使用 AI 。| 图源:T. F. Bloom, Erdos Problem #369

Ulam.AI 是一家专注于前沿 AI 推理数据与评估的平台,主要服务对象是 AI 实验室和开发者。Ulam.AI 研究员 Przemek Chojecki 先解决了 #258 ,又解决了 #1148 。

后一个问题问,对于所有足够大的正整数 n ,是否存在整数三元组 (x,y,z) ,满足 max(x^2,y^2,z^2)≤n 且 n=x^2+y^2-z^2 ?(答案是肯定的)

这种高中生也能充分理解题意的成果真的令我喜欢。顺便一提,证明方法则完全相反,是非初等的。

Przemek Chojecki 还公布了他使用 AI 研究数学的方法。这与 Kevin Barreto 和 Liam Price 的方法论大体相同,不过后者要更加细节化。我整理后分享如下。

使用 AI 做数学的方法论

1. 你必须具备一种能力或素养,大致能看出哪些问题是足够简单的。

2. 使用当下最前沿的 AI 。其实就是最贵的 AI 。如果是 GPT 系列,推荐订阅月费 200 美元那一款。

3. 在把开放问题丢给 AI 时,要明令禁止它检索。强迫它进入“思考”而不是搜索模式。避免模型识别出问题是开放的,因“胆怯”而拒绝尝试。

4. 明确任务指令,告诉模型这是一个复杂的数学问题,每一步都需要严谨证明或反驳。

5. 用一个模型实例进行“研究问题陈述+头脑风暴思路”。输出简短的提示(例如用 LaTeX 表达核心思路),供后续实例使用。

6. 用另一个模型实例根据提示尝试写出完整证明。

7. 交叉检查,再用一个模型审查证明,指出潜在错误或缺口。通过迭代修正,逐步逼近正确解。

8. 避免幻觉的策略是鼓励诚实,让模型在遇到困难时说明“未能证明某个引理”,而不是编造。

9. 分步验证,每个阶段都要求模型解释逻辑,而不是直接给最终答案。

10. 形式化与排版,将最终证明转为 LaTeX ,保证表达清晰、规范。如果条件允许,可以进一步用 Lean 或其他证明助手进行形式化验证。

11. 人类监督。即使不是专业数学家,也要检查证明是否“看起来合理”,避免明显的胡说八道。

最终迭代改进,人类反馈+模型修正,形成闭环。有志于数学研究的朋友都应尝试一下,尤其是数学专业的学弟学妹。

价值几何

那么现代 AI 工具到底能力如何?

陶哲轩在去年的时候曾表示,现在的 AI 大体上相当于聪明的博士研究生。这句话到今天仍未过时。

Kevin Barreto 本人在前段时间也忍不住感叹,AI 给出的证明没有真正让他眼前一亮的新颖东西。但也不应该低估 AI 的潜力。

他们令 AI 提交的证明,与美国数学家 Carl Bernard Pomerance 在 2014 年的一篇论文所使用的方法非常相似。事实上,Pomerance 现在已发布了一份简短的说明[6],展示了该论文中的方法如何可用于 #728 的证明。 不过,AI 生成的方案确实是第一次把该技术用于这一问题。有关情况的完整概述,请参见 Nat Sothanaphan(曾是泰国 IMO 国家队成员,并在 2012 年代表泰国参赛获得银牌)的完整报告[7]。

AI 的贡献,性质相当微妙;无论从单个案例看,还是考察整体趋势,它们都不符合人工智能自主解决重大数学开放性问题这一被夸大的目标,但它们也不能都被视为无关紧要的小把戏。AI 有一个显而易见的价值,就是降低了数学爱好者进入前沿领域的门槛。

Kevin Barreto 和 Liam Price 不同,是一位非常外向,乐于交流的青年。因此本文对前者着墨较多,在他还没有出名之前,笔者就和他在线短暂交流过。他平时喜欢解复杂的积分作为娱乐,他特别喜欢陈景润关于哥德巴赫猜想“1+2”的证明,找到“1+1”的证明是他的数学理想之一。

但实际上,Liam Price 是技术力非常强的极客,只不过不愿透露个人的信息。他在团队的贡献,并不在 Kevin Barreto 之下。

他们两人连续解决几个埃尔德什问题后,又在专门为评估 AI 高阶数学推理能力而设计的基准测试数据集 FrontierMath 项目里拔得头筹。一次可以说是运气,两次那就是实力。

Kevin Barreto 又加入 Google DeepMind 的团队,在 Gemini 上也第一次实现了 AI 自主证明埃尔德什问题。

随后他本想安心学业,但 OpenAI 抛来了橄榄枝。他果断休学一年,进入当前 AI 领域的旗舰企业实习。


分享在 OpenAI 的工作生活。| 图源:Kevin Barreto

OpenAI 的高管邀请 Kevin Barreto 正式入职,但剑桥不允许无故连续休学 2 年。Barreto 想留在企业,就只能选择退学。

纠结不已的他在 4 月 18 日前后,甚至向网友求助,询问如果现在退学,以后是否有办法能继续读研。没想到正应了本文最开头的话:AI 时代,瞬息万变。就在 Barreto 犹豫的时候,向他发出邀请的 OpenAI 高管 Kevin Weil 在 19 日左右宣布离职(此君也是前面乌龙事件里的出场人物)。

与此同时,继续独立研究埃尔德什问题的 Liam Price 用 AI 自主解决了 #1196 。


一个有严肃学术背景的问题。| 图源:T. F. Bloom, Erdos Problem #1196

AI 在证明过程中,出乎所有人意料地使用到了马尔可夫链与通常不会用在此类问题的数论函数冯·曼戈尔特函数。这令人耳目一新、印象深刻,是数学家以前未曾设想过的思路。

菲尔兹奖得主、当今解析数论领域新一代领军人物 James Maynard 的学生 Jared Duker Lichtman 对这个证明赞不绝口,甚至认为这相当于 AI 在数学领域里的 Move 37 时刻。

Move 37 是指在 2016 年 3 月 AlphaGo 与李世石对决的第二局中,由 AlphaGo(执白)下出的一步。这步棋被公认为是围棋 AI 发展史上人工智能的棋力超越人类经验的里程碑时刻。这是一手罕见的“肩冲”(shoulder hit),被视为出乎意料且具有高创造力的行棋。

不过,或许因为 Lichtman 曾长时间思考过这个问题未果,所以他对这个问题的价值是高估的。很多人并不太认可 Move 37 的看法,尤其是陶哲轩在简化证明的时候发现,可以给出表面上不用马尔可夫链的证明。

不过就在本文即将完稿的时候,前文提过的 OpenAI 研究员 Sebastien Bubeck 用当天刚上线的 ChatGPT Images 2.0 为 #1196 绘制了证明路线图。称之为 AI 第一个非平凡的数学成果。


#1196 证明路线图。| 图源:Sebastien Bubeck

最后,有读者可能会误以为埃尔德什问题 #728 是第一个被 AI 自主解决的开放性数学问题。但据笔者考证,它并不是。

#728 很可能是第二个。

苏黎世联邦理工学院的数学家 Johannes Schmitt 的团队,他们更早(宣称)实现了 AI 首次在没有人类提示、没有辅助框架的情况下,独立给出一个开放数学问题的完整有效证明。

题目涉及曲线模空间上的交数,属于枚举几何的研究方向。他们称 AI 做出了“小但新颖的贡献”。

不过因为这个问题没有大数学家埃尔德什带来的光环,所以并未引起大量关注。


枚举几何 | 图源:Johannes Schmitt

后记

就在本文编辑的过程中,自 GPT-5.5 的发布不到 48 小时,就有 20 个埃尔德什问题的新答案提交。

前文提到的美国 17 岁的高中生 Enrique Barschkis ,把一个开放问题提交给 GPT-5.5 ,自己出去散步 80 分钟。回来之后,AI  就为一个此前未知结果的数学问题找到了答案。甚至只需人手执行简单的复制粘贴操作,AI 提供的证明就能转为编辑好的 LaTeX 格式并经过 Lean 语言校验。

从 5 月 1 日到 2 日,24 小时里就有 5 个问题的状态从“开放”转为“已解决”。实际上,Thomas Bloom 的网站因 AI  提交答案太多(很多是毫无意义的),已经濒临瘫痪。他说:“我希望,在近期 AI 解决埃尔德什问题的大量宣传中,至少能有几个人真正阅读了其中的数学内容,并学习了一些背后的理论,例如 primitive sets 。AI 新闻头条是次要的,它们背后蕴含的优美数学才是真正的主角!”

另外,关于 #1196 ——可能是第一个被 AI 用独创方法解决的问题,它的方法可以推广,过几天会有更多报告和论文[8]。但并非某些自媒体报道的那么夸张。

虽然中奖率还不高,但现在确实已经进入到大众都可以研究前沿数学的时代。

这场 AI 盛宴,国内团队普遍缺席。或许目前唯一大放异彩的参与者,是来自西安交通大学、今年刚刚大四的本科生汤泉宇。那就是另外一个精彩的故事了。

参考文献

[1] From Seeing Why to Checking Everything | Axiom,https://axiommath.AI /territory/from-seeing-why-to-checking-everything
[2] Olympiad-level formal mathematical reasoning with reinforcement learning | Nature
[3] https://www.erdosproblems.com/
[4] https://github.com/teorth/erdosproblems/wiki/AI -contributions-to-Erd%C5%91s-problems
[5] Short proofs in combinatorics, probability and number theory II,https://arxiv.org/abs/2604.06609
[6] https://math.dartmouth.edu/~carlp/binom.pdf  
[7] https://arxiv.org/abs/2601.07421
[8] [2605.00301] Primitive sets and von Mangoldt chAI ns: Erdos Problem #1196 and beyond,https://arxiv.org/abs/2605.00301

原创  嘉伟  返朴  2025 年 5 月 6 日 08:23  北京

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2026-5-7 09:45 | 显示全部楼层
囟门Ai比人更理解数学人的创新论点!合理的创新,他帮你分析创新点的逻辑,自恰......等等;不合理的论点,帮你分析不成立的原因。吴代业的0+0=1的理论,得到“囟门”(深度求索)百分之百肯定。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2026-5-9 23:39 , Processed in 0.121768 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表