数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 9|回复: 0

AI 首次独立破解“八十岁”数学难题

[复制链接]
发表于 2026-5-28 00:10 | 显示全部楼层 |阅读模式
AI 首次独立破解“八十岁”数学难题

编译  李木子  中国科学报  2026 年 5 月 25 日 19:30  北京

5 月 20 日,OpenAI 宣布,它的人工智能(AI)聊天机器人在所谓的单位距离问题上,证明了匈牙利数学家 Paul Erdos(1913 — 1996 年)的观点是错误的。OpenAI 的 AI 聊天机器人利用来自数学家的一个提示,破解了这道已有 80 年历史的几何难题。目前,这一发现已得到与该公司无关的数学家的独立验证。

1946 年,Erdos 推导出了一个他认为的平面上的点的最佳排列方式,即让尽可能多的点之间的距离保持在给定距离上。他还提出了一个挑战:没有人能够做得更好。

现在,OpenAI 表示,他们的系统已经做到了这一点。它是通过运用代数数论中的相关技术实现的。这使得它能够选取坐标值作为特定方程解的点。这一发现令数学家感到震惊。

“如果 Erdos 还活着,他肯定会对这一进展欣喜若狂。”美国佐治亚理工学院的数学家 Tom Trotter 说。他曾与 Erdos 共同撰写过相关论文。

OpenAI 的数学家 Sebastien Bubeck 表示,他认为这是 AI 首次在一个科研领域自主产生的重要成果。美国加利福尼亚大学伯克利分校的数学家 Tony Feng 表示:“我一向对 AI 在数学领域的影响持审慎态度,但这次的成果实在令人难以置信。”

加拿大多伦多大学的数学家 Daniel Litt 是 OpenAI 邀请来验证这一证明的独立研究人员之一。他表示:“这是第一个完全由 AI 独立得出的研究结果,其本身就极具研究价值。”

在几何学中,点可以在平面上进行排列,并让许多对点具有相同的相互距离。例如,一个有 9 条边的正九边形就有 9 组等距的点对,这是因为 9 条边的边长完全相等;而在一个正方形网格上放置 9 个点,则能形成 12 组这样的等距点对。

Erdos 证明了越来越大的网格如何能够包含大量距离相等的点,并且这个网格会以比点数增长略快的速度无限延伸。此外,他还提出一个猜想,即没有人能找到一种更好的方法来排列这么多的具有相同距离的点。

然而 OpenAI 表示已经具备了这种能力。该公司的 AI 模型利用代数数论中的技术实现了这一目标,该技术使它能够选择坐标作为特定方程解的点。Bubeck 说,该模型已生成了一条很长的思维链,使得得出这一答案的提示是一个关于 Erdos 的猜想是真还是假的开放式问题,并不是一个证明他是错误的明确要求。OpenAI 的数学家 Mehtaab Swahney 说:“看到这个模型像人类一样真正通过推理来解决问题,着实令人惊叹。”

这一推理过程包含在一份长达 125 页的文件中,但 OpenAI 尚未完全公布这份文件。此外,该公司也未透露其模型的具体名称。Bubeck 表示,这是一个实验性的通用推理模型,并非专为解决数学问题而设计,并且它能够根据一个提示自主完成所有工作,即对 Erdos 问题给出一个机器重写的表述。

Bubeck 表示,这种做法与利用AI解决数学问题的“编排”方法截然不同。在“编排”方法中,研究人员会让大语言模型(LLM)通过不断迭代的方式纠正自身的错误,从而找到问题的解决方案。

相比之下,OpenAI系统给出的答案不会因提示语的表述方式不同而有太大差异。到目前为止,一些针对数学问题的最佳 AI 解决方案都需要大量试错,而提示语的使用已成为一门艺术。“如今,你基本可以任何你想要的方式提出问题,而模型都会正确理解这些问题。”Bubeck 说。

Litt 表示,由 AI 生成的解决方案所采用的算法来自代数数论这一事实表明,AI 模型正在超越专业化“孤岛”的局限,实现更广泛的应用。他补充道,没有人能够像 LLM 那样全面掌握数学领域的文献内容。

“我们所有人都曾预料有朝一日会看到这样的情况,但没想到会这么快。”OpenAI 的数学家 Mark Sellke 说,“这与一个月前我们习以为常的情况相比,是一个巨大的飞跃。”

《中国科学报》(2026-05-25 第 2 版 国际)

编译 | 李木子

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2026-5-28 04:22 , Processed in 1.952274 second(s), 15 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表