构造题目中并不存在的点或线,大概是很多人曾在中学数学课上经受过的震撼(或者说折磨)。而这些“莫名其妙”却必须出现的辅助构造,对于计算机同样是一种折磨,一般的推导算法并不能做到,但这恰好是 AI 算法中的大语言模型(large language model,LLM)所擅长的。事实上,大语言模型正是 AlphaGeometry 架构中的另一个关键模块。
知晓关键模块如何运作后,AlphaGeometry 的整体架构就更容易理解了。当 AlphaGeometry 得到一个问题时,推理引擎会首先推导出题目中图形的一些性质,也就是给出该构图下的推理闭包。如果这些性质并不包含我们要证明的结论,就需要 AI 介入了。比如,它决定为题目中的三角形 ABC 添加一个辅助点: BC 的中点 D ——这样的“创造力”正是 AI 从过往的训练数据中学到的。这样,AI 便能为推理引擎提供一个更丰富的构图,在此基础上继续推导新的性质。这两个程序可以交替运行,直到它们一同证明了所需的结论。“这个方法听起来似乎是合理的,某种意义上,它有点像数学竞赛参赛选手的训练过程,”三届 IMO 金牌获得者、菲尔兹奖得主彼得·舒尔茨(Peter Scholze)评价道。
当然,想要让 AI 真正地在数学的其他方面展现相当的水平并非易事。研究人员不仅需要在代码层面对研究领域中的数学概念给出明确的定义,也需要考虑如何搭建相应的架构。在几何领域表现优异的 AlphaGeometry ,其架构包括三个部分:一个初始“构图”采样器、一个用于推理的符号引擎和一个能识别辅助构造的回溯算法。只有集齐了这些部件,大语言模型的创造力才能真正发挥作用。但仔细考虑这三个部分,每一个都不简单。