第二批测试的 10 道题目来自各数学领域的一线研究者,覆盖范围从可计算性理论(computability theory)、离散几何(discrete geometry)到随机偏微分方程(stochastic partial differential equations)和冯·诺伊曼代数(von Neumann algebras),跨度足以检验 AI 在不同数学分支中的普遍能力。所有题目有一个共同的关键前提:它们出自研究者在工作中自然遇到并已解决的问题,但截至测试时既未发表,也未曾出现在互联网上。这是整个测试设计的核心,只有这样,才能切断 AI 在训练数据中检索答案的可能。
在正式测试开始前,出题者须在零数据留存(Zero Data Retention)环境下对候选题目进行预测试,使用的模型包括 ChatGPT 5.4/5.5 、谷歌 Gemini 3.1 Pro 以及 Anthropic Opus 4.7 。为期一周的预测试表明,没有任何单一模型能够在 30 分钟内解出这些题目。两道候选题目在此阶段被淘汰:一道因为模型的回应直接找到了文献中的类似已有结论,另一道由于模型检索到了一篇足以快速推导出答案的相关论文,出题者主动撤回。
进入正式测试的共有四个系统,参赛资格要求所有系统必须以公开可用模型为基础,通过应用程序 API 调用运行,且必须向 First Proof 完全公开代码和运行日志。
系统 A 名为 ProofCouncil ,由瑞士苏黎世联邦理工学院和丹麦奥胡斯大学的学术团队开发,主要基础模型是 ChatGPT 5.5 Pro ,同时也调用了其他几个模型协作;系统 B 是加州大学洛杉矶分校的 Moonshot Harness ,研究团队包括知名数学家陶哲轩(Terence Tao)等人,基础模型同样为 ChatGPT 5.5 Pro ;系统 C 是代表OpenAI 直接参赛的 ChatGPT 5.5 Pro ;系统 D 名为 Momus ,由普林斯顿大学开发,以谷歌 Gemini 3.1 Pro 为主要基础模型。
值得一提的是,谷歌内部专为数学设计的 Aletheia 系统,以及 Anthropic 尚未向公众开放的 Claude Mythos 完整版,均因不满足“公开可用”的条件而未能参赛。
系统 A 给出的证明走了一条与人类解法完全不同的技术路径。它的核心是将来自数学家 Khoa Le 的随机缝合引理(stochastic sewing lemma)用于建立一个漂移估计,然后通过吉尔萨诺夫熵界(Girsanov entropy bound)推导出过渡概率相对于高斯不变测度的绝对连续性,从而证明唯一性。三位评审均将其评定为“无实质性问题”,并指出,系统 A 建立的中间结论比人类解法更强,是一条真正新颖的证明路径。
在第 1 题(可计算性理论)中,系统 B 和系统 C 的答卷大量借鉴了图列茨基(Turetsky)关于可计算范畴结构自同构群编码的已有工作,却完全未予引用。第 2 题(离散几何)的情况则是开头提到的,多个系统的答卷在论证的第一部分几乎逐行照搬出题者施瓦茨早年发表的论文,却没有在任何地方引用这篇论文。
报告还指出了 AI 答卷的另一个规律性缺陷:在论证中,常规部分往往处理得繁琐而详尽,而在真正困难的关键步骤上却语焉不详,有时以“由标准论证可得”一笔带过,或引用实际上不包含该结论的论文来规避对难点的正面处理——这种做法,像极了我们在数学考试中做证明题,做到一半,发现证不下去,就开始乱写,然后祈祷不会被老师发现。
在成本维度上,各系统之间的对比颇具意味。系统 A 在整个测试中共花费 3186 美元,其中大部分输入 tokens 命中了缓存,压低了成本;系统 B 花费 4799 美元;系统 C(不附加任何外层框架的 ChatGPT 5.5 Pro)仅花费 117 美元;系统 D 花费 1014 美元。
系统 C 的通过题目数与系统 B 相同(均为 5 道),成本却不到后者的三十分之一。这组数字说明,学术团队在基础模型之上构建的多步骤协作框架(harness)可能会提升质量,但代价相当巨大,性价比的边际效益有限。