数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 113|回复: 0

OpenAI 被曝 IMO 金牌「造假」,陶哲轩怒揭内幕!

[复制链接]
发表于 2025-7-24 00:20 | 显示全部楼层 |阅读模式
OpenAI 被曝 IMO 金牌「造假」,陶哲轩怒揭内幕!

来源:新智元报道  

编辑:桃子 好困


【新智元导读】OpenAI 高调摘下数学金牌,竟是自嗨!组委会内部人士透露,OpenAI 不仅未与 IMO 官方合作,甚至无视赛事规则,在闭幕派对未结束前抢先官宣。全网怒批其不尊重人类选手,炒作过头。

OpenAI 夺下 IMO 金牌,最新大瓜又来了。

昨日,因内部审核流程,谷歌 DeepMind 研究员在评论区,暗讽 OpenAI 抢先发布测试结果。



原来,事情并非那么简单。

一位 IMO 内部人士透露,实际上 OpenAI 并没有和组委会合作,拿下 AI 金牌不一定真实有效。

最关键的是,他们违背了 IMO 规定的「公布时间」规则。



为了避免 AI 公司们抢夺人类学生的风头,IMO 评审团要求:在闭幕式结束一周后再公布结果。

然而,OpenAI 却在闭幕 Party 还未结束前,就发布了结果。





对此,谷歌 DeepMind 负责人 Thang Luong 表态,「是的,IMO 组委会有一份不对外公开的官方评分标准」。

若未依据该标准进行评估,任何奖牌声明均无效。  

扣除 1 分后应为银牌,而非金牌。



这么说来,OpenAI 声称拿下 IMO 金牌,只是自嗨?!

01  OpenAI 真面目被戳穿  抢夺学生风头

就在昨天,菲尔兹奖得主陶哲轩在一口气连发三条评论,暗指的就是 OpenAI 。

他表示,「自己不会评论任何未预先公开测试方法的 AI 竞赛成绩报告。在缺乏受控测试环境的情况下,AI 的数学能力难以准确评估」。



另外,IMO 组委会一位成员 Joseph Myers 透露,OpenAI 并非是 IMO 合作测试模型的 AI 公司之一。

而且,阳光海岸的 91 位协调员(Coordinator)也无人参与结果评估。



P6 题协调员表示,「 IMO 评审团和协调员一致认为,OpenAI 此举显得失礼且不妥当」。

根据 IMO 规定,借助 AI 模型参赛的公司,需要在 7 月 28 日之后公布结果。

一家专注于数学 AI 初创公司 Harmonic 官方发文,从侧面印证了这一规定存在的准确性。



02  最新回应引热议

OpenAI 研究科学家,德扑之父 Noam Brown 下场回应,给出了两点证明:

首先,团队是在闭幕式「之后」公开结果。闭幕式有直播记录,这一点很容易核实。

其次,他确认了 OpenAI 并未与 IMO 进行协调,只是在发帖前与一位组织者告知了此事。出于对参赛学生的尊重,要求 OpenAI 等到闭幕式结束后再发布——「我们也照做了」。



对此,有人还精细计算了闭幕式和公开结果的时间差。

IMO 闭幕式的时间在 7 月 19 日(当地时间)下午 4 点举行闭幕式,直播时间 1 小时 43 分钟,结束时间不晚于 5 点 43 分。







再来看负责人 Alexander Wei 的发文时间,7 月 19 日下午 3:50(东八区),也就是当地时间的 5 点 50 分。



从时间来看,确实是 OpenAI 在 IMO 闭幕式结束 7 分钟后,才发布了公告。

即便如此,网友们仍旧看不惯 OpenAI 炒作风暴,而且根本没有给获奖学生留有余地。





而且,可以确定的是,OpenAI 公布的结果,并没有得到 IMO 官方认证。

未来几天,谷歌 DeepMind 会正式发布 AI 夺下 IMO 2025 细节。





马库斯愤怒抨击,太符合品牌调性了。



03  UCLA 数学教授  LLM 短期内不会取代人类

针对 LLM 拿下 IMO 金牌事件,来自 UCLA 应用数学教授 Ernest Ryu 发表了自己的看法。

1. OpenAI IMO P1-P5 的解答目测是正确的。

2. 第 6 题是一个明显新颖且难度更高的问题。可以说第 1-5 题仍在「标准」IMO 解题技巧范围内,但第 6 题需要创造性思维。



他表示,根据自己使用 LLM 进行数学研究的经验,Gemini 的表现优于 ChatGPT 。

但 OpenAI 抢先在周六宣布了结果,而谷歌 DeepMind「慢科研」学术作风,让他们输掉了这场公关战。

不过,Ernest Ryu 认为,在短期内,大模型不会取代数学家。

因为数学研究是,解决那些目前「没有人」知道如何解决的问题(训练数据分布之外),即类似 IMO P6 题。这需要极大的创造力,OpenAI 的模型在 IMO 解题中恰恰缺乏这种能力。



然而,对于那些人类已有能力解决的问题(训练数据分布之内),LLM 只会变得愈加强大。

在数学研究中,人们会将现有技术与新创意相结合,LLM 将显著加速前一部分工作的实现。

Ernest Ryu 还预测,在接下来十年里,越来越多的数学家将借助 LLM 来搜索证明框架中的已知部分,从而提升研究效率。

老一辈数学家或许会对此唏嘘不已,但年轻一代只会继续产出优秀成果。

参考资料:

https://x.com/ns123abc/status/1947016206768046452

https://x.com/lmthang/status/1946960256439058844

https://x.com/Mihonarium/status/1947027989608190065

新智元  新智元  2025 年 07 月 21 日 10:24  北京

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-8-1 23:03 , Processed in 0.081531 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表