标签

百元成本破解80年数学悬案:AI正在重塑学术研究规则

发布时间:2026-05-24 18:31来源:微信阅读:6

近期,OpenAI 公布了一则令数学界为之震动的研究成果。

其通用推理模型独立推翻了一个悬而未决近八十年的著名猜想——Erdős 平面单位距离问题。这不是辅助人类完成的,也不是检索了已有文献,而是完全自主推理得出的结论。

菲尔兹奖得主 Tim Gollars 评价道:"若这篇论文以人类名义投向《数学年鉴》,我会毫不犹豫支持发表。"

随后 Ethan Mollick 进行了一番测算。基于公开的大模型推理成本数据,解决这个八十年难题所耗费的资源为:电力 0.6–6.3 千瓦时(相当于电动汽车行驶数英里),水资源 3–31 升(不足三颗杏仁的用水量),总支出 120–1000 美元。

区区一百二十美元,便解决了一个困扰数学界八十年的问题。

先来了解一下这个问题本身。

1946 年,匈牙利数学家 Paul Erdős 提出了一个看似简单的问题:在平面上放置 n 个点,最多能形成多少对恰好相距为 1 的点?

或许你会想:把点排列成规整的网格不就行了?事实上,数学界过去八十年正是这样认为的。主流观点是:最优解大致就是正方形网格式的排布,单位距离点对数的增长速率近乎呈线性——用数学表达式即 n^(1+o(1))。

OpenAI 的推理模型推翻了这个主流观点。

它构建了一套全新的点阵排列方式,证明了增长速率至少为 n^(1+0.014)——一个明确的超线性下界。0.014 这个数值是普林斯顿大学教授 Will Sawin 后续优化的,但突破的方向是 AI 给出的。

但真正让数学家们陷入沉思的,不是这个结果本身,而是 AI 找到这条路的方法。

所有人类数学家都尝试从几何角度切入。网格、六边形、密铺——这些都是几何直觉的自然延伸。AI 完全避开了这条路。它绕了一个大圈,从代数数论领域切入:无限类域塔、Golod-Shafarevich 理论、CM 域。这些内容与组合几何几乎毫无关联——人类数学家根本不会想到朝这个方向探索。

就像一位锁匠研究门锁研究了八十年,突然来了一台机器,它没有触碰那把锁,而是绕到房子后面,发现了建筑师预留的暗门。

Gollars 在长文中的观点很清晰:人类数学家八十年始终在同一个方向发力,而 AI 压根没有走那条路——它从另一个方向绕了进去。

如果你认为这只是 OpenAI 的一次"巧合",那么随后 DeepMind 发布的 AlphaProof Nexus 会让你重新审视。

AlphaProof 采用了一种完全不同的路径。它将大语言模型与 Lean 形式化验证工具紧密结合。每次模型生成一个证明步骤,Lean 编译器立即进行检验——验证证明逻辑有无漏洞、推理是否自洽、结论是否真正从前提中推导而出。编译不通过就推倒重来。

简而言之,OpenAI 的模型是"天才型选手":零次编译,全凭直觉,从代数数论的暗门绕进去。

DeepMind 的 AlphaProof 则是"严谨型选手":每一步都交由一个比任何人类审稿人都严格的编译器把关,不容许一丝逻辑瑕疵。

两套截然不同的机制。测试集选在 Erdős 问题上,十分巧妙:353 个 Erdős 问题,成功攻克 9 个。492 个开放猜想,证明了 44 个序列猜想。

一个凭借"天赋",一个凭借"严谨"。结果殊途同归:AI 做数学已经不是演示案例了。

现在回到那个数字。

Ethan Mollick 的估算是基于公开数据反推的:模型大约运行了 5 到 32 个小时,推理成本 120 美元是下限,1000 美元是上限。(OpenAI 未公开具体模型名称,Noam Brown 只说这是内部最新的通用推理模型,"即将发布"。)

即便取上限,也不过 1000 美元。一个数学博士一个月的奖学金都比这高。

而这类成果——推翻一个八十年的核心猜想,被 Gollars 评价为"若有署名、我支持发《数学年鉴》"——放在以往需要什么?一位顶尖数学家投入数年时间,加上博士、博士后、合作者的智力投入,加上科研经费、会议交流、期刊审稿周期。换算成金钱,至少也要几十万美元。

如今,一个指令,三十小时,一百二十美元。

这不是"AI 比人聪明"的问题。这是成本结构被彻底颠覆了。

当解决问题的成本和门槛降低了一万倍,那么"解决问题"这件事本身就不再是核心竞争力。这对整个学术体系的冲击,比任何一次技术革新都要深远。

Gollars 在这次事件中提出了一个很现实的问题:这批 AI 产生的成果,如何发表?

arXiv 已经明确拒绝 AI 生成内容作为独立投稿。传统期刊也不知道如何处理"作者是一台机器"的论文。OpenAI 这次的做法是:把成果写成技术报告,邀请 9 位外部数学家联合署名验证,发布在 arXiv 上(编号 2605.20579v1)。

但这只是暂时的、个案的应对,而问题却是系统性的。

如果 AI 以后每个月都能产出几十个这种级别的证明,谁来验证?验证者有没有学术认可?验证本身算不算学术贡献?AI 应该在作者栏里吗?如果不在,那真正"写指令的人"算作者吗?

Gollars 自己提了一个设想:建立一个专门的 AI 数学成果库,只有经过人类数学家独立验证后才能收录。但目前并不存在这样的平台。所有这些成果,现在都分散地挂在个人博客、arXiv、X 话题里。

还有更尖锐的问题。DeepMind 的 AlphaProof 在 492 个猜想上证明了 44 个——如果这些猜想中的一部分,正好是某个博士生默默研究了两年还没发表的东西呢?

以前科研是"谁先做出来归谁"。以后可能是"谁先让 AI 做出来归谁"——但如果十个团队同时用 AI 冲击同一个问题呢?

陶哲轩在探讨 AI 数学能力时画过一个三层金字塔。

最底层是问题表述,把数学概念转化为标准形式。中间层是证明生成,产出可验证的推理。最顶层是证明理解——真正领会这个证明的含义、为何正确、揭示了什么更深的结构。

他说前两层 AI 正在快速实现自动化。第三层,目前只有人类能做到。

但 Gollars 这次在长文里悄悄加了一句注释:"以上判断只适用于当下的 AI。大模型迭代太快,现在的判断可能几个月就过时。"

这并非危言耸听。去年 10 月 OpenAI 前 VP Kevin Weil 曾宣称 GPT-5 解决了 10 个 Erdős 问题,被数学家 Thomas Bloom 迅速揭穿——模型只是检索了已有文献而已。那时候 AI 在数学上还像个"夸夸其谈的研究生"。

半年后,同一家公司、同一问题领域,AI 不仅真的解出来了,还走了一条人类从未走过的路——从代数数论的暗门绕进去,推翻了八十年的共识。这一次,OpenAI 主动邀请了 Gollars 在内 9 位顶尖数学家独立验证。125 页的证明全文,署名发布在 arXiv(2605.20579v1)。

同一个 Thomas Bloom,上次亲手揭穿,这次亲自证实。他说这是"人工智能目前在数学领域取得的最亮眼成就"。

回到最初那个问题:一百二十美元解决八十年难题,学术论文的尽头在哪里?

也许不在 AI 本身,而在于当解决问题变得极其廉价的时候,"提出问题"和"判断什么值得解决"的能力,变成了唯一的稀缺资源。

陶哲轩说的"第三层"——理解证明、提炼直觉、找到下一个真正重要的问题——目前 AI 还无法做到。但能做这件事的人,比能独立证明定理的人,要少得多得多。

OpenAI 用一个一百二十美元的指令拆掉了数学界八十年的围墙。DeepMind 用一个不犯错的编译器在 492 个猜想上同时推进。

两套机制,同一个信号:科研的逻辑不再是"谁先证出来",而是"谁能让 AI 沿着真正有意义的方向前进"。

Gollars 的红色警报,这次不是替学生拉的。是替整个数学界的旧规则拉的。

参考