百元成本破解80年数学悬案：AI正在重塑学术研究规则

发布时间：2026-05-24 18:31阅读：10

近期，OpenAI 公布了一则令数学界为之震动的研究成果。

其通用推理模型独立推翻了一个悬而未决近八十年的著名猜想——Erdős 平面单位距离问题。这不是辅助人类完成的，也不是检索了已有文献，而是完全自主推理得出的结论。

菲尔兹奖得主 Tim Gollars 评价道："若这篇论文以人类名义投向《数学年鉴》，我会毫不犹豫支持发表。"

随后 Ethan Mollick 进行了一番测算。基于公开的大模型推理成本数据，解决这个八十年难题所耗费的资源为：电力 0.6–6.3 千瓦时（相当于电动汽车行驶数英里），水资源 3–31 升（不足三颗杏仁的用水量），总支出 120–1000 美元。

区区一百二十美元，便解决了一个困扰数学界八十年的问题。

先来了解一下这个问题本身。

1946 年，匈牙利数学家 Paul Erdős 提出了一个看似简单的问题：在平面上放置 n 个点，最多能形成多少对恰好相距为 1 的点？

或许你会想：把点排列成规整的网格不就行了？事实上，数学界过去八十年正是这样认为的。主流观点是：最优解大致就是正方形网格式的排布，单位距离点对数的增长速率近乎呈线性——用数学表达式即 n^(1+o(1))。

OpenAI 的推理模型推翻了这个主流观点。

它构建了一套全新的点阵排列方式，证明了增长速率至少为 n^(1+0.014)——一个明确的超线性下界。0.014 这个数值是普林斯顿大学教授 Will Sawin 后续优化的，但突破的方向是 AI 给出的。

但真正让数学家们陷入沉思的，不是这个结果本身，而是 AI 找到这条路的方法。

所有人类数学家都尝试从几何角度切入。网格、六边形、密铺——这些都是几何直觉的自然延伸。AI 完全避开了这条路。它绕了一个大圈，从代数数论领域切入：无限类域塔、Golod-Shafarevich 理论、CM 域。这些内容与组合几何几乎毫无关联——人类数学家根本不会想到朝这个方向探索。

就像一位锁匠研究门锁研究了八十年，突然来了一台机器，它没有触碰那把锁，而是绕到房子后面，发现了建筑师预留的暗门。

Gollars 在长文中的观点很清晰：人类数学家八十年始终在同一个方向发力，而 AI 压根没有走那条路——它从另一个方向绕了进去。

如果你认为这只是 OpenAI 的一次"巧合"，那么随后 DeepMind 发布的 AlphaProof Nexus 会让你重新审视。

AlphaProof 采用了一种完全不同的路径。它将大语言模型与 Lean 形式化验证工具紧密结合。每次模型生成一个证明步骤，Lean 编译器立即进行检验——验证证明逻辑有无漏洞、推理是否自洽、结论是否真正从前提中推导而出。编译不通过就推倒重来。

简而言之，OpenAI 的模型是"天才型选手"：零次编译，全凭直觉，从代数数论的暗门绕进去。

DeepMind 的 AlphaProof 则是"严谨型选手"：每一步都交由一个比任何人类审稿人都严格的编译器把关，不容许一丝逻辑瑕疵。

两套截然不同的机制。测试集选在 Erdős 问题上，十分巧妙：353 个 Erdős 问题，成功攻克 9 个。492 个开放猜想，证明了 44 个序列猜想。

一个凭借"天赋"，一个凭借"严谨"。结果殊途同归：AI 做数学已经不是演示案例了。

现在回到那个数字。

Ethan Mollick 的估算是基于公开数据反推的：模型大约运行了 5 到 32 个小时，推理成本 120 美元是下限，1000 美元是上限。（OpenAI 未公开具体模型名称，Noam Brown 只说这是内部最新的通用推理模型，"即将发布"。）

即便取上限，也不过 1000 美元。一个数学博士一个月的奖学金都比这高。

而这类成果——推翻一个八十年的核心猜想，被 Gollars 评价为"若有署名、我支持发《数学年鉴》"——放在以往需要什么？一位顶尖数学家投入数年时间，加上博士、博士后、合作者的智力投入，加上科研经费、会议交流、期刊审稿周期。换算成金钱，至少也要几十万美元。

如今，一个指令，三十小时，一百二十美元。

这不是"AI 比人聪明"的问题。这是成本结构被彻底颠覆了。

当解决问题的成本和门槛降低了一万倍，那么"解决问题"这件事本身就不再是核心竞争力。这对整个学术体系的冲击，比任何一次技术革新都要深远。

Gollars 在这次事件中提出了一个很现实的问题：这批 AI 产生的成果，如何发表？

arXiv 已经明确拒绝 AI 生成内容作为独立投稿。传统期刊也不知道如何处理"作者是一台机器"的论文。OpenAI 这次的做法是：把成果写成技术报告，邀请 9 位外部数学家联合署名验证，发布在 arXiv 上（编号 2605.20579v1）。

但这只是暂时的、个案的应对，而问题却是系统性的。

如果 AI 以后每个月都能产出几十个这种级别的证明，谁来验证？验证者有没有学术认可？验证本身算不算学术贡献？AI 应该在作者栏里吗？如果不在，那真正"写指令的人"算作者吗？

Gollars 自己提了一个设想：建立一个专门的 AI 数学成果库，只有经过人类数学家独立验证后才能收录。但目前并不存在这样的平台。所有这些成果，现在都分散地挂在个人博客、arXiv、X 话题里。

还有更尖锐的问题。DeepMind 的 AlphaProof 在 492 个猜想上证明了 44 个——如果这些猜想中的一部分，正好是某个博士生默默研究了两年还没发表的东西呢？

以前科研是"谁先做出来归谁"。以后可能是"谁先让 AI 做出来归谁"——但如果十个团队同时用 AI 冲击同一个问题呢？

陶哲轩在探讨 AI 数学能力时画过一个三层金字塔。

最底层是问题表述，把数学概念转化为标准形式。中间层是证明生成，产出可验证的推理。最顶层是证明理解——真正领会这个证明的含义、为何正确、揭示了什么更深的结构。

他说前两层 AI 正在快速实现自动化。第三层，目前只有人类能做到。

但 Gollars 这次在长文里悄悄加了一句注释："以上判断只适用于当下的 AI。大模型迭代太快，现在的判断可能几个月就过时。"

这并非危言耸听。去年 10 月 OpenAI 前 VP Kevin Weil 曾宣称 GPT-5 解决了 10 个 Erdős 问题，被数学家 Thomas Bloom 迅速揭穿——模型只是检索了已有文献而已。那时候 AI 在数学上还像个"夸夸其谈的研究生"。

半年后，同一家公司、同一问题领域，AI 不仅真的解出来了，还走了一条人类从未走过的路——从代数数论的暗门绕进去，推翻了八十年的共识。这一次，OpenAI 主动邀请了 Gollars 在内 9 位顶尖数学家独立验证。125 页的证明全文，署名发布在 arXiv（2605.20579v1）。

同一个 Thomas Bloom，上次亲手揭穿，这次亲自证实。他说这是"人工智能目前在数学领域取得的最亮眼成就"。

回到最初那个问题：一百二十美元解决八十年难题，学术论文的尽头在哪里？

也许不在 AI 本身，而在于当解决问题变得极其廉价的时候，"提出问题"和"判断什么值得解决"的能力，变成了唯一的稀缺资源。

陶哲轩说的"第三层"——理解证明、提炼直觉、找到下一个真正重要的问题——目前 AI 还无法做到。但能做这件事的人，比能独立证明定理的人，要少得多得多。

OpenAI 用一个一百二十美元的指令拆掉了数学界八十年的围墙。DeepMind 用一个不犯错的编译器在 492 个猜想上同时推进。

两套机制，同一个信号：科研的逻辑不再是"谁先证出来"，而是"谁能让 AI 沿着真正有意义的方向前进"。

Gollars 的红色警报，这次不是替学生拉的。是替整个数学界的旧规则拉的。

参考

← 上一篇：AI视频创作实战课程下一篇：利用AI信息差实现副业收入的三种方法 →