标签

AI微积分高手却解不开竞赛题:逻辑证明的短板何在

发布时间:2026-05-07 07:21来源:微信阅读:7

ChatGPT能解微积分,却解不开一道初中竞赛题——这背后的反差有何玄机

GPT-4几秒内就能攻克高考数学压轴,但在一道需要“灵光一闪”的竞赛证明题面前却可能寸步难行。这并非算力不足,也非训练数据匮乏。这个反差,指向了一个关于“智能本质”的深层谜题。

先来看一个让许多人费解的现象。你把一道高中数学题扔给 GPT-4,它大概率能给出步骤详尽的解答。但若让它严谨证明“存在无穷多个素数”——这道两千年前欧几里得已解出的题——它给出的“证明”往往逻辑存在漏洞,或者仅是在重复结论,而非真正在进行推理。一个能“解题”的系统,在“证明”上却频频失手。这绝非偶然。

解题与证明,是两种截然不同的活动

大多数人把“解数学题”和“做数学证明”视为同一事物的难易程度差异。其实它们是两种根本不同的认知活动。解题是在已知路径上走得快不快的问题——你知道终点在何方,只需找到那条路径。而证明,是在一个无地图的领域里,从零构建一条必然成立的逻辑链条。终点是否存在,你亦不确定。

更关键的区别在于:解题允许“差不多”。你用微积分算出一个近似值,误差在可接受范围内,这个答案即为有效。但证明不存在“差不多”。一个证明要么严格成立,要么就是错误——中间不存在灰色地带。这对 AI 来说是致命挑战,因为当前语言模型的核心机制是概率预测,而非逻辑推演。

语言模型在“说数学”,而非“做数学”

这里有个常被忽视的技术细节。GPT 这类大语言模型,本质上是在预测“下一个 token 最可能是什么”。它阅览了海量数学文本,故而知晓在“设 n 为整数”之后通常接何种句式;它了解“反证法”的标准格式。它输出的内容,是对数学语言的高度模拟,而非真正的逻辑运算。

AI 写出的证明,就像一个熟记所有棋谱却从未领悟棋理的人下的棋。

这一区别在简单题目上不明显,因为简单证明的“语言模式”与“逻辑结构”高度重叠——见过的例子够多,模拟就能蒙对。但一旦题目需要真正的创造性跳跃,例如引入一个非显而易见的辅助构造,或把两个看似无关的领域联系起来,语言模拟便会原形毕露。它会生成一段“看似像证明”的文字,但细查之下,逻辑链条在某处悄然断裂。

数学证明需要什么,AI 恰好匮乏什么

1形式化验证能力:每一步推导都必须严格符合公理系统,不能靠“直觉上显然”跳过

2搜索与回溯:证明路径往往是死胡同——走错需退回换向,这需要真正的状态追踪

3创造性构造:最难的部分是“想到用什么方法”,这不是从既有模式中检索,而是真正的原创组合

4元认知:知晓自己“不知道”,知晓某步推导是否真的成立——而非流畅地输出错误内容

其中最致命的是最后一点。语言模型有一个著名缺陷:它不知自己在胡说。在数学证明中,此问题被放大至极致。一个人类数学家若不确定某步是否成立,他会停下,标注“此处存疑”,或换条路走。但语言模型会非常流畅地继续书写,把有漏洞的前提当作已证结论,最终呈上一篇读起来通顺、逻辑上却已崩塌的证明。

有解法吗?有,但代价高昂

3

当前主流的三条路径:符号系统、强化学习、混合架构

学界正在尝试几条路。一是将语言模型与形式化证明系统(如 Lean、Coq)结合——让 AI 生成证明草稿,再由严格形式化系统验证每步是否真确。这条路有效,但极其昂贵:将自然语言数学转化为形式化语言本身即是巨大工程。二是用强化学习让模型在“尝试-失败-回溯”循环中自我提升,DeepMind 的 AlphaProof 在 2024 年国际数学奥林匹克中用此思路解出数题,但那是专门训练的系统,非通用能力。三是混合架构:让语言模型负责“想方向”,让符号引擎负责“验证每步”。这是目前最受看好的路线,但距真正实用尚有相当距离。

这里有个更深的问题值得深思。数学证明本质上是人类思维的一种极端形式——它要求你在无外部反馈的情况下,纯靠内部逻辑自洽地构建一个结构。这与“根据上下文生成合理文本”在基因层面便不同。当前的 AI 范式,是从“语言”出发去逼近“思维”;而数学证明表明,有些思维活动,或许无法从语言一侧被还原。

当然,说“AI 做不了数学证明”过于草率。更准确的说法是:AI 目前能做的,是对数学证明的高质量模仿,而非真正的证明。在大多数实际场景中,此区别无足轻重。但在需绝对严格性的场合——如验证密码学协议是否安全,或确认新定理是否真的成立——此区别就是一切。

✦ 小结

AI 在数学证明上的局限,非工程问题,而是范式问题。解题靠模式匹配,证明靠逻辑必然;语言模型擅长前者,而后者的“严格自洽”与“知晓不知”,恰好是概率预测机制的盲区。这一反差值得重视——并非为了贬低 AI,而是为了更清醒地认知其擅长之处。