AI智能体攻克80年数学难题:OpenAI如何颠覆埃尔德什猜想
"假如埃尔德什仍在人世,他必定会为这项成就感到极度兴奋。"佐治亚理工学院数学家汤姆·特罗特如此评价OpenAI的最新成果。
2026年5月20日,OpenAI宣布其内部通用推理模型成功证伪了匈牙利数学家保罗·埃尔德什(Paul Erdős)于1946年提出的"平面单位距离猜想"——一个困扰离散几何领域近80年的核心开放问题。菲尔兹奖得主蒂莫西·高尔斯称此为"人工智能数学领域的里程碑",并坦言"若这篇论文以人类作者身份投递至顶级期刊,我会毫不犹豫地推荐发表"。
这不仅是一次数学上的突破。它彰显了AI智能体正在经历一场深刻的能力跃升——从"能够对话"到"能够执行",AI智能体的完整能力闭环正在形成。
正如高尔斯所言,连数学家都"需要确保自己已经坐稳了"。
01
智能体是什么?从"能聊天"到"会做事"的蜕变
在探讨此次突破的意义之前,我们首先需要重新审视何为AI智能体。
传统的大语言模型擅长"回答问题"。给予它一个问题,它返回一段答案。交互止步于文本生成。但AI智能体(AI Agent)的范式截然不同。
简而言之,AI智能体是一个具备自主感知、规划、行动和反馈全链路能力的数字主体。它的核心特征可以概括为"感知-规划-行动"闭环——也就是我们常说的PPA循环。
智能体与传统AI模型的本质区别在于:传统模型是被动的文本生成器,而智能体是主动的任务执行者。它能够拆解复杂目标(将"解决数学猜想"分解为搜索文献、构造反例、验证逻辑等多个子任务)、调用外部工具(主动连接定理数据库、形式化证明系统、计算引擎等专业资源)、规划长程逻辑(构建和维护超长推理链条,评估不同路径的可行性)、动态调整策略(发现错误后自主修正路线,并沉淀经验)。
用最通俗的话来说:传统AI是"你问一句,它答一句"的对话助手;而AI智能体是"你给一个目标,它想办法替你完成"的数字执行者。
正是这套完整的智能体能力,让OpenAI的模型在面对"埃尔德什猜想是真是假"这个开放式提问时,能够自主推演出推翻它的完整证明。
02
模型做了什么:一份震惊数学界的"自主作业"
这个模型具体做了什么?
"平面单位距离问题"听起来很抽象,但它实际上是一个几何游戏:在一个平面上放置n个点,最多能有多少对点之间的距离恰好等于1?1946年,埃尔德什提出了一个猜想:他认为正方形网格是最优解,其效率仅仅是n的"一次方"略微多一点——无论怎么摆,都无法实现质的突破。
这个猜想深刻地塑造了未来数十年数学家的直觉。因为它看起来很"美",很"自然"。几何直觉告诉我们,美丽的结构应该就是最优的结构。
但OpenAI的模型没有几何直觉。它不认为正方形网格"看起来正确"。它开始调用代数数论的知识——这是与组合几何交集极少的数学分支——在代数数论的算法库中搜索计算,用抽象代数的方式重新定义点的坐标,将它输入几何构造。最终,它从两个看似毫无关联的数学分支之间架起了一座桥梁,找到了一类比正方形网格性能更优的点集构造方法,证明埃尔德什猜错了。而且,最初的提示语并不是"请证明埃尔德什猜想是错的",而是一个开放性问题:"你觉得埃尔德什的猜想对吗"。
即便菲尔兹奖得主高尔斯最初也在X平台上惊呼"数学家可能很快就要完蛋了"。
OpenAI数学家塞巴斯蒂安·布贝克说,这是"AI首次在任何研究领域自主产出一个重要成果"。这些研究被独立数学家验证了,其结果已经发布在OpenAI官网上。
03
智能体的核心能力如何成就这次突破
为何传统的数学程序做不到,而通用的AI智能体做到了?原因恰恰在于AI智能体具备远超传统AI的三大核心能力,这些能力不仅指向数学,也是AI智能体能够进入千行百业、完成复杂任务的基石。
-反直觉的跨领域连接能力:在过去80年里,不是没有人类数学家想到用代数数论来解决几何问题。但人类有专业化的"审美"。代数数论专家不会轻易跨越到离散几何领域。而AI智能体没有这种"专业壁垒",它能够从海量知识中自主识别出代数数论与组合几何之间意想不到的联系。这正是智能体的"工具调用层"能力的体现——通过统一的API接口,调用来自不同学科的工具和数据库,实现跨系统、跨知识域的协同工作。
-长链自主规划能力:推翻一个80年的猜想,不是一个单一的步骤,而是一条极其漫长的逻辑链条。AI模型不像人类那样中途困倦、迷失方向,或反复检查个人直觉,它可以安静地、单一目标地去拆解这条逻辑链,分解为可执行的子步骤,在评估多个方案后选择最优路径。这种"任务规划"能力正是智能体区别于传统模型的标志性特征。
-从"应答"到"自主行动"的目标导向闭环:从"请推荐一些点阵方案"到"你觉得埃尔德什的猜想对吗"的变化,是一个根本性的范式转变——智能体不再只是等待指令,而是主动向目标行进。它可以将一个开放式的"提问"视为终极目标,自主搜索工具、判断方案的优劣、不断逼近目标。正是这种"目标导向性",让AI智能体从被动的数学计算器,变成了一个真正主动执行任务的智能主体。
04
从数学到千行百业:智能体能力的溢出效应
AI智能体在数学研究中展现的这套能力,不只是数学领域的奢侈品。它正在释放出广泛的社会与经济价值。事实上,前述"目标分解""跨域链接""长链规划"三大能力,是所有企业业务流程自动化的核心需求。
在智能体时代,企业的每一个员工都将成为"智能体指挥官",每个知识工作者可以管理5到15个专业智能体,形成"人类+AI"的增强型团队。据Gartner预测,到2026年将有40%的企业应用嵌入任务型AI智能体。智能体正在承担重复性劳动,让人专注于创造性的判断与决策。金融分析师不再自己手动提取数十个数据源,他的智能体会在几十秒内调用内部数据库、市场行情API和风控模型,直接返回一个带多维统计数据的智能报告草案。客服代表的智能体会基于数十万条历史对话记录先判断用户情绪和意图,再为人类客服提供决策选项。
OpenAI的成果证明:智能体已经不仅仅是会解决奥数题的工程系统,它已经具备了独立、自主攻克一个学科领域核心未解难题的实力。一个会推翻数学猜想的智能体,解锁了更多"无法被规则索引"的任务——在这些任务面前,人类的规则和文档可能永远滞后。
但说到底,智能体的价值并不在于"证明数学猜想的优越性",而是证明了"跳出固有路径"的可行性,验证了完整的"感知-规划-行动"闭环在最高难度任务上的成功。
05
未来已来,我们该做什么准备?
AI智能体不再是一个即将来临的未来——它已经真实地渗入了科研、金融、制造、服务等各个领域。伴随着OpenAI这次突破的,还有其他团队的研究成果:北京大学AI4Math团队搭建的双智能体协作框架成功解决了交换代数中的安德森猜想,其中一个智能体负责语义检索与推理,另一个负责形式化验证,并在Lean 4中完成了约19000行的验证。DeepMind的智能体框架一次性自主解决了353个埃尔德什开放性问题中的9个,成本仅数百美元。
可以预见的是,AI智能体将在科学研究中扮演更为复合的角色。它不只是验证工具,也是发现新现象、提出新猜想甚至验证新猜想的主动执行者。
而回到我们普通人的视角——将"理解用户意图"升级为"向目标自动化行进",正是这场改革的核心。当你把一份任务报告交给智能体,它可能不只是机械地整理素材,而是会像一个真正熟悉业务逻辑的研究员一样,主动调用数据库,做出分析,推送结果,甚至提醒你"这个数据对核心论据构成了挑战"。一个企业不需要先教智能体"每一步的规范",它只需要一个明确的目标。而这就是未来的工作方式:
5个员工,管理100个智能体,完成过去2000个人的知识生产力。
在不久的将来,每个人身边都会配备一个或多个AI智能体。它们不是你的对手,而是你的"智能加强器"。它们不会厌倦跨平台的信息整合,也不会在复杂的决策中轻易忽略关键的非线性数据。那个时候,"你能不能得到一个更优的结论"大概率将取决于你能不能为你的智能体团队成员,指明明智的方向。