标签

AlphaProof Nexus破解数学难题,AI重塑科研范式

发布时间:2026-05-27 00:12来源:微信阅读:6

2026年05月26日 星期二

AI HOT 精读

今天AI圈发生了17件大事,我们深度解析了其中最重要的一件

🎯 今日焦点 · 国际AI

国际AI 谷歌 AlphaProof Nexus 攻克 2 道悬置 56 年 数学难题

📌 事件概述

Google DeepMind 今天放了个大招——他们的新 AI 框架 AlphaProof Nexus,一口气攻破了 2 道悬置了整整 56 年 的数学难题。这可不是什么竞赛题或者算法刷分,而是 20 世纪传奇数学家保罗·埃尔德什(Paul Erdős)提出的开放问题,数学界等了半个多世纪都没搞定的事,被 AI 拿下了。

具体成果有多硬核?在总共 353 个开放问题的测试中,AlphaProof Nexus 自主解决了 9 个 Erdős 问题(其中 2 个已经 56 年 没人解出来),在 OEIS 整数序列百科的 492 个开放猜想中 证明了 44 个,还顺手解决了一个存在 15 年的 Hilbert 函数问题,以及改进了凸优化中的已知界限。每个问题推理成本仅需数百美元——这个价格对于数学研究来说,几乎算得上是白菜价了。

⚙️ 技术原理:四个智能体,一层比一层强

AlphaProof Nexus 的核心设计思路非常巧妙——它没有试图用一个大模型暴刀解决所有问题,而是搞了一套 「四层智能体架构」,复杂度逐级递增:

Agent A(基础型): 仅靠 Gemini 3.1 Pro + Lean 编译器循环交互。LLM 生成证明步骤,Lean 编译器立刻验证逻辑正确性并反馈错误,形成「生成→验证→修正」闭环。 Agent B(AlphaProof 增强型): 在 A 的基础上接入了 AlphaProof 系统,专门用来补全证明中缺失的片段。 Agent C(进化机制型): 加入了类似 AlphaEvolve 的进化算法——多个证明草稿同时生成、互相评分、优胜劣汰。 Agent D(完整型): 把上面三层全整合在一起,团队原本以为这个版本效果最好。

结果出乎意料——对于那 9 个被攻克的 Erdős 问题,最简单的 Agent A 竟然也能独立证明出来。这意味着随着底层大语言模型能力(Gemini 3.1 Pro)的持续提升,加上 Lean 编译器反馈对 LLM 推理的「锚定」作用,即使相对简单的架构也能完成复杂的数学推理任务。

🎯 为什么这件事特别重要?

表面上看,这是一个「AI 解数学题」的新闻。但往深了想,它标志着 AI 的角色正在发生质的变化。

以前的 AI 做数学,本质上是「生成看起来像证明的文本」——像不像一回事,对不对是另一回事,因为大模型天然会「幻觉」。但 AlphaProof Nexus 不同:每一条证明都被 Lean 编译器逐行检查,逻辑上 100% 准确。这相当于给 AI 装上了一个「数学测谎仪」,让它从 「令人信服的叙述者」变成了「候选方案生成器」——AI 负责想路子,验证器负责把关。

更值得玩味的是这个成本——数百美元解决一个悬置几十年的难题。做数学研究的人都知道,一个博士花三年时间未必能搞定的问题,AI 花几百块钱就解出来了。不是说要取代数学家(数学的乐趣在于发现的过程,而不只是答案),但这意味着 AI 正在从一个「工具」变成一个「同行者」——可以和人类数学家并肩作战的搭档。

🏭 行业影响

对于整个 AI 行业,AlphaProof Nexus 最大的启示是:形式化验证 + LLM = 可信推理。单纯靠大模型「说理」是不靠谱的,但如果给 LLM 配上一把严格的逻辑标尺,它就能做出可靠的工作。这个范式不仅适用于数学,在代码安全验证、合约审计、医疗诊断等需要零容错的领域,同样有极大的想象空间。

对数学界来说,这相当于多了一个永不疲倦的「超级博士后」——它不会累,不会情绪化,不会因为某个问题太难就换方向。虽然目前只能解决数学中相对「可形式化」的那部分问题,但在组合数学、数论、图论这些领域,AI 已经开始做出人类做不到的贡献了。

👤 对个人的影响

这事离普通人的生活其实比想象的近。AlphaProof Nexus 证明了一个道理:AI 在做「需要严谨逻辑」的事情时,可以比人更可靠。以后你在用 AI 写代码、审核合同、分析数据的时候,背后可能会有类似的形式化验证机制来保证输出质量。对开发者来说,这意味着未来的 AI 编程工具不只是「帮你补全代码」,而是「帮你验证代码逻辑是否正确」——一个能主动发现你逻辑漏洞的搭档。另外,如果数学定理的发现成本降到几百美元,那教育和科研领域的门槛也会随之降低,更多年轻研究者可以用 AI 辅助做出突破性的工作。

🚀 更多AI资讯 · 三言两语

共引用17条资讯 · 数据

🇨🇳 国内动态

#1 阿里云 CTO 阐述从云原生到智能体原生转型 在 Qwen Conference 2026 上,阿里云 CTO 李飞飞博士阐述了阿里云从云原生到智能体原生的战略转变。为了普及 AI,阿里云构建了四大基石:模型、智能体云、工具与服务,以及规模。这意味着阿里云正在从传统的云基础设施提供商,转型为 AI 时代的智能体基础设施平台。

#2 Qwen3.7-Max 成为全球第二 AI 编程模型 Qwen3.7-Max 正式成为全球第二大 AI 编程模型。在 Code Arena 上得分 1541,仅次于 Claude。专为生产环境打造:可运行 35 小时任务、1000+ 次工具调用,并在数小时内交付原本两周才能完成的项目。Qwen3.7-Max 的隐性缓存功能也已同步上线,自动启用,降低使用成本。

#3 面壁智能开源 MiniCPM5-1B:1B 参数跑在手机上 面壁智能开源其新一代端侧大语言模型 MiniCPM5-1B。仅 1B 参数,在 AA-Index 榜单上超越所有 2B 参数以下模型,相比 3 个月前的 Qwen3.5-2B 效果更优且参数量减半。经 INT4 量化后权重仅 0.5GB,支持在手机和浏览器上运行。已全面开源模型权重、训练数据集与部署方案。

🌍 国际动态

#1 SynthID 水印技术扩展合作,覆盖超千亿内容 Google DeepMind 宣布 SynthID 已为超过 1000 亿条内容添加了水印。为进一步推动行业透明度,正与 OpenAI、ElevenLabs 和 Kakao 合作,将 SynthID 水印技术集成到他们的模型中。这延续了与 NVIDIA 共同推动的全行业趋势,AI 内容溯源正在从「可选」变成「必须」。

#2 四个月花光全年 AI 预算,Uber 总裁质疑投入合理性 Uber 在 2026 年仅四个月就用完了全年 AI 预算。总裁安德鲁·麦克唐纳公开质疑:目前无法证明 AI 工具的词元使用量激增,与面向用户的实际功能提升之间存在直接关联。2025 年 Uber 研发投入达 34 亿美元,CEO 已表示将通过缩减招聘来承担 AI 成本。这笔钱花得值吗?行业正在重新审视。

#3 Anthropic 超 300 亿美元融资在即,估值反超 OpenAI 据彭博社报道,Anthropic 即将完成新一轮超 300 亿美元的融资,最快下周敲定。此轮融资将使其估值突破 9000 亿美元,正式超越 OpenAI,成为全球估值最高的 AI 初创企业。预计第二季度营收将达 109 亿美元,环比增长超一倍,有望迎来首个盈利季度。AI 赛道的榜首,要换人了。