AI科研评估瓶颈：6月论文53.6%聚焦验证难题

发布时间：2026-06-07 09:19阅读：38

2026 年 5 月，OpenAI 的模型反证了一个离散几何核心猜想。

这件事在数学圈是大事——AI 第一次做出真正意义的数学发现，不是刷 benchmark 分数，是反证一个开放猜想。

同一周，DeepMind 发了Co-Scientist（multi-agent AI research partner）和AlphaEvolve（Gemini 驱动的算法设计 agent）。Google 发Empirical Research Assistance（AI 协助科研工作流）。Anthropic 完成 65 亿美元 Series H 估值 965 亿美元。

如果你只看技术新闻，这一连串事件加起来意味着——AI 终于跨过了"做科学"这条线。

但有一件事你可能没意识到——

当 AI 开始做科学，"评估它做得好不好"成了新的根本瓶颈。

而这个瓶颈，比训练能力更难突破。

2026 年 6 月 1 日 arxiv 提交了 250 篇 cs.AI / cs.CL / cs.IT / cs.LG 论文。

我们做了个简单的分析——按关键词看每篇论文涉及什么主题：

超过一半的当天 cs.AI 论文跟评估/benchmark/judge/reward model 直接相关。

这不是一天的偶然——这是 2024-2025 集体趋势浮上水面的明显信号。AI 圈的研究焦点已经从"让 AI 更强"集体转移到"评估 AI 做得好不好"。

而这个转移的直接触发因素就是 AI 开始做科学。

要看清楚这个问题，得拆解什么叫"评估"。

传统 AI 评估——给模型一个 prompt，看它输出和"标准答案"是否一致。这套机制在 2015-2022 年统治整个 AI 圈——MMLU / GSM8K / HumanEval / SQuAD 全部是这个范式。

但 2024-2026 年 AI 做的事不一样了——

所有"AI 做科学"类任务都有一个共同点——没有可以批量自动评分的标准答案。

OpenAI 反证离散几何猜想这件事——只有少数顶尖数学家能评判它真的对了。这种评判没法外包给 LLM-as-judge（因为 judge 模型没有数学家级别的能力）、没法用 benchmark 自动评分（因为没有标准答案集）、只能靠人。

但人不可扩展——一个数学家审一篇 AI 论文要几天。AI 一天能产出 100 篇候选——人类数学家审不过来。

这件事的核心矛盾——AI 的产出速度可以指数级提升（堆算力 + 数据），但评估能力的扩展极慢（受制于专家数量 + 判断时间）。

2026 年 6 月 1 日 Hugging Face Daily Papers 上有一篇叫SoundnessBench——评估 AI 科学家能否区分好坏研究想法的 benchmark。

这件事的存在本身就是一个迟到的承认——AI 圈花了 3 年让 AI 能提出研究想法，但还没人系统研究"AI 提的想法到底好不好"。

同一天的 cs.AI 250 篇里还有：

这一批论文做的不是"让 AI 更强"——是"如何判断 AI 做得好不好"。

而判断好坏这件事，比让 AI 做事难得多。让 AI 做事——堆算力 + 数据 + 训练框架，3 年可以从弱到强。判断好坏——需要领域专家 + 时间积累 + 多维度判断——这件事 30 年也未必能突破。

ThoughtLink 5 月加方向 D"AI 评估"时的核心判断是这样的：

AI 不缺训练能力，缺评估能力。评估 = 把场景效果好坏说清楚 = 想清楚的另一种形态。

5 月加这个判断时——基于的还是"个人判断 + 行业感觉"。

<0A>

6 月 1 日这 250 篇 cs.AI 论文给了这个判断第一个数据级证明——53.6% 的当天 cs.AI 论文焦点是评估。

不是边缘话题，是焦点本身。这件事在 2024 年还不会发生——那时候 99% 论文焦点是模型能力提升。2026 年焦点转移了——AI 圈集体承认评估能力的瓶颈正在成为核心矛盾。

而这件事——给所有做 AI 产品 / 创业 / 内容的人一个前瞻视角：

如果你做 AI 应用 / AI 创业：

evaluation 集体爆发是个前瞻信号——下一个 3 年的 AI 战场会从"训练更强的模型"转移到"建立更精准的评估能力"。

谁能在你的垂直场景里建立可信的、可量化的、可持续改进的评估——谁就拿到了那个场景里 agent 的护城河。

不是模型的护城河——是评估的护城河。Anthropic / OpenAI 替代不了这件事——他们做通用模型，做不了你具体场景里"什么算好"的定义。

对个人创作者 / 知识工作者：

AI 越能做事 → "你能不能判断它做得好不好"就越值钱。这件事不是技术能力——是领域判断 + 品味 + 时间积累。

这恰恰是 AI 替代不了你的最后阵地。当 AI 能写代码、做 PPT、跑分析的时候——你的价值不在"做"，在"评判"。

5 月 OpenAI 反证离散几何猜想——AI 史上第一个真数学突破。

同月 DeepMind Co-Scientist / AlphaEvolve / Google ERA / Anthropic 965 亿美元估值——AI 圈进入新一轮黄金期。

6 月 1 日 cs.AI 当日论文 53.6% 焦点是 evaluation——AI 圈集体承认评估能力是新瓶颈。

这一连串事件指向同一个判断：

3 年前 AI 圈说"模型变强就够了"。

3 年后 AI 圈承认"判断模型做得好不好"是更难的事。

而这件事——

就是 ThoughtLink 一直在做的"左半边"——把场景效果好坏说清楚 = 想清楚做什么。

AI 越强，人的左半边能力越值钱。

5/6 月这一连串事件，是这个判断的第一个数据级证明。

数据

← 上一篇：AI时代老板生存危机：不仅是工具，更是生态位之争下一篇：高考启幕 | 谱乐 AI 愿你折桂蟾宫，未来可期 →