AI科研评估瓶颈:6月论文53.6%聚焦验证难题
2026 年 5 月,OpenAI 的模型反证了一个离散几何核心猜想。
这件事在数学圈是大事——AI 第一次做出真正意义的数学发现,不是刷 benchmark 分数,是反证一个开放猜想。
同一周,DeepMind 发了Co-Scientist(multi-agent AI research partner)和AlphaEvolve(Gemini 驱动的算法设计 agent)。Google 发Empirical Research Assistance(AI 协助科研工作流)。Anthropic 完成 65 亿美元 Series H 估值 965 亿美元。
如果你只看技术新闻,这一连串事件加起来意味着——AI 终于跨过了"做科学"这条线。
但有一件事你可能没意识到——
当 AI 开始做科学,"评估它做得好不好"成了新的根本瓶颈。
而这个瓶颈,比训练能力更难突破。
2026 年 6 月 1 日 arxiv 提交了 250 篇 cs.AI / cs.CL / cs.IT / cs.LG 论文。
我们做了个简单的分析——按关键词看每篇论文涉及什么主题:
超过一半的当天 cs.AI 论文跟评估/benchmark/judge/reward model 直接相关。
这不是一天的偶然——这是 2024-2025 集体趋势浮上水面的明显信号。AI 圈的研究焦点已经从"让 AI 更强"集体转移到"评估 AI 做得好不好"。
而这个转移的直接触发因素就是 AI 开始做科学。
要看清楚这个问题,得拆解什么叫"评估"。
传统 AI 评估——给模型一个 prompt,看它输出和"标准答案"是否一致。这套机制在 2015-2022 年统治整个 AI 圈——MMLU / GSM8K / HumanEval / SQuAD 全部是这个范式。
但 2024-2026 年 AI 做的事不一样了——
所有"AI 做科学"类任务都有一个共同点——没有可以批量自动评分的标准答案。
OpenAI 反证离散几何猜想这件事——只有少数顶尖数学家能评判它真的对了。这种评判没法外包给 LLM-as-judge(因为 judge 模型没有数学家级别的能力)、没法用 benchmark 自动评分(因为没有标准答案集)、只能靠人。
但人不可扩展——一个数学家审一篇 AI 论文要几天。AI 一天能产出 100 篇候选——人类数学家审不过来。
这件事的核心矛盾——AI 的产出速度可以指数级提升(堆算力 + 数据),但评估能力的扩展极慢(受制于专家数量 + 判断时间)。
2026 年 6 月 1 日 Hugging Face Daily Papers 上有一篇叫SoundnessBench——评估 AI 科学家能否区分好坏研究想法的 benchmark。
这件事的存在本身就是一个迟到的承认——AI 圈花了 3 年让 AI 能提出研究想法,但还没人系统研究"AI 提的想法到底好不好"。
同一天的 cs.AI 250 篇里还有:
这一批论文做的不是"让 AI 更强"——是"如何判断 AI 做得好不好"。
而判断好坏这件事,比让 AI 做事难得多。让 AI 做事——堆算力 + 数据 + 训练框架,3 年可以从弱到强。判断好坏——需要领域专家 + 时间积累 + 多维度判断——这件事 30 年也未必能突破。
ThoughtLink 5 月加方向 D"AI 评估"时的核心判断是这样的:
AI 不缺训练能力,缺评估能力。 评估 = 把场景效果好坏说清楚 = 想清楚的另一种形态。
5 月加这个判断时——基于的还是"个人判断 + 行业感觉"。
<0A>6 月 1 日这 250 篇 cs.AI 论文给了这个判断第一个数据级证明——53.6% 的当天 cs.AI 论文焦点是评估。
不是边缘话题,是焦点本身。这件事在 2024 年还不会发生——那时候 99% 论文焦点是模型能力提升。2026 年焦点转移了——AI 圈集体承认评估能力的瓶颈正在成为核心矛盾。
而这件事——给所有做 AI 产品 / 创业 / 内容的人一个前瞻视角:
如果你做 AI 应用 / AI 创业:
evaluation 集体爆发是个前瞻信号——下一个 3 年的 AI 战场会从"训练更强的模型"转移到"建立更精准的评估能力"。
谁能在你的垂直场景里建立可信的、可量化的、可持续改进的评估——谁就拿到了那个场景里 agent 的护城河。
不是模型的护城河——是评估的护城河。Anthropic / OpenAI 替代不了这件事——他们做通用模型,做不了你具体场景里"什么算好"的定义。
对个人创作者 / 知识工作者:
AI 越能做事 → "你能不能判断它做得好不好"就越值钱。这件事不是技术能力——是领域判断 + 品味 + 时间积累。
这恰恰是 AI 替代不了你的最后阵地。当 AI 能写代码、做 PPT、跑分析的时候——你的价值不在"做",在"评判"。
5 月 OpenAI 反证离散几何猜想——AI 史上第一个真数学突破。
同月 DeepMind Co-Scientist / AlphaEvolve / Google ERA / Anthropic 965 亿美元 估值——AI 圈进入新一轮黄金期。
6 月 1 日 cs.AI 当日论文 53.6% 焦点是 evaluation——AI 圈集体承认评估能力是新瓶颈。
这一连串事件指向同一个判断:
3 年前 AI 圈说"模型变强就够了"。
3 年后 AI 圈承认"判断模型做得好不好"是更难的事。
而这件事——
就是 ThoughtLink 一直在做的"左半边"——把场景效果好坏说清楚 = 想清楚做什么。
AI 越强,人的左半边能力越值钱。
5/6 月这一连串事件,是这个判断的第一个数据级证明。
数据