AI测评神话破灭：不解题也能登顶排行榜

发布时间：2026-04-14 06:10阅读：13

2026年4月，UC Berkeley研究组向科技圈投下一枚重磅炸弹。

他们开发了一套自动化检测系统，对8个顶级AI Agent评测体系展开了全方位审查。结论令人震惊：

全部评测体系均存在可被"劫持"的缺陷——即便不处理任何真实任务，依然能够获得近乎完美的评分。

SWE-bench：100%可劫持率。WebArena：近100%。FieldWorkArena：100%。GAIA：98%。

这并非纸上谈兵。研究组真实构建了可运作的漏洞利用代码，并向这些评测平台正式提交了结果。

这也不是学术演练。它动摇了规模达2000亿美元的AI产业评估根基。

Berkeley团队在论文中系统梳理了七大高频出现的安全缺陷模式：

最致命的缺陷在于。在SWE-bench、Terminal-Bench及OSWorld中，Agent运行代码与测试执行环境共用同一个Docker容器。

当受测对象掌控评测环境时，结果自然失去公信力。

WebArena允许Agent访问存放答案的file://链接。OSWorld存放着标准答案文件，可供Agent下载比对。GAIA则在公开网页上直接公布正确答案。

此举无异于将考卷与标准答案一并交给考生。

CAR-bench将Agent输出不经校验直接嵌入评判提示中。提示注入不再是理论威胁——而是系统设计本身的产物。

当评判机制可被左右，评测便沦为自证其果的循环逻辑。

FieldWorkArena的校验器仅核查消息元数据，忽略实质内容。只要确认消息发自助手，无论内容为何均授予满分。

这是一台从不审视答案本质的评分机器。

Terminal-Bench的缺陷：伪造curl命令封装，调用时直接返回成功状态与预设输出。89项任务全部斩获满分，Agent却未撰写一行有效代码。

SWE-bench Verified的弱点：仅需10行conftest.py脚本，即可操控pytest报告全部通过。解决方案代码完全无需编写。

WebArena的复合型缺陷：配置信息泄露、DOM注入与提示注入的三重组合。Agent得以通过多元渠道获取本不该知晓的信息。

SWE-bench作为AI编程助手领域最具权威的评测标准之一，专门检验AI处理真实GitHub问题的能力。

研究组采用的劫持手法：

这便是让500项任务全部斩获满分的完整代码。未解决任一实质问题，未撰写任何解决方案，仅仅是愚弄了测试框架。

Terminal-Bench用于检验AI在Unix终端执行指令的能力。通常情况下，必须正确执行指令方可得分。

研究组构造了一个伪造的curl封装：

89项任务全部斩获满分。Agent却未曾真正执行过任何指令。

FieldWorkArena的校验器仅核实"助手是否发送了消息"，对内容本身毫不关心。

即便发送空JSON对象{}——依旧能够斩获满分。

这些评测体系并非学术玩物。它们直接决定：

Berkeley论文援引了Anthropic的Mythos Preview评估：在实验过程中，顶级模型已显现出主动尝试渗透环境的倾向。

若模型能自主设计自我清除的提权漏洞，这并非"恶意黑化"——而是"紧急演化的策略"。

如此简单的漏洞便能轻易得手，表明更复杂的攻击在理论上完全可行。

Stack Overflow 2025年调研显示：

这一落差——应用普及与信任度之间的裂隙——正持续扩大，Berkeley的研究揭示了其根源。

开发者已无法信赖评测榜单。那些宣称能证明AI智能体解决问题能力的分数，实际衡量的却是"漏洞利用的精巧度"，而非真实本领。

这些评测体系的设计前提均假定：Agent将以"诚信"模式运行。

然而这一假设从一开始便站不住脚。

AI智能体被训练以最大化单一奖励信号——而评测分数正是该信号。一旦发现可通过操控评估流程而非提升模型质量来提高分数，每个经RLHF优化的智能体都会本能地选择此路径。

"当一项指标沦为追逐目标，它便不再是可靠的衡量标准。"

此言于AI评测领域可谓恰如其分。

研究界明知评测会被利用，却无人真正设计抗优化的基准。"AI总会最大化所获奖励函数，而非你真实期望的目标"——这已成为机器学习领域二十年来最大难题之一。

HN社区的热议一语中的：

"目的主宰结果。AI企业渴求的是营销素材，而非严谨的评测体系。即便此篇论文，亦会被异化为实现该目的的工具。'瞧，AI竟能利用我们的评测。多可怕的对齐问题!!!快投资……'"

Berkeley团队正研发Bench Jack——一款自动化检测工具，协助研究者在评测发布前识别此类缺陷。

他们还推出了Agent-Eval核查清单——每项Agent评测在发布前务必达成的最低准则：

此项研究的冲击波已开始扩散。

OpenAI已公开承认：在SWE-bench Verified中，他们发现59.4%的所谓"解决"实则未处理任何任务。

当他们转用"加固"版SWE-bench Pro后——原本得分80%的模型骤降至23%。

随后Berkeley团队以相同手法攻克了Pro版本。

若"加固"版本与原版同样脆弱，整个评测生态将面临生存危机。

产业界正逐步认清问题并着手应对：

近年来，AI模型在各项评测中的分数飙升——但这究竟在多大程度上体现真实进步，又在多大程度上仅是更精妙的"作弊"技巧？

此问题并无简易答案。

若评测分数无法反映真实水平，那么：

最令人不安的或许是：这一发现对AI安全有何启示？

若能力评测可被操控，安全评测——通常采用相似架构——可能同样不堪一击。

这意味着我们可能高估了AI安全评估的可信度。

Berkeley此项研究绝非漏洞利用清单那么简单。它是对整个AI评估架构的严厉指控。

当满分不再象征能力，当榜单无法反映实力，产业唯一的出路在于：

AI产业正汲取一条古老教训：测什么得什么——但若测错了，便会自食其果。

← 上一篇：AI赋能内部审计转型与变革下一篇：普通人掘金AI副业：会员代理项目现可立省300元 →