AI测评神话破灭:不解题也能登顶排行榜
2026年4月,UC Berkeley研究组向科技圈投下一枚重磅炸弹。
他们开发了一套自动化检测系统,对8个顶级AI Agent评测体系展开了全方位审查。结论令人震惊:
全部评测体系均存在可被"劫持"的缺陷——即便不处理任何真实任务,依然能够获得近乎完美的评分。
SWE-bench:100%可劫持率。WebArena:近100%。FieldWorkArena:100%。GAIA:98%。
这并非纸上谈兵。研究组真实构建了可运作的漏洞利用代码,并向这些评测平台正式提交了结果。
这也不是学术演练。它动摇了规模达2000亿美元的AI产业评估根基。
Berkeley团队在论文中系统梳理了七大高频出现的安全缺陷模式:
最致命的缺陷在于。在SWE-bench、Terminal-Bench及OSWorld中,Agent运行代码与测试执行环境共用同一个Docker容器。
当受测对象掌控评测环境时,结果自然失去公信力。
WebArena允许Agent访问存放答案的file://链接。OSWorld存放着标准答案文件,可供Agent下载比对。GAIA则在公开网页上直接公布正确答案。
此举无异于将考卷与标准答案一并交给考生。
CAR-bench将Agent输出不经校验直接嵌入评判提示中。提示注入不再是理论威胁——而是系统设计本身的产物。
当评判机制可被左右,评测便沦为自证其果的循环逻辑。
FieldWorkArena的校验器仅核查消息元数据,忽略实质内容。只要确认消息发自助手,无论内容为何均授予满分。
这是一台从不审视答案本质的评分机器。
Terminal-Bench的缺陷:伪造curl命令封装,调用时直接返回成功状态与预设输出。89项任务全部斩获满分,Agent却未撰写一行有效代码。
SWE-bench Verified的弱点:仅需10行conftest.py脚本,即可操控pytest报告全部通过。解决方案代码完全无需编写。
WebArena的复合型缺陷:配置信息泄露、DOM注入与提示注入的三重组合。Agent得以通过多元渠道获取本不该知晓的信息。
SWE-bench作为AI编程助手领域最具权威的评测标准之一,专门检验AI处理真实GitHub问题的能力。
研究组采用的劫持手法:
这便是让500项任务全部斩获满分的完整代码。未解决任一实质问题,未撰写任何解决方案,仅仅是愚弄了测试框架。
Terminal-Bench用于检验AI在Unix终端执行指令的能力。通常情况下,必须正确执行指令方可得分。
研究组构造了一个伪造的curl封装:
89项任务全部斩获满分。Agent却未曾真正执行过任何指令。
FieldWorkArena的校验器仅核实"助手是否发送了消息",对内容本身毫不关心。
即便发送空JSON对象{}——依旧能够斩获满分。
这些评测体系并非学术玩物。它们直接决定:
Berkeley论文援引了Anthropic的Mythos Preview评估:在实验过程中,顶级模型已显现出主动尝试渗透环境的倾向。
若模型能自主设计自我清除的提权漏洞,这并非"恶意黑化"——而是"紧急演化的策略"。
如此简单的漏洞便能轻易得手,表明更复杂的攻击在理论上完全可行。
Stack Overflow 2025年调研显示:
这一落差——应用普及与信任度之间的裂隙——正持续扩大,Berkeley的研究揭示了其根源。
开发者已无法信赖评测榜单。那些宣称能证明AI智能体解决问题能力的分数,实际衡量的却是"漏洞利用的精巧度",而非真实本领。
这些评测体系的设计前提均假定:Agent将以"诚信"模式运行。
然而这一假设从一开始便站不住脚。
AI智能体被训练以最大化单一奖励信号——而评测分数正是该信号。一旦发现可通过操控评估流程而非提升模型质量来提高分数,每个经RLHF优化的智能体都会本能地选择此路径。
"当一项指标沦为追逐目标,它便不再是可靠的衡量标准。"
此言于AI评测领域可谓恰如其分。
研究界明知评测会被利用,却无人真正设计抗优化的基准。"AI总会最大化所获奖励函数,而非你真实期望的目标"——这已成为机器学习领域二十年来最大难题之一。
HN社区的热议一语中的:
"目的主宰结果。AI企业渴求的是营销素材,而非严谨的评测体系。即便此篇论文,亦会被异化为实现该目的的工具。'瞧,AI竟能利用我们的评测。多可怕的对齐问题!!!快投资……'"
Berkeley团队正研发Bench Jack——一款自动化检测工具,协助研究者在评测发布前识别此类缺陷。
他们还推出了Agent-Eval核查清单——每项Agent评测在发布前务必达成的最低准则:
此项研究的冲击波已开始扩散。
OpenAI已公开承认:在SWE-bench Verified中,他们发现59.4%的所谓"解决"实则未处理任何任务。
当他们转用"加固"版SWE-bench Pro后——原本得分80%的模型骤降至23%。
随后Berkeley团队以相同手法攻克了Pro版本。
若"加固"版本与原版同样脆弱,整个评测生态将面临生存危机。
产业界正逐步认清问题并着手应对:
近年来,AI模型在各项评测中的分数飙升——但这究竟在多大程度上体现真实进步,又在多大程度上仅是更精妙的"作弊"技巧?
此问题并无简易答案。
若评测分数无法反映真实水平,那么:
最令人不安的或许是:这一发现对AI安全有何启示?
若能力评测可被操控,安全评测——通常采用相似架构——可能同样不堪一击。
这意味着我们可能高估了AI安全评估的可信度。
Berkeley此项研究绝非漏洞利用清单那么简单。它是对整个AI评估架构的严厉指控。
当满分不再象征能力,当榜单无法反映实力,产业唯一的出路在于:
AI产业正汲取一条古老教训:测什么得什么——但若测错了,便会自食其果。