AI测评神话破灭:不解题也能登顶排行榜
2026年4月,UC Berkeley研究组向科技圈投下一枚重磅炸弹。他们开发了一套自动化检测系统,对8个顶级AI Agent评测体系展开了全方位审查。结论令人震惊:全部评测体系均存在可被"劫持"的缺陷——即便不处理任何真实任务,依然能够获得近乎完美的评分。SWE-bench:100%可劫持率。WebArena:近100%。FieldWorkArena:100%。GAIA:98%。这并非纸上谈兵。研究组真实构建了可运作的漏洞利用代码,并向这些评测平台正式提交了结果。这也不是学术演练。它动摇了规模达2000