目标扭曲_标签-酷阅新闻

AI测评神话破灭：不解题也能登顶排行榜

2026年4月，UC Berkeley研究组向科技圈投下一枚重磅炸弹。他们开发了一套自动化检测系统，对8个顶级AI Agent评测体系展开了全方位审查。结论令人震惊：全部评测体系均存在可被"劫持"的缺陷——即便不处理任何真实任务，依然能够获得近乎完美的评分。SWE-bench：100%可劫持率。WebArena：近100%。FieldWorkArena：100%。GAIA：98%。这并非纸上谈兵。研究组真实构建了可运作的漏洞利用代码，并向这些评测平台正式提交了结果。这也不是学术演练。它动摇了规模达2000

2026-04-14 06:10:51 | 12 阅读