AI学习圈丨Agent期末大考,榜首仅拿23分?
近期,UC Berkeley团队发布的ALE(Agents' Last Exam,即智能体最终测试)基准测试正式上线。
这项测试专注于评估AI智能体在真实职场环境下的执行上限,汇总了来自100多个机构、300多位专家的1500多道实战题目,全方位涵盖了55个职业细分领域。
在备受瞩目的总榜中,搭载ALE Claw框架的GPT-5.5凭借23.0%的通过率拔得头筹,紧随其后的是搭载Claude Code的Claude Opus 4.7,通过率为22.7%。此前在多轮测试中表现亮眼的Fable 5搭配Claude Code,则以22.0%的通过率位列第三。
值得关注的是,在针对前沿智能体设置的“最难档”(Last-Exam)测试中,所有参测模型的表现均未达预期,平均通过率仅2.6%,这充分暴露了当前AI在处理超高复杂度实际任务时依然面临严峻挑战。
除了考察能力,测试中暴露出的成本差异同样引起了行业内的广泛关注。
统计结果显示,Fable 5在完成任务时消耗惊人,总成本高达2315美元;反观GPT-5.5搭配Codex框架,尽管性能出色,最高花费却控制在566美元,成本优势十分明显。
这一结果既体现了不同模型在架构设计与执行效率上的区别,也引发了关于AI智能体如何在追求极致性能与控制实际应用成本之间寻求平衡的深度探讨。
ALE基准的发布,为AI从“做题”迈向“实战”确立了关键标尺,同时也预示着未来Agent的发展将更侧重于真实环境下的综合效能与经济性考量。