标签

AI学习圈丨Agent期末大考,榜首仅拿23分?

近期,UC Berkeley团队发布的ALE(Agents' Last Exam,即智能体最终测试)基准测试正式上线。这项测试专注于评估AI智能体在真实职场环境下的执行上限,汇总了来自100多个机构、300多位专家的1500多道实战题目,全方位涵盖了55个职业细分领域。在备受瞩目的总榜中,搭载ALE Claw框架的GPT-5.5凭借23.0%的通过率拔得头筹,紧随其后的是搭载Claude Code的Claude Opus 4.7,通过率为22.7%。此前在多轮测试中表现亮眼的Fable 5搭配Cl

2026-06-14 12:07:51  |  1 阅读