标签

Claude Opus 4.7终端测试仅得62.5分?8万条真实操作录像揭示AI评测新基准

发布时间:2026-07-05 09:34阅读:2

这项研究结论出自伦敦大学学院(UCL)、南京大学与腾讯的联合研究团队,他们通过全新基准TerminalWorld进行实测。研究人员从开发者自愿分享的八万多条真实终端操作记录中,提炼出一份如"照妖镜"般的测试题库。在这份测试中,顶级AI智能体的最高得分仅为62.5%。

为何偏偏聚焦"终端"?

近年来AI编程能力显著提升,GitHub Copilot、Claude Code、Codex CLI等产品陆续推出,它们"会写代码"的能力备受赞誉。然而软件开发远不止编写代码这一环节。

配置环境、安装依赖、部署服务、编译打包、管理云资源、制定安全策略、排查线上故障——这些"让软件真正运转起来"的繁琐工作,几乎全部集中在同一个场景:终端。几十年来,工程师们日复一日地在这个黑色窗口中敲击命令,这里积累了最密集、最真实的工程操作痕迹。而这些数据,恰恰是过去AI评测中被长期忽视的宝贵资源。

现有终端类基准如Terminal-Bench,采用的是"专家命题"模式:邀请资深工程师,坐下来手工设计任务。这种方式存在先天缺陷,专家为增加区分度,倾向于设计高难度题目,导致题目越来越像"对抗性谜题",与工程师日常实际工作渐行渐远。此外,工具和实践日新月异,今日精心设计的题目,两年后可能就已过时。

UCL博士生储朝阳(Zhaoyang Chu)领导的团队,决定另辟蹊径:不依赖专家命题,而是从真实用户操作中"提取"题目。

▲ 机器之心(@jiqizhixin)在X平台发布TerminalWorld消息,11次点赞、4次转发,配图为论文Figure 1完整流水线示意图

"Can your AI handle a real terminal? ... Top agents hit only 62.5% pass rate, and scores barely correlate with existing benchmarks. It's a wake-up call for AI agent evaluation in the real world."

「你的AI能驾驭真实的终端吗?顶级智能体通过率仅62.5%,且分数与现有基准几乎不相关。这对真实世界AI智能体评测敲响了警钟。」

这些"真实用户操作痕迹"从何而来?答案是asciinema——一个开发者自愿分享终端会话录像的平台。它保存的是带时间戳的结构化文本,每一条命令、每一次输出都可以原样重放。

团队从这里获取了80,870条公开录像,然后运行了一套全自动、无需人工命题的四阶段流程:

第一步,筛选录像。过滤涉及隐私、密钥、恶意命令的记录,剔除vim这类全屏交互操作,排除Windows专属或无法在Docker中重现的场景,再用模型进行质量评分。80,870条经筛选后剩余9,492条"干净、真实、有价值"的样本。

第二步,将操作日志转化为测试题。用大模型从每段录像中提炼两样内容:一是只描述最终目标、绝不透露具体步骤的任务指令(例如要求输出到/app/result.txt,但不说明该用哪个命令);二是从原始日志中提取的、干净且可重复运行的参考解脚本。

第三步,重建环境。让智能体推断这段录像需要哪些依赖,自己编写Dockerfile、构建镜像、解析报错、修复,直到能在容器中运行参考解并干净退出。9,492条录像中,有5,035条成功重建为可执行环境。

第四步,生成可验证的测试用例。系统会拍摄执行前后的文件系统快照,根据真实变化生成断言,再进行"三重验证":运行完整参考解必须全部通过、什么都不做必须全部失败、运行残缺版本必须至少有一处失败。三关全过,方才合格。

最终,5,035个候选任务中仅1,530个通过筛选,覆盖18个真实工作流类别、1,280个独特命令,其中91%在Terminal-Bench中完全找不到,像vagrant、terraform、ansible、k3d、restic这些工程师日常使用的工具,首次大规模进入AI评测范畴。

团队再从这1,530个任务中精选200个,由4位具有3年以上终端开发经验的作者手动执行、交叉审核,形成Verified子集,这就是后面所有排行榜数字的