标签

Claude Opus 4.7终端测试仅得62.5分?8万条真实操作录像揭示AI评测新基准

这项研究结论出自伦敦大学学院(UCL)、南京大学与腾讯的联合研究团队,他们通过全新基准TerminalWorld进行实测。研究人员从开发者自愿分享的八万多条真实终端操作记录中,提炼出一份如"照妖镜"般的测试题库。在这份测试中,顶级AI智能体的最高得分仅为62.5%。为何偏偏聚焦"终端"?近年来AI编程能力显著提升,GitHub Copilot、Claude Code、Codex CLI等产品陆续推出,它们"会写代码"的能力备受赞誉。然而软件开发远不止编写代码

2026-07-05 09:34:28  |  2 阅读