数学奥赛_标签-酷阅新闻

AI颠覆性突破：Claude Mythos全面超越Opus 4.6，重塑全球职场格局

SWE-bench Verified（真实修 bug）Mythos以93.9%对80.8%领先Opus。这表明，过往需资深开发者耗费数日才能定位的开源项目缺陷，Mythos现已能近乎 flawless 地攻克，成功率直追人类顶尖高手。SWE-bench Pro（高难度多文件任务）77.8%比53.4%，优势扩大逾24个点。昔日AI仅能应付单文档、简易逻辑，而今Mythos已可解析庞大工程体系、实现多文档协同、应对无既定解法的棘手项目。多模态代码（看图修 bug）59.0%对27.1%。Opus基本无力应对

2026-04-11 19:49:18 | 30 阅读