AI颠覆性突破:Claude Mythos全面超越Opus 4.6,重塑全球职场格局
SWE-bench Verified(真实修 bug)Mythos以93.9%对80.8%领先Opus。这表明,过往需资深开发者耗费数日才能定位的开源项目缺陷,Mythos现已能近乎 flawless 地攻克,成功率直追人类顶尖高手。SWE-bench Pro(高难度多文件任务)77.8%比53.4%,优势扩大逾24个点。昔日AI仅能应付单文档、简易逻辑,而今Mythos已可解析庞大工程体系、实现多文档协同、应对无既定解法的棘手项目。多模态代码(看图修 bug)59.0%对27.1%。Opus基本无力应对