标签
旗舰遇阻 Sonnet 5升级救急 性能媲美Opus

旗舰遇阻 Sonnet 5升级救急 性能媲美Opus

六月尾声,Anthropic 在官方网站发布了两则消息。 不同模型不同层级下的代理任务完成情况 Sonnet 5 与 Opus4.8 相差无几|图片来源:Anthropic 1 代理功能强化,Sonnet 5 逼近 Opus 先看 Sonnet 5 的数据。 在 SWE-bench Verified 这个评估编码能力的基准测试中,Sonnet 5 获得了 92.4% 的成绩。Anthropic 自家的 Opus 4.6 是 80.8%,OpenAI 的 GPT-5.4 为 57.7%。这是 Anthrop

2026-07-02 06:02:11  |  2 阅读