标签

旗舰遇阻 Sonnet 5升级救急 性能媲美Opus

发布时间:2026-07-02 06:02阅读:2

六月尾声,Anthropic 在官方网站发布了两则消息。

不同模型不同层级下的代理任务完成情况 Sonnet 5 与 Opus4.8 相差无几|图片来源:Anthropic

1 代理功能强化,Sonnet 5 逼近 Opus

先看 Sonnet 5 的数据。

在 SWE-bench Verified 这个评估编码能力的基准测试中,Sonnet 5 获得了 92.4% 的成绩。Anthropic 自家的 Opus 4.6 是 80.8%,OpenAI 的 GPT-5.4 为 57.7%。这是 Anthropic 的中端模型,以 Sonnet 的价格,却达到了超越旗舰的水平。

价格方面,发布初期每百万输入 token 收费 2 美元,输出 10 美元,8 月 31 日后调整为 3 美元和 15 美元。相比 Opus 4.8,便宜了许多,也比 GPT-5.5 和 Gemini 3.1 Pro 更低。

Anthropic 在发布说明中提及,Sonnet 5 能够规划任务、使用浏览器和终端工具,以「自主模式」运作——而「这在数月前还需依赖更大、更昂贵的模型」。这番表述十分坦诚,相当于公开承认:旗舰模型的能力正迅速下放,速度超出外界预想。

Zapier 的工程师 Daniel Shepard 测试了一项两步任务,让模型同时更新 Salesforce 账户等级并向企业联系人发送通知。他的感受是,Sonnet 5「从头到尾完成了整个任务,这在以前会中途卡住」。这类具体的工程反馈比基准分数更具参考意义——它表明代理任务的可靠性门槛正在被跨越,而且是在中端价位上实现的。

对于构建多步骤自动化流程的团队而言,这改变了关键的成本核算:以往必须调用旗舰模型才能完成的任务,如今可以用三分之一甚至更低的成本搞定。

02 政府的信函,与被抑制的旗舰

将时间回溯两周,此次发布的背景会更明朗。

6 月 12 日,Anthropic 暂停了 Fable 5 和 Mythos 5 两个新模型的访问权限,原因是美国政府的出口管制指令——禁止非美国国民使用这两个模型。外界推测触发点之一是政府发现了 Fable 5 的某种破解方法,能绕过其最强能力的安全防护。

两周后,6 月 26 日,美国商务部长发出一封信,批准 Anthropic 向约 100 家公司和联邦机构有限发布 Mythos 5,表述为「已确认存在适当的保护措施」。但 Fable 5 的访问权限至今未获批准恢复。

因此,6 月 30 日当天,Anthropic 的实际处境是:最强的两个模型一个受限、一个仍被冻结,商业发布受制于政府窗口。在此背景下推出 Sonnet 5,并着重强调其代理能力「接近 Opus 4.8」,逻辑变得通顺了——被压制的旗舰系列无法正常铺展,那就让中端产品支撑当前的商业需求。

这不是 Anthropic 首次在监管与商业节奏之间进行周旋。今年 6 月它还在首尔开设了新办事处,持续推进在韩国市场的本地化合作。一边是旗舰被美国政府束缚,一边是国际市场仍在推进,两条线并行,内部的协调压力可想而知。

03 Claude 的 AI4S

Claude Science 是今天另一条更低调但可能更持久的线索。

它的形态是「AI 工作台」,整合了 60 多个科学数据库和专用工具包,核心不是新模型,而是一套工作流。底层调用的仍是 Opus 4.8 这类现有模型,但外围包裹了一层专门为科研设计的环境——生成可审计的产出、灵活的计算资源接入,以及一个 Anthropic 特别强调的功能:

可复现性。

每张图表都附有生成它的完整代码、运行环境、纯语言说明,以及完整的消息历史。研究人员数月后仍可追溯任何结果的源头。在学术界,可复现性危机已争论十几年,AI 工具若能系统性地将此痛点融入工作流,对科研群体的吸引力不会小。

Anthropic 宣布将支持最多 50 个 Claude Science 科研项目,每个项目提供最多 3 万美元的计算积分,合作方 Modal 另提供最多 2000 美元的计算资源。这个规模不算大,更像是为了锁定早期用户群体、跑通模式。

今年 4 月,OpenAI 发布了 GPT-Rosalind,一个针对生物推理微调的专用模型,当时以研究预览形式推出,访问权限限于美国境内的合格企业客户。

两家的策略分叉明显——OpenAI 选择了定制模型,Anthropic 选择了工作流整合。哪条路更适合科研场景,目前尚难判断,但 Anthropic 的逻辑有一定说服力:大多数科学家并不缺更聪明的模型,他们缺的是一个能将数据库、工具、代码环境和结果审计串联起来的稳定工作台。(或者说,他们缺的是不用每次打开五个窗口互相复制粘贴的工作流——这大概是当今科研圈最普遍的日常。)

04 从模型竞赛到系统竞争

整个 AI 行业在过去一年里经历了一次微妙的叙事转移。

2024 年之前,模型发布基本等同于「性能排行榜」的一个新条目,讨论焦点是参数量、基准分数、上下文窗口。而今,头部公司发布新模型时越来越多地谈论「总体拥有成本」「工作流集成」「代理任务的可靠性」,基准测试退居配角位置。

Sonnet 5 和 Claude Science 是这一趋势的缩影。前者的核心价值不是「更聪明」,而是「以更低成本做到足够聪明」;后者的核心价值不是「新模型」,而是「将模型接入你原本的工作环境」。

业内一种观点正成为共识:性能竞赛对大多数实际应用场景而言已走到一个拐点,绝大多数企业用户所需的能力,现有中端模型基本都够用,剩下的差异化要靠成本、可靠性和生态集成来决定。

Anthropic 今日的两个发布,一个向左,一个向右,一个对准开发者和企业的代理场景,一个对准科学家的专业工作流,看起来像是在同时押注两个方向。但更准确的理解或许是:它在试探,当模型本身不再是主要壁垒时,什么才是留住用户的真正理由。

Fable 5 的访问权限尚未恢复,下一步如何走还要等政府那边的窗口。但在等待窗口开启之前,中端产品线和垂直工具的版图已先铺开了。