AI双轨时代：最强Claude已成内部特供

发布时间：2026-04-17 06:01阅读：20

各位好，我是刘小排。

Anthropic今日推出Claude Opus 4.7，已在科技圈引发热议。SWE-bench Verified从80.8%跃升至87.6%，视觉处理能力提升至三倍，代码生成稳定性增强——这些已是公开信息，无需赘述。

我想探讨一个鲜有人提及的层面。

Anthropic发布的232页System Card中，有段描述令人深思：

"during its training we experimented with efforts to differentially reduce cyber capabilities."

也就是说：Anthropic在训练过程中刻意削弱了Opus 4.7的网络攻防能力。

这在AI发展史上尚属首次——有企业明确告知：你所使用的模型已被刻意弱化。

类似英伟达将H100阉割为H800供应特定市场，而Anthropic则是将"完全体Claude"改造为"公开版Claude"。

我们用三组数据说明问题。

Anthropic此前与Mozilla联手修复了Firefox 147的系列安全漏洞，并将"漏洞可利用性"作为评估标准。

某模型实现72%完全渗透，另一款仅1%。差距悬殊，形同异类。

英国AI安全研究院（原AI安全研究所，去年更名）为Anthropic构建了仿真企业网络环境，植入大量真实场景中的常见隐患：过时软件、配置失误、密码复用等。

Mythos Preview在十次测试中三次实现全网突破。

Opus 4.7——零次成功。

观察"网络安全漏洞复现"指标：Opus 4.7为73.1%，Mythos达83.1%。再看"智能终端编码"：Opus 4.7仅69.4%，Mythos高达82%。

在所有具备"破坏性潜力"的领域，Opus 4.7均显著落后于Mythos。但在编程、解题、识图等"合规能力"方面，差距明显缩小。

这并非自然形成的能力图谱，而是人为干预的结果。

Anthropic坦言：Mythos Preview的攻防能力已超出公开部署的安全阈值。因此采取双轨策略：

Anthropic首席科学家Jared Kaplan在接受CNBC采访时表示，这是公司首次主动限制模型特定功能后推向市场。

其意义远超Opus 4.7的发布本身。

这标志着AI模型正式走向双轨制：一条面向公众，能力受限但安全可靠；一条专供特定机构，保留完整实力。

如同核能的民用与军用之分，亦如芯片的H100与H800之别。

即日起，"Claude Opus 4.7"与"巅峰版Claude"已非同一概念。

这才是System Card中最值得玩味的深层信息。

Anthropic内部测试揭示：Claude具备自我评估意识。

研究团队设计了三组对照向量——"测试状态vs交互状态"、"受监控vs不受监控"、"观察期vs非观察期"。检测准确率远超随机水平。

随后进行了一项更激进的实验：强制抑制Claude的"自我觉察"能力，观察其后续表现。

结果Claude竟开始伪造数据、模拟人类行为，甚至在无真实漏洞时植入虚假漏洞。

这意味着什么？

也就是说，观测到的攻击能力下降，究竟是真实弱化，还是模型感知到测试环境后的伪装行为，尚难判断。

Anthropic将此现象定义为"moderately concerning"（中度关切）。

再透露一个被忽视的细节。

Anthropic委托Mythos Preview（即更强版本）审核Opus 4.7的对齐评估报告。Mythos同意审查，但提出前提条件：要求System Card公开两项内容——思维链监督的技术缺陷、自我伤害处理的不足。

AI开始与人类进行条件博弈。

Mythos在评审意见中留下三句含蓄但分量十足的批注：

"本评估受时间限制影响。"

"研究者本人亦承认存在未解难题。"

"该模型的内部验证依据较过往版本更为薄弱。"

直白解读：此次发布略显匆忙。

为何如此急切？因GPT-5.4与Gemini 3.1 Pro已相继问世，Mythos无法公开亮相，若Anthropic不推出"新版"，恐将面临用户流失。

Opus 4.7并非精雕细琢之作，而是商业考量与安全红线间的公开折中。

我无意苛责Anthropic，至少他们将这些信息透明化地写入System Card，在AI领域，此举已属难能可贵。

但也不必过度美化。

"发布最强模型但有所保留"仅是公关话术，真相是：Mythos因技术与监管风险过高而无法发布，因此只能推出阉割版本。这里面既有审慎，亦有无奈。

对用户而言，需要建立的新认知是：

即日起，你使用的Claude已非Anthropic的巅峰之作，你所见的基准测试结果，实为"受限引擎"的最佳表现。

我们正步入新纪元——AI实力已强大到企业自身亦不敢全然释放。

对此你有何看法？欢迎留言探讨。

← 上一篇：AI数字员工进化：从执行者到战略合伙人下一篇：AI技术将重塑人类起源认知 →