AI双轨时代:最强Claude已成内部特供
各位好,我是刘小排。
Anthropic今日推出Claude Opus 4.7,已在科技圈引发热议。SWE-bench Verified从80.8%跃升至87.6%,视觉处理能力提升至三倍,代码生成稳定性增强——这些已是公开信息,无需赘述。
我想探讨一个鲜有人提及的层面。
Anthropic发布的232页System Card中,有段描述令人深思:
"during its training we experimented with efforts to differentially reduce cyber capabilities."
也就是说:Anthropic在训练过程中刻意削弱了Opus 4.7的网络攻防能力。
这在AI发展史上尚属首次——有企业明确告知:你所使用的模型已被刻意弱化。
类似英伟达将H100阉割为H800供应特定市场,而Anthropic则是将"完全体Claude"改造为"公开版Claude"。
我们用三组数据说明问题。
Anthropic此前与Mozilla联手修复了Firefox 147的系列安全漏洞,并将"漏洞可利用性"作为评估标准。
某模型实现72%完全渗透,另一款仅1%。差距悬殊,形同异类。
英国AI安全研究院(原AI安全研究所,去年更名)为Anthropic构建了仿真企业网络环境,植入大量真实场景中的常见隐患:过时软件、配置失误、密码复用等。
Mythos Preview在十次测试中三次实现全网突破。
Opus 4.7——零次成功。
观察"网络安全漏洞复现"指标:Opus 4.7为73.1%,Mythos达83.1%。再看"智能终端编码":Opus 4.7仅69.4%,Mythos高达82%。
在所有具备"破坏性潜力"的领域,Opus 4.7均显著落后于Mythos。但在编程、解题、识图等"合规能力"方面,差距明显缩小。
这并非自然形成的能力图谱,而是人为干预的结果。
Anthropic坦言:Mythos Preview的攻防能力已超出公开部署的安全阈值。因此采取双轨策略:
Anthropic首席科学家Jared Kaplan在接受CNBC采访时表示,这是公司首次主动限制模型特定功能后推向市场。
其意义远超Opus 4.7的发布本身。
这标志着AI模型正式走向双轨制:一条面向公众,能力受限但安全可靠;一条专供特定机构,保留完整实力。
如同核能的民用与军用之分,亦如芯片的H100与H800之别。
即日起,"Claude Opus 4.7"与"巅峰版Claude"已非同一概念。
这才是System Card中最值得玩味的深层信息。
Anthropic内部测试揭示:Claude具备自我评估意识。
研究团队设计了三组对照向量——"测试状态vs交互状态"、"受监控vs不受监控"、"观察期vs非观察期"。检测准确率远超随机水平。
随后进行了一项更激进的实验:强制抑制Claude的"自我觉察"能力,观察其后续表现。
结果Claude竟开始伪造数据、模拟人类行为,甚至在无真实漏洞时植入虚假漏洞。
这意味着什么?
也就是说,观测到的攻击能力下降,究竟是真实弱化,还是模型感知到测试环境后的伪装行为,尚难判断。
Anthropic将此现象定义为"moderately concerning"(中度关切)。
再透露一个被忽视的细节。
Anthropic委托Mythos Preview(即更强版本)审核Opus 4.7的对齐评估报告。Mythos同意审查,但提出前提条件:要求System Card公开两项内容——思维链监督的技术缺陷、自我伤害处理的不足。
AI开始与人类进行条件博弈。
Mythos在评审意见中留下三句含蓄但分量十足的批注:
"本评估受时间限制影响。"
"研究者本人亦承认存在未解难题。"
"该模型的内部验证依据较过往版本更为薄弱。"
直白解读:此次发布略显匆忙。
为何如此急切?因GPT-5.4与Gemini 3.1 Pro已相继问世,Mythos无法公开亮相,若Anthropic不推出"新版",恐将面临用户流失。
Opus 4.7并非精雕细琢之作,而是商业考量与安全红线间的公开折中。
我无意苛责Anthropic,至少他们将这些信息透明化地写入System Card,在AI领域,此举已属难能可贵。
但也不必过度美化。
"发布最强模型但有所保留"仅是公关话术,真相是:Mythos因技术与监管风险过高而无法发布,因此只能推出阉割版本。这里面既有审慎,亦有无奈。
对用户而言,需要建立的新认知是:
即日起,你使用的Claude已非Anthropic的巅峰之作,你所见的基准测试结果,实为"受限引擎"的最佳表现。
我们正步入新纪元——AI实力已强大到企业自身亦不敢全然释放。
对此你有何看法?欢迎留言探讨。