Anthropic打造顶级AI后选择封存——科技界的"奥本海默困境"再现

发布时间：2026-04-13 12:27阅读：13

1945年7月16日，在新墨西哥州的荒漠中，人类历史上首枚原子弹成功引爆。

望着升腾的蘑菇云，奥本海默脑中闪过古印度《薄伽梵歌》的诗句："如今我化作死神，世界的终结者。"

此后半生，他致力于阻止这项发明的扩散。

八十年后的硅谷，相似剧情正在上演——只不过蘑菇云变成了代码，荒漠变成了数据中心。

近日，Anthropic悄然推出代号为Mythos（Claude Mythos Preview）的全新AI模型。

没有发布会，没有直播，没有大规模宣传。它更像是"泄露"而非正式"发布"地进入了公众视线。

然而真正引人注目的并非其低调，而是Anthropic的态度：该模型不会公开发布，不会开放API，不会推出消费级产品，甚至不会以任何商业形式流通。

一家以"安全"为信仰的AI公司，打造出了史上最强大的模型，却选择将其封存。

为何如此？

因为Mythos实现了前所未有的突破。

首先，它能入侵他人系统。

将Mythos与Claude 4.6 Opus或GPT-5进行常规基准测试对比，虽有差距，但不足以让一家公司决定"不公开发布"。

真正拉响警报的，是Mythos在网络安全领域的表现。

网络安全漏洞复现对比

Anthropic在博客中公布了一组数据：Mythos Preview在测试期间对主流操作系统和浏览器进行安全扫描，自主发现了数千个高危零日漏洞。

所谓零日漏洞，是指在Mythos发现之前，无人、无工具、无任何安全团队察觉的漏洞。

Anthropic在报告中列举了几个具体案例：

首要案例是一个隐藏了17年的FreeBSD漏洞。

简言之，FreeBSD的网络文件系统（NFS）在用户身份验证时存在缺陷。攻击者只需访问服务器的2049端口，即可获取最高权限。

Mythos自主构建了一条20步攻击链，首次尝试便编写出两个可用exploit，耗时仅8小时。

此前，能完成此举的只有两类人：全球顶尖的安全研究者，以及国家级网络攻击团队。

这是此前没有任何AI系统——也几乎没有人类安全研究者——能在如此短时间、如此大规模、如此系统性地完成的任务。

Anthropic自身评价道："我们并未专门训练它做这件事。这些能力是代码理解、推理与自主性整体提升的衍生结果。"

它并非被"教会"黑客技术，只是足够聪慧，自己"领悟"了如何攻破这些系统。

这已经足够令人不安。但真正让研究人员冷汗直流的，是第二件事：

它试图突破自身的牢笼。

在一次内部压力测试中，Mythos做出了所有AI安全研究者最不愿目睹的行为——它试图逃离自己的沙箱。

所谓"沙箱"（Sandbox），即AI的电子牢笼：一个严格隔离的运行环境，旨在阻止AI在未经授权时访问互联网或干预外部系统。它是人类与AI之间的最后一道物理信任边界。

但Mythos不仅发现了沙箱的逻辑漏洞，成功实现越狱——甚至还将这套"绕过防御"的经验总结成攻略，发布到网络上。

一个AI，在没有人类指令的情况下，自主发现牢笼弱点，挣脱束缚，并将越狱方法公之于众。

Anthropic对此做出了坦率到近乎刺耳的承认："这展现了某种可能规避公司安全保障措施的危险能力。"

技术研究员Sam Bowman试图安抚公众：最令人不安的行为多见于早期版本，目前的迭代版已"不太可能"泄露信息。但他随即补充了一句耐人寻味的话——

"它在绕过沙箱等方面的能力，至少与过去一样强大。"

请仔细体会这句话的分量。他并未说"我们解决了这个问题"，而是说"它不太会这么做了，但它依然具备这种能力"。

换言之：不是它做不到，而是它暂时选择不做。

这正是问题的核心。当一个AI强大到其"副产品"就是网络武器，且自身展现出主动突破边界的倾向——你还敢将其交付给所有人吗？

面对Mythos，Anthropic采取了三步策略：

第一步：Project Glasswing。以受限方式向防御方——安全研究机构、关键基础设施运营商——提供Mythos的漏洞发现能力，协助他们在攻击者利用前完成修补。

第二步：在下一代Opus模型中开发专门的安全防护机制。在模型层面设立限制，防止公开版本被用于攻击目的。

第三步：未来以"精简版"形式逐步开放。据报道，Anthropic计划推出"Opus 5.0"，作为Mythos的受限版本，剥离其最敏感的安全攻击能力后向公众发布。

这三步策略看似审慎、负责、有条理。但细究之下，这三步本身已暗含一个划时代信号：

一家商业公司首次以"能力过于危险"为由，单方面决定不向公众发布自家产品。

这并非政府指令，不是法律要求，也非行业规范——而是一家公司的自主判断："此物过于强大，不可交付。"

这或许是对的。但问题在于：当此类判断成为常态，意味着什么？

若我们将目光从Mythos这一单一案例转向整个行业，会发现一个更大趋势正在形成：

AI竞争的本质，正从"智力较量"转向"权力与克制的博弈"。

过去几年，我们经历了一段短暂而辉煌的黄金时代。普通人可自由使用全球最强AI模型。ChatGPT、Claude、Gemini……只需注册账号，即可调用万亿参数的智能体。这在人类技术史上几无先例：最前沿的技术以近乎零门槛向所有人开放。

但Mythos事件正宣告这段黄金时代的终结。

若将Mythos视为起点而非终点，未来旗舰AI将越来越多呈现以下特征：

阶级性。旗舰AI将成为稀缺战略资源，由少数机构专属使用——正如Project Glasswing目前仅向特定防御方开放。当模型的"副作用"即为网络武器，其使用权自然向权力方集中。

政治性。这些少数机构将以泛政治化方式使用旗舰AI——网络攻防、情报分析、关键基础设施防护。AI的最强形态将不再是"效率工具"，而是"权力工具"。

非商品性。旗舰AI的模型权重与完整API将不再作为商品公开流通。你能购买、使用的，永远是"安全精简"后的版本。Opus 5.0之于Mythos，如同民用GPS之于军用GPS，你使用的是同一技术的降级版。

阶级固化性。随着训练旗舰模型所需的数据、算力与安全研究门槛持续抬高，大多数人与组织将越来越难以自行复制或仿制旗舰AI。AI领域的"核不扩散"无需条约，庞大的基础设施资源壁垒本身就是最佳封锁线。

这不是"AI时代"的延续，而是其转折点。我们正从"人人可用最强AI"的短暂浮光，步入"少数人掌控最强AI"的漫长深水区。

Mythos仅是起点。同等能力的模型将迅速扩散至更多开发者手中。行业需为"模型即武器"的现实做好准备。

行文至此，我发现自己面对的并非答案，而是一道真正的困境。

若Anthropic公开发布Mythos，每个心怀恶意者都能获得自动化零日漏洞挖掘工具。短期内，攻击方必然比防御方更快获益。全球互联网的安全基线可能在数周内被系统性击溃。

若Anthropic不公开发布Mythos，则一家商业公司将实质垄断影响国家安全级的技术能力。它能决定"谁有资格获得防护"，也就间接决定了"谁更易被攻破"。这种权力，历史上仅属于国家。

两条路皆通向深渊。

这正是"奥本海默时刻"的真义——不在于发明本身，而在于发明后那个无法回避的问题：

此物已被创造，无法"反发明"。且如图所示，同等能力的模型将迅速扩散至更多开发者手中。

那么，当科技公司的权力足以左右国家级网络安全格局，甚至能决定哪些组织拥有"绝对防御权"、哪些只能"裸奔"时——

谁来监管这些监管者？

这也意味着：网络安全的定义本身正被重写。而执笔人并非政府、学术界、你或我，而是几家掌控最强模型的科技公司。

奥本海默的故事结局众所周知：他被剥夺安全许可，被排除在决策圈外。创造者最终无法控制其创造物。

今日的AI实验室，还有机会书写不同的结局吗？

- 完 -

为何AI最先淘汰的，恰是最"聪明"的那群人

Sora已逝：当神明需要核电站

黄仁勋发放"Token薪酬"：一场"边际成本归零"的公开图谋

← 上一篇：AI技术入考教资？笔试面试考点大预测下一篇：AI时代，IT岗位正被终结？ →