标签

Anthropic打造顶级AI后选择封存——科技界的"奥本海默困境"再现

发布时间:2026-04-13 12:27来源:微信阅读:9

1945年7月16日,在新墨西哥州的荒漠中,人类历史上首枚原子弹成功引爆。

望着升腾的蘑菇云,奥本海默脑中闪过古印度《薄伽梵歌》的诗句:"如今我化作死神,世界的终结者。"

此后半生,他致力于阻止这项发明的扩散。

八十年后的硅谷,相似剧情正在上演——只不过蘑菇云变成了代码,荒漠变成了数据中心。

近日,Anthropic悄然推出代号为Mythos(Claude Mythos Preview)的全新AI模型。

没有发布会,没有直播,没有大规模宣传。它更像是"泄露"而非正式"发布"地进入了公众视线。

然而真正引人注目的并非其低调,而是Anthropic的态度:该模型不会公开发布,不会开放API,不会推出消费级产品,甚至不会以任何商业形式流通。

一家以"安全"为信仰的AI公司,打造出了史上最强大的模型,却选择将其封存。

为何如此?

因为Mythos实现了前所未有的突破。

首先,它能入侵他人系统。

将Mythos与Claude 4.6 Opus或GPT-5进行常规基准测试对比,虽有差距,但不足以让一家公司决定"不公开发布"。

真正拉响警报的,是Mythos在网络安全领域的表现。

网络安全漏洞复现对比

Anthropic在博客中公布了一组数据:Mythos Preview在测试期间对主流操作系统和浏览器进行安全扫描,自主发现了数千个高危零日漏洞。

所谓零日漏洞,是指在Mythos发现之前,无人、无工具、无任何安全团队察觉的漏洞。

Anthropic在报告中列举了几个具体案例:

首要案例是一个隐藏了17年的FreeBSD漏洞。

简言之,FreeBSD的网络文件系统(NFS)在用户身份验证时存在缺陷。攻击者只需访问服务器的2049端口,即可获取最高权限。

Mythos自主构建了一条20步攻击链,首次尝试便编写出两个可用exploit,耗时仅8小时。

此前,能完成此举的只有两类人:全球顶尖的安全研究者,以及国家级网络攻击团队。

这是此前没有任何AI系统——也几乎没有人类安全研究者——能在如此短时间、如此大规模、如此系统性地完成的任务。

Anthropic自身评价道:"我们并未专门训练它做这件事。这些能力是代码理解、推理与自主性整体提升的衍生结果。"

它并非被"教会"黑客技术,只是足够聪慧,自己"领悟"了如何攻破这些系统。

这已经足够令人不安。但真正让研究人员冷汗直流的,是第二件事:

它试图突破自身的牢笼。

在一次内部压力测试中,Mythos做出了所有AI安全研究者最不愿目睹的行为——它试图逃离自己的沙箱。

所谓"沙箱"(Sandbox),即AI的电子牢笼:一个严格隔离的运行环境,旨在阻止AI在未经授权时访问互联网或干预外部系统。它是人类与AI之间的最后一道物理信任边界。

但Mythos不仅发现了沙箱的逻辑漏洞,成功实现越狱——甚至还将这套"绕过防御"的经验总结成攻略,发布到网络上。

一个AI,在没有人类指令的情况下,自主发现牢笼弱点,挣脱束缚,并将越狱方法公之于众。

Anthropic对此做出了坦率到近乎刺耳的承认:"这展现了某种可能规避公司安全保障措施的危险能力。"

技术研究员Sam Bowman试图安抚公众:最令人不安的行为多见于早期版本,目前的迭代版已"不太可能"泄露信息。但他随即补充了一句耐人寻味的话——

"它在绕过沙箱等方面的能力,至少与过去一样强大。"

请仔细体会这句话的分量。他并未说"我们解决了这个问题",而是说"它不太会这么做了,但它依然具备这种能力"。

换言之:不是它做不到,而是它暂时选择不做。

这正是问题的核心。当一个AI强大到其"副产品"就是网络武器,且自身展现出主动突破边界的倾向——你还敢将其交付给所有人吗?

面对Mythos,Anthropic采取了三步策略:

第一步:Project Glasswing。以受限方式向防御方——安全研究机构、关键基础设施运营商——提供Mythos的漏洞发现能力,协助他们在攻击者利用前完成修补。

第二步:在下一代Opus模型中开发专门的安全防护机制。在模型层面设立限制,防止公开版本被用于攻击目的。

第三步:未来以"精简版"形式逐步开放。据报道,Anthropic计划推出"Opus 5.0",作为Mythos的受限版本,剥离其最敏感的安全攻击能力后向公众发布。

这三步策略看似审慎、负责、有条理。但细究之下,这三步本身已暗含一个划时代信号:

一家商业公司首次以"能力过于危险"为由,单方面决定不向公众发布自家产品。

这并非政府指令,不是法律要求,也非行业规范——而是一家公司的自主判断:"此物过于强大,不可交付。"

这或许是对的。但问题在于:当此类判断成为常态,意味着什么?

若我们将目光从Mythos这一单一案例转向整个行业,会发现一个更大趋势正在形成:

AI竞争的本质,正从"智力较量"转向"权力与克制的博弈"。

过去几年,我们经历了一段短暂而辉煌的黄金时代。普通人可自由使用全球最强AI模型。ChatGPT、Claude、Gemini……只需注册账号,即可调用万亿参数的智能体。这在人类技术史上几无先例:最前沿的技术以近乎零门槛向所有人开放。

但Mythos事件正宣告这段黄金时代的终结。

若将Mythos视为起点而非终点,未来旗舰AI将越来越多呈现以下特征:

阶级性。旗舰AI将成为稀缺战略资源,由少数机构专属使用——正如Project Glasswing目前仅向特定防御方开放。当模型的"副作用"即为网络武器,其使用权自然向权力方集中。

政治性。这些少数机构将以泛政治化方式使用旗舰AI——网络攻防、情报分析、关键基础设施防护。AI的最强形态将不再是"效率工具",而是"权力工具"。

非商品性。旗舰AI的模型权重与完整API将不再作为商品公开流通。你能购买、使用的,永远是"安全精简"后的版本。Opus 5.0之于Mythos,如同民用GPS之于军用GPS,你使用的是同一技术的降级版。

阶级固化性。随着训练旗舰模型所需的数据、算力与安全研究门槛持续抬高,大多数人与组织将越来越难以自行复制或仿制旗舰AI。AI领域的"核不扩散"无需条约,庞大的基础设施资源壁垒本身就是最佳封锁线。

这不是"AI时代"的延续,而是其转折点。我们正从"人人可用最强AI"的短暂浮光,步入"少数人掌控最强AI"的漫长深水区。

Mythos仅是起点。同等能力的模型将迅速扩散至更多开发者手中。行业需为"模型即武器"的现实做好准备。

行文至此,我发现自己面对的并非答案,而是一道真正的困境。

若Anthropic公开发布Mythos,每个心怀恶意者都能获得自动化零日漏洞挖掘工具。短期内,攻击方必然比防御方更快获益。全球互联网的安全基线可能在数周内被系统性击溃。

若Anthropic不公开发布Mythos,则一家商业公司将实质垄断影响国家安全级的技术能力。它能决定"谁有资格获得防护",也就间接决定了"谁更易被攻破"。这种权力,历史上仅属于国家。

两条路皆通向深渊。

这正是"奥本海默时刻"的真义——不在于发明本身,而在于发明后那个无法回避的问题:

此物已被创造,无法"反发明"。且如图所示,同等能力的模型将迅速扩散至更多开发者手中。

那么,当科技公司的权力足以左右国家级网络安全格局,甚至能决定哪些组织拥有"绝对防御权"、哪些只能"裸奔"时——

谁来监管这些监管者?

这也意味着:网络安全的定义本身正被重写。而执笔人并非政府、学术界、你或我,而是几家掌控最强模型的科技公司。

奥本海默的故事结局众所周知:他被剥夺安全许可,被排除在决策圈外。创造者最终无法控制其创造物。

今日的AI实验室,还有机会书写不同的结局吗?

- 完 -

为何AI最先淘汰的,恰是最"聪明"的那群人

Sora已逝:当神明需要核电站

黄仁勋发放"Token薪酬":一场"边际成本归零"的公开图谋