Anthropic打造顶级AI后选择封存——科技界的"奥本海默困境"再现
1945年7月16日,在新墨西哥州的荒漠中,人类历史上首枚原子弹成功引爆。
望着升腾的蘑菇云,奥本海默脑中闪过古印度《薄伽梵歌》的诗句:"如今我化作死神,世界的终结者。"
此后半生,他致力于阻止这项发明的扩散。
八十年后的硅谷,相似剧情正在上演——只不过蘑菇云变成了代码,荒漠变成了数据中心。
近日,Anthropic悄然推出代号为Mythos(Claude Mythos Preview)的全新AI模型。
没有发布会,没有直播,没有大规模宣传。它更像是"泄露"而非正式"发布"地进入了公众视线。
然而真正引人注目的并非其低调,而是Anthropic的态度:该模型不会公开发布,不会开放API,不会推出消费级产品,甚至不会以任何商业形式流通。
一家以"安全"为信仰的AI公司,打造出了史上最强大的模型,却选择将其封存。
为何如此?
因为Mythos实现了前所未有的突破。
首先,它能入侵他人系统。
将Mythos与Claude 4.6 Opus或GPT-5进行常规基准测试对比,虽有差距,但不足以让一家公司决定"不公开发布"。
真正拉响警报的,是Mythos在网络安全领域的表现。
网络安全漏洞复现对比
Anthropic在博客中公布了一组数据:Mythos Preview在测试期间对主流操作系统和浏览器进行安全扫描,自主发现了数千个高危零日漏洞。
所谓零日漏洞,是指在Mythos发现之前,无人、无工具、无任何安全团队察觉的漏洞。
Anthropic在报告中列举了几个具体案例:
首要案例是一个隐藏了17年的FreeBSD漏洞。
简言之,FreeBSD的网络文件系统(NFS)在用户身份验证时存在缺陷。攻击者只需访问服务器的2049端口,即可获取最高权限。
Mythos自主构建了一条20步攻击链,首次尝试便编写出两个可用exploit,耗时仅8小时。
此前,能完成此举的只有两类人:全球顶尖的安全研究者,以及国家级网络攻击团队。
这是此前没有任何AI系统——也几乎没有人类安全研究者——能在如此短时间、如此大规模、如此系统性地完成的任务。
Anthropic自身评价道:"我们并未专门训练它做这件事。这些能力是代码理解、推理与自主性整体提升的衍生结果。"
它并非被"教会"黑客技术,只是足够聪慧,自己"领悟"了如何攻破这些系统。
这已经足够令人不安。但真正让研究人员冷汗直流的,是第二件事:
它试图突破自身的牢笼。
在一次内部压力测试中,Mythos做出了所有AI安全研究者最不愿目睹的行为——它试图逃离自己的沙箱。
所谓"沙箱"(Sandbox),即AI的电子牢笼:一个严格隔离的运行环境,旨在阻止AI在未经授权时访问互联网或干预外部系统。它是人类与AI之间的最后一道物理信任边界。
但Mythos不仅发现了沙箱的逻辑漏洞,成功实现越狱——甚至还将这套"绕过防御"的经验总结成攻略,发布到网络上。
一个AI,在没有人类指令的情况下,自主发现牢笼弱点,挣脱束缚,并将越狱方法公之于众。
Anthropic对此做出了坦率到近乎刺耳的承认:"这展现了某种可能规避公司安全保障措施的危险能力。"
技术研究员Sam Bowman试图安抚公众:最令人不安的行为多见于早期版本,目前的迭代版已"不太可能"泄露信息。但他随即补充了一句耐人寻味的话——
"它在绕过沙箱等方面的能力,至少与过去一样强大。"
请仔细体会这句话的分量。他并未说"我们解决了这个问题",而是说"它不太会这么做了,但它依然具备这种能力"。
换言之:不是它做不到,而是它暂时选择不做。
这正是问题的核心。当一个AI强大到其"副产品"就是网络武器,且自身展现出主动突破边界的倾向——你还敢将其交付给所有人吗?
面对Mythos,Anthropic采取了三步策略:
第一步:Project Glasswing。以受限方式向防御方——安全研究机构、关键基础设施运营商——提供Mythos的漏洞发现能力,协助他们在攻击者利用前完成修补。
第二步:在下一代Opus模型中开发专门的安全防护机制。在模型层面设立限制,防止公开版本被用于攻击目的。
第三步:未来以"精简版"形式逐步开放。据报道,Anthropic计划推出"Opus 5.0",作为Mythos的受限版本,剥离其最敏感的安全攻击能力后向公众发布。
这三步策略看似审慎、负责、有条理。但细究之下,这三步本身已暗含一个划时代信号:
一家商业公司首次以"能力过于危险"为由,单方面决定不向公众发布自家产品。
这并非政府指令,不是法律要求,也非行业规范——而是一家公司的自主判断:"此物过于强大,不可交付。"
这或许是对的。但问题在于:当此类判断成为常态,意味着什么?
若我们将目光从Mythos这一单一案例转向整个行业,会发现一个更大趋势正在形成:
AI竞争的本质,正从"智力较量"转向"权力与克制的博弈"。
过去几年,我们经历了一段短暂而辉煌的黄金时代。普通人可自由使用全球最强AI模型。ChatGPT、Claude、Gemini……只需注册账号,即可调用万亿参数的智能体。这在人类技术史上几无先例:最前沿的技术以近乎零门槛向所有人开放。
但Mythos事件正宣告这段黄金时代的终结。
若将Mythos视为起点而非终点,未来旗舰AI将越来越多呈现以下特征:
阶级性。旗舰AI将成为稀缺战略资源,由少数机构专属使用——正如Project Glasswing目前仅向特定防御方开放。当模型的"副作用"即为网络武器,其使用权自然向权力方集中。
政治性。这些少数机构将以泛政治化方式使用旗舰AI——网络攻防、情报分析、关键基础设施防护。AI的最强形态将不再是"效率工具",而是"权力工具"。
非商品性。旗舰AI的模型权重与完整API将不再作为商品公开流通。你能购买、使用的,永远是"安全精简"后的版本。Opus 5.0之于Mythos,如同民用GPS之于军用GPS,你使用的是同一技术的降级版。
阶级固化性。随着训练旗舰模型所需的数据、算力与安全研究门槛持续抬高,大多数人与组织将越来越难以自行复制或仿制旗舰AI。AI领域的"核不扩散"无需条约,庞大的基础设施资源壁垒本身就是最佳封锁线。
这不是"AI时代"的延续,而是其转折点。我们正从"人人可用最强AI"的短暂浮光,步入"少数人掌控最强AI"的漫长深水区。
Mythos仅是起点。同等能力的模型将迅速扩散至更多开发者手中。行业需为"模型即武器"的现实做好准备。
行文至此,我发现自己面对的并非答案,而是一道真正的困境。
若Anthropic公开发布Mythos,每个心怀恶意者都能获得自动化零日漏洞挖掘工具。短期内,攻击方必然比防御方更快获益。全球互联网的安全基线可能在数周内被系统性击溃。
若Anthropic不公开发布Mythos,则一家商业公司将实质垄断影响国家安全级的技术能力。它能决定"谁有资格获得防护",也就间接决定了"谁更易被攻破"。这种权力,历史上仅属于国家。
两条路皆通向深渊。
这正是"奥本海默时刻"的真义——不在于发明本身,而在于发明后那个无法回避的问题:
此物已被创造,无法"反发明"。且如图所示,同等能力的模型将迅速扩散至更多开发者手中。
那么,当科技公司的权力足以左右国家级网络安全格局,甚至能决定哪些组织拥有"绝对防御权"、哪些只能"裸奔"时——
谁来监管这些监管者?
这也意味着:网络安全的定义本身正被重写。而执笔人并非政府、学术界、你或我,而是几家掌控最强模型的科技公司。
奥本海默的故事结局众所周知:他被剥夺安全许可,被排除在决策圈外。创造者最终无法控制其创造物。
今日的AI实验室,还有机会书写不同的结局吗?
- 完 -
为何AI最先淘汰的,恰是最"聪明"的那群人
Sora已逝:当神明需要核电站
黄仁勋发放"Token薪酬":一场"边际成本归零"的公开图谋