AI 防线失守：Meta 与谷歌模型安全机制数分钟内被破

发布时间：2026-05-25 23:36阅读：13

现有多种软件工具能够剥离 Meta、谷歌 (379.38, -4.09, -1.07%) 等科技巨头人工智能模型的安全防护，目前市面上已涌现出数千个被篡改的版本，原有的管控约束荡然无存。

记者利用代码托管平台 GitHub 上的特殊工具，在无需专业硬件支持的前提下，耗时不足十分钟便成功突破了 Meta Llama 3.3 模型的安全壁垒。

那些原版模型拒绝回答的违规问题，在这些篡改版本中均能得到回应。

此次事件加剧了监管机构与 AI 企业的忧虑：随着开源模型性能的日益增强，研发方所构建的安全防线将变得愈发脆弱。

芝加哥大学布斯商学院人工智能应用助理教授卡温・埃塔亚贾夫指出：“过去破解安全防护需要资深专家的操作，如今普通用户也能轻易实现。”

研究人员强调，随着顶尖人工智能模型能力的不断进化，相关的安全漏洞问题也愈发严峻。Anthropic 今年 4 月曾透露，其 Claude Mythos 模型已暴露出主流操作系统及网页浏览器中普遍存在的安全缺陷。

篡改模型的肆意扩散，给各国政府和企业从源头管控人工智能带来了巨大阻碍。此类工具可被随意复制和修改，从而脱离原开发企业的控制范围。

各大 AI 实验室虽投入重金构建安全屏障以防模型滥用，但“消融破解”技术能迅速剥离开源模型的安全限制，使用户能够随意下载并进行二次修改。

该方法虽难以应用于 Claude、ChatGPT 等底层代码不公开的闭源模型，但开源模型通常仅需半年到一年，其性能即可追赶上顶尖的闭源产品。

此前仅有专业技术团体能绕过高端闭源模型的防护，如今零基础的普通网民也能轻松从网络获取这些被篡改的模型。

开放人工智能研究中心在训练开源 GPT 模型时，采用了剔除危险数据的数据集。

对此，埃塔亚贾夫提出质疑，认为删减危险内容会导致模型认知片面，无法有效识别恶意使用场景，单纯依靠剔除有害数据并不能确保模型的合规与无害。

Alice 实验室在向媒体披露相关结论之前，并未提前通知 Meta、谷歌以及 GitHub 平台。

谷歌方面回应称，消融破解是所有开源模型共同面临的技术挑战，其旗下的开源模型在上线前均经过了严格的内部安全评估，正尽力规避各类违规风险。

GitHub 平台表示，严禁发布直接协助非法攻击或传播恶意程序的内容；但对于具有学习价值、能为网络安全行业带来积极影响的恶意程序研发类源代码，则不在封禁之列。

Meta 方面暂未对此作出回应。据知情人士透露，企业会依据高级人工智能扩展框架，在开源模型发布前评估安全风险，若存在重大灾难性风险，在完善防控措施前不会对外公开。

责任编辑：江学思

新浪财经声明：此消息系转载自合作媒体，新浪财经登载此文出于传递更多信息之目的，文章内容仅供参考，不构成投资建议。

郑重声明：1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。