标签

AI 防线失守:Meta 与谷歌模型安全机制数分钟内被破

发布时间:2026-05-25 23:36来源:新浪新闻阅读:5

现有多种软件工具能够剥离 Meta、谷歌 (379.38, -4.09, -1.07%) 等科技巨头人工智能模型的安全防护,目前市面上已涌现出数千个被篡改的版本,原有的管控约束荡然无存。

记者利用代码托管平台 GitHub 上的特殊工具,在无需专业硬件支持的前提下,耗时不足十分钟便成功突破了 Meta Llama 3.3 模型的安全壁垒。

那些原版模型拒绝回答的违规问题,在这些篡改版本中均能得到回应。

此次事件加剧了监管机构与 AI 企业的忧虑:随着开源模型性能的日益增强,研发方所构建的安全防线将变得愈发脆弱。

芝加哥大学布斯商学院人工智能应用助理教授卡温・埃塔亚贾夫指出:“过去破解安全防护需要资深专家的操作,如今普通用户也能轻易实现。”

研究人员强调,随着顶尖人工智能模型能力的不断进化,相关的安全漏洞问题也愈发严峻。Anthropic 今年 4 月曾透露,其 Claude Mythos 模型已暴露出主流操作系统及网页浏览器中普遍存在的安全缺陷。

篡改模型的肆意扩散,给各国政府和企业从源头管控人工智能带来了巨大阻碍。此类工具可被随意复制和修改,从而脱离原开发企业的控制范围。

各大 AI 实验室虽投入重金构建安全屏障以防模型滥用,但“消融破解”技术能迅速剥离开源模型的安全限制,使用户能够随意下载并进行二次修改。

该方法虽难以应用于 Claude、ChatGPT 等底层代码不公开的闭源模型,但开源模型通常仅需半年到一年,其性能即可追赶上顶尖的闭源产品。

此前仅有专业技术团体能绕过高端闭源模型的防护,如今零基础的普通网民也能轻松从网络获取这些被篡改的模型。

开放人工智能研究中心在训练开源 GPT 模型时,采用了剔除危险数据的数据集。

对此,埃塔亚贾夫提出质疑,认为删减危险内容会导致模型认知片面,无法有效识别恶意使用场景,单纯依靠剔除有害数据并不能确保模型的合规与无害。

Alice 实验室在向媒体披露相关结论之前,并未提前通知 Meta、谷歌以及 GitHub 平台。

谷歌方面回应称,消融破解是所有开源模型共同面临的技术挑战,其旗下的开源模型在上线前均经过了严格的内部安全评估,正尽力规避各类违规风险。

GitHub 平台表示,严禁发布直接协助非法攻击或传播恶意程序的内容;但对于具有学习价值、能为网络安全行业带来积极影响的恶意程序研发类源代码,则不在封禁之列。

Meta 方面暂未对此作出回应。据知情人士透露,企业会依据高级人工智能扩展框架,在开源模型发布前评估安全风险,若存在重大灾难性风险,在完善防控措施前不会对外公开。

责任编辑:江学思

新浪财经声明:此消息系转载自合作媒体,新浪财经登载此文出于传递更多信息之目的,文章内容仅供参考,不构成投资建议。

郑重声明:1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。