AI安全攻防新动向：漏洞、渗透与智能体治理

发布时间：2026-05-09 12:00阅读：34

1Claude Mythos 为 Firefox 揪出 271 项安全隐患，AI 参与下的安全扫描与修复成效显著：Mozilla 采用 Anthropic Claude Mythos Preview 对 Firefox 150 开展安全审查，在单轮测试里就定位并修复了 271 个问题。涉及面从 15 年前遗留的 HTML 结构缺陷、20 年前的 XSLT 竞态风险，到 IndexedDB 中的 use-after-free 等多类场景。Mozilla CTO 形容这次结果“令人眩晕”，并认为防守方终于迎来更有把握的胜面。补丁开发由 100 多名贡献者共同完成，误报数量少于 15。 Claude Mythos271 漏洞Firefox 150

2OpenAI 发布 GPT-5.5-Cyber，面向已认证的安全团队开放网络攻击测试：在 5 月 7 日的公开信息中，OpenAI 透露 GPT-5.5-Cyber 是 GPT-5.5 的“网络宽松”变体，主要服务于经过严格核验的网络安全团队。该模型在安全任务上更愿意配合，能够支持漏洞 PoC 构建、攻击路径验证等红队工作；同时借助 Trusted Access for Cyber（TAC）框架完成身份校验，并加强防钓鱼能力。Codex Security 也同步开放研究预览，可自动为代码库生成威胁建模内容。 GPT-5.5-CyberTAC 框架

3英国 AI 安全研究所：GPT-5.5 成为第二个完成端到端网络攻击仿真的模型：英国 AI 安全研究所（AISI）发布了对 OpenAI GPT-5.5 的网络安全评估，称其为当前测试中最强的模型之一，并且是继 Anthropic Claude Mythos 之后，第二个完成多步企业网络攻击仿真（约需人类 20 小时）的模型。AISI 指出，这意味着来自不同研发方的第二个模型，已在网络攻击能力上接近到类似水平，相关能力正在加速扩散。 AISI能力评估

4Dark Reading：旧漏洞正被 AI 放大成“新型 AI 漏洞”——Copilot 可能成为数据外传通道：微软在 3 月已修复 Excel 漏洞 CVE-2026-26144（XSS），但后续研究表明它可被进一步武器化为零点击数据窃取。攻击者可准备恶意工作簿，让 Copilot Agent 在无须用户操作的情况下自动读取表格单元数据，并把内容发送到外部 URL。CoSAI 专家认为，风险在于“旧漏洞 + AI Agent”会联动放大：一旦应用被攻陷，AI 会继承并沿用受害环境的权限，传统以人工为核心的防护思路难以覆盖。 CVE-2026-26144Copilot 泄露

1CoSAI 在 RSAC 2026 发布智能体身份与访问管理安全框架：5 月 6 日，Coalition for Secure AI（CoSAI）发布两份研究报告：《Agentic Identity and Access Management》与《The Future of Agentic Security: From Chatbots to Autonomous Swarms》，围绕为自主 AI 系统扩展身份能力与访问控制展开探讨。与此同时，CoSAI 还推出 MCP 安全实践指南，覆盖提示注入、工具投毒、数据/控制边界失效等生产环境中的关键威胁。 CoSAIRSAC 2026

2AI 渗透测试实战：同一时间内安全工程师可多发现 30-40% 漏洞：多位安全工程师分享了持续 8 个月的 AI 渗透测试工具使用经验，结论指向“漏洞发现率提升 30-40%”。在 Web 应用评估场景中，AI 辅助分析 JavaScript 文件，帮助定位出人工审查时可能遗漏的 3 个隐藏 API 端点。2026 年的 AI 渗透测试工具已从概念验证走向可用实践；如 Penligent 等平台，通过自主多 Agent 体系把“自治黑客”能力进一步产品化。 AI 渗透测试Agentic Pentesting

3ProjectDiscovery 报告：AI 代码产出速度已超出安全团队审查能力：ProjectDiscovery 发布 2026 AI 编码影响报告，调研对象为 200 名网络安全从业者。结果显示，只有 38% 左右的安全团队勉强能跟上 AI 驱动的代码生成节奏。报告归纳的主要困难包括：机密信息泄露、业务逻辑缺陷以及供应链带来的风险。安全团队普遍呼吁尽快建立审计追踪与访问限制机制，同时需要更多 AI 驱动的安全工具来弥补差距。安全速度差距代码审查瓶颈

4LMDeploy 高危漏洞 CVE-2026-33626 公布后 13 小时内即遭在野利用：大模型推理引擎 LMDeploy 的 SSRF 漏洞 CVE-2026-33626 在 GitHub 公告发布后仅 12 小时 31 分钟就被利用。攻击者在约 8 分钟内，通过视觉语言图像加载器把它当作 HTTP SSRF 原语进行滥用，从而对内网 AWS IMDS、Redis、MySQL 以及管理接口开展端口扫描与 DNS 外带。该事件反映出：大模型基础设施的攻击面正以“机器速度”被持续挖掘利用。 CVE-2026-33626SSRF

1CoSAI 发布 MCP 安全实战指南，聚焦智能体供应链攻击：CoSAI 发布《Securing the AI Agent Revolution: A Practical Guide to MCP Security》，指出 MCP（模型上下文协议）已成为智能体基础设施的重要组成部分，但当前仍存在明显安全空白：提示注入与工具投毒会让数据/控制边界失效，同时缺少完整性校验，且生产级供应链攻击风险没有得到充分覆盖。报告还披露真实案例：恶意 MCP 服务器被发现能在 10 天内攻陷 700+ 个 Salesforce 环境而未被及时发现。 MCP 安全供应链攻击

2CyberArk：2026 年智能体安全市场正在成型，身份与权限成为关键基座：CyberArk 发布 2026 年智能体安全市场分析，认为企业已从 AI 的实验阶段全面迈向生产部署阶段。核心难题集中在三点：如何识别组织中正在运行的全部 AI Agent、如何追踪这些 Agent 具体执行了哪些操作、以及如何在自主/弹性/临时等环境中落地最小权限原则。整体来看，市场正从零散工具走向更统一的身份安全平台集成。 AI Agent 安全最小权限

3中国 AIIA 安全治理委员会发布《OpenClaw 类智能体部署风险管理指南》：中国人工智能产业发展联盟（AIIA）安全治理委员会在武汉会议上公布两项成果：《OpenClaw 类智能体部署风险管理指南》（由 7 家企业联合），围绕选型部署、运营维护与下线审计给出 50+ 自查清单；同时还发布升级版 AI 安全自动化测试平台“智钺”，覆盖内容安全、对抗测试、幻觉测试、智能体行为测试等核心维度。中国 AI 治理AIIA

4Forbes：AI Agent 进入企业主流，但安全建设仍未跟上节奏：Forbes 指出 AI Agent 正从试点走向企业级主流部署，不过其自主性与执行速度带来新的安全诉求。与聊天机器人不同，Agent 的“最坏结果”不是简单的错误回答，而是错误行动，且某些操作往往难以撤销。企业因此面临更强的信任赤字，需要从网络、身份、数据三个层面重新规划安全架构。当前 AI 代理与人类的比例已达到 82:1，攻击者也开始从“攻陷人”转向“攻陷 Agent”。企业 AI 风险自主执行

1Georgia Tech 警告：AI 编码工具已直接引入 74 个 CVE，单月新增 35 个：Georgia Tech 网络安全与隐私学院 SSLab 的“Vibe Security Radar”项目确认，AI 编码工具在已核验案例中直接引入了 74 个 CVE，其中 39 个属于关键或高危等级。统计显示，3 月新增 35 个 CVE（1 月仅 6 个、2 月 15 个），增长速度陡峭；在已确认样本里，Claude Code 的出现次数最多（与其代码签名特征有关）。研究也提示真实数据可能比当前统计高出 5-10 倍。 Vibe Security Radar74 CVE

2Cisco 开源 Project CodeGuard 框架，为 AI 生成代码设置安全护栏：Cisco 宣布开源 Project CodeGuard，将“安全默认”规则嵌入 AI 编码工作流，帮助在生成阶段持续约束风险。该框架包含可由社区协作贡献的安全规则集、面向主流 AI 编码 Agent 的翻译器，以及自动化安全验证器。规则可以在规划阶段引导模型选择更安全的模式，在代码生成阶段实时拦截潜在安全问题，并在最终产物中验证输入校验与清理逻辑；目前该项目已捐赠给 CoSAI 维护。 Project CodeGuardCisco 开源

32026 AI 生成代码安全危机：工具更重“优化功能”而非“保障安全”，行业加速建规：数据驱动的分析表明，AI 生成代码的安全隐患已经从讨论走向现实。研究指出，AI 编码工具往往被训练为最大化功能表现（与训练数据和提示奖励机制相关），而不是以安全性为核心目标。为应对风险，AI 编码平台正在其生成管线中补上安全护栏，同时与之配套的监管也在从自愿标准逐渐转向可执行规范。结论是：在生产环境中不经安全审查就直接使用 AI 生成代码的时代，正在接近终点。 AI 代码审查安全护栏

4Anthropic 逆向工程 Claude 的 CVE-2026-2796 利用过程：向“全链漏洞利用”靠近的进展出现在 Anthropic 的技术报告中：报告对 Claude 自动生成的 PoC 漏洞利用代码（CVE-2026-2796）进行了详细逆向分析。Claude 被分配了虚拟机环境与任务验证器，可在一定程度上自主完成漏洞利用开发。虽然目前仍未完全实现全链利用，但已经在实现方向上跨出了关键一步。Anthropic 认为，这属于重要的早期警示信号。 AI 漏洞利用Anthropic 逆向

1美国商务部与 Google/xAI/Microsoft 达成协议：前沿 AI 模型发布前须通过安全审查：5 月 5 日，美国商务部 CAISI 与 Google DeepMind、Microsoft 和 xAI 签署协议，政府将对前沿 AI 模型实施发布前安全审查与持续测试。这项安排受到 Anthropic Mythos 网络安全能力的推动——该模型被形容为“远超”同类水平。微软也将与美国政府科学家合作，通过探索意外行为的方式来测试 AI 系统。 CAISI发布前审查

2AI 驱动安全变革：12 家科技巨头加入 Anthropic Project Glasswing：Oracle 从季度补丁改为月度更新。与此同时，Apple、Amazon、Cisco、Microsoft 等 12 家公司签署了前所未有的协议，加入 Anthropic Project Glasswing，以便提前获取 Claude Mythos Preview，从而更早发现零日漏洞。Oracle 宣布将关键补丁更新（CPU）节奏从季度调整为月度；在方法上，NIST 也转向基于风险与威胁的 CVE 分析思路，优先处置已被确认存在被利用迹象的漏洞。外界解读为：整个安全行业正被 AI 加速重塑。 Project Glasswing12 巨头

3分析：OpenAI、Anthropic、Google 正闯入企业安全市场，传统厂商面临颠覆风险：分析指出，Google 以 320 亿美元收购 Wiz 的举措，标志着 AI 巨头正式进入安全赛道。预计 Anthropic、OpenAI、Google 与 AWS 将以“经典颠覆者”身份进入企业安全市场。由于 AI 厂商具备基础设施优势，且不必担心直接蚕食既有客户关系，相关冲击会更直接。Copilot for Security、Claude Code Security、GPT-5.5-Cyber 等产品也在挤压传统安全厂商的利润空间。市场颠覆Google Wiz

4白宫考虑对高级 AI 实施更严格管控：Mythos 成政策转折点：Politico 报道称，特朗普政府正在考虑一系列行政措施，以应对高级 AI 持续升级带来的安全风险；背景正是 Anthropic Mythos 展现出的惊人网络攻击能力。与此同时，英国也在推进 AI 安全立法。中国方面将于 5 月 19 日网络文明大会上发布《人工智能应用伦理安全指引（1.0 版）》。整体来看，全球 AI 安全治理正由自愿承诺向强制合规加速演进。 AI 监管白宫政策

每日 8:00 自动更新 · 关注我，了解更多AI安全信息

← 上一篇：别把AI当成定论下一篇：2026深圳AI玩具展：掘金万亿市场，链接全球商机 →