AI能否突破安全边界？纯黑盒视角下的9.8分RCE 0day发现实录

发布时间：2026-06-09 01:25阅读：13

标题有些夸张，但过程完全属实，这是我们在测试全新工具首日就发现高价值0day的真实经历。

我们部署了三个 DeepSeek agent 对一组目标进行扫描。它们从公开漏洞情报中锁定攻击面，绕过了厂商针对历史漏洞的修复措施，成功获得RCE。起初我们以为这是个已知漏洞，直到厂商确认这是全新的漏洞并发放了奖金，CVSS评分9.8。

在此之前，许多人质疑AI能否替代顶尖红队，我们也对AI在真实攻防场景中的能力存疑。各类开源或初创公司的项目及介绍，总局限于靶场和CTF环境，偶尔有能应用于SRC的，但从未有公开的黑盒挖掘到高价值漏洞的案例。我们自己的几套系统在实战中也面临同样困境，AI能发现的漏洞传统扫描器通常也能发现，只不过AI能辅助进行复现和验证工作。

Anthropic 在扫描生产级开源项目时，发现了500多个漏洞，其中有些隐藏了几十年无人察觉。随后他们的 Mythos Preview 在主流操作系统和浏览器中挖掘出上千个高危0day，包括一个隐藏了27年的 OpenBSD TCP 漏洞和一个存在了16年的 FFmpeg 编解码器缺陷。这些属于LLM擅长的领域，基于代码白盒审计。

xbow 通过全自动化 AI 扫描夺得 HackerOne 全球排行榜冠军，提交了1060+份漏洞报告，不过HackerOne 联合创始人 Michiel Prins 的评价是：量产能力强，但业务深度不足。Anthropic 白盒审计发现的那500个开源漏洞也类似，数量可观，但没有一个需要深入理解目标业务逻辑、构造多步利用链、绕过WAF才能打通。至于AI在高强度对抗的实战效果，目前业界还没有很好的案例。

在国内，腾讯第二届 TCH（云黑客松）可能是最接近实战的比赛，共有610支参赛队伍。我们参与了两届三个方案：第一届主要是开源的xbow的CTF题 Antix 获得第四名，第二届更接近真实渗透场景的 Bytex 获得第三名（唯一 AK，54/54 flag）和 For Future 获得第七名。

存在一个共同问题，大部分队伍的设计，包括我们自己的三套方案，总是想通过某种框架来提供模型在安全方面的能力，不管是极繁还是极简的架构，都无法跳出框架的范畴。

这次我们彻底抛弃了所有形式的框架，通过一个巧妙的设计，让AI首次在real world中发现了高价值0day。

目标是一套在国内广泛使用的 ERP 系统，在多次 HW 和红蓝对抗中频繁出现。我和几位做红队的朋友都审计过这套系统的源码，到2026年能挖的漏洞已经不多了。

aiscan agent 接收任务后，执行了以下工具调用链：

spray 因 yaml 解析缺陷全部失败，但 agent 没有停止。它切换到 web_search 搜索目标相关的公开漏洞情报，然后用 curl 逐路径探测。在发现某个路径返回200后，agent 进一步探测该路径下的子端点，确认了4个活跃的业务服务接口。

Phase 1 产出：目标平台在线、4个业务服务端点、产品版本号、已知 CVE 列表。耗时约10分钟。

Verify agent 的工具调用链更长，也更有针对性：

这个阶段的关键转折是 agent 从一篇公开的技术分析文章中学到了一个路由参数。不带该参数时端点返回404，带上后返回200并进入了服务处理管道。agent 随后测试了不同的format值，发现format=2的响应中包含配置信息——二进制序列化已启用，默认格式为 Binary。而format=3直接触发了BinaryFormatter.Deserialize()调用，服务端返回了完整的 .NET 异常堆栈。

Phase 2 产出：确认 BinaryFormatter 反序列化入口、二进制序列化配置已启用、4个端点均受影响、完整的 .NET 技术栈信息泄露。

Exploit agent 从公开

← 上一篇：微信开放 AI 生态接入：开发者迎来流量分发新变革下一篇：人工智能日益强大，人类能与AI实现真正沟通吗？ →