AI红队实战突破?纯黑盒挖掘通用产品RCE 0day漏洞全过程
虽是标题党,但经历属实,我们在试用新工具的首日,便真实捕获了一个高价值的0day漏洞。
我们指挥三个 DeepSeek agent 针对特定目标进行扫描。它们利用公开情报锁定攻击面,成功绕过厂商对旧有漏洞的修补,获取了 RCE 权限。起初我们认为这是已知漏洞,直到厂商确认是新发现的,并发放了奖金。CVSS 评分高达 9.8。
此前,许多人质疑 AI 能否取代顶级红队,我们也对 AI 在实战攻防中的表现持保留态度。市面上各种开源或创业项目,大多局限于靶场或 CTF 环境展示,即便能投入 SRC,也鲜有公开的黑盒挖掘高价值漏洞的成功案例。我们自己的系统在实战中也面临类似困境,AI 挖出的漏洞往往也是传统扫描器能发现的,仅能辅助复现和验证。
Anthropic 曾扫描生产级开源项目,发现了 500 多个漏洞,其中不乏潜伏数十年的隐患。其后续的 Mythos Preview 更是在主流操作系统和浏览器中挖掘出上千个高危 0day,例如潜伏 27 年的 OpenBSD TCP 漏洞和潜伏 16 年的 FFmpeg 编解码器缺陷。这些工作属于 LLM 的强项,基于代码白盒审计。
Xbow 通过全自动 AI 扫描登顶 HackerOne 全球榜首,提交了 1,060+ 份报告。但 HackerOne 联合创始人 Michiel Prins 指出其业务深度不足。Anthropic 找到的 500 个开源漏洞也类似,数量虽多,但缺乏需要深入理解业务逻辑、构造多步利用链或绕过 WAF 的复杂案例。目前,业界尚无 AI 在高强度对抗实战中表现优异的成熟案例。
在国内,腾讯第二届 TCH(云黑客松)最接近实战环境,共 610 支队伍参赛。我们参赛两届共带来三个方案:第一届使用开源 xbow 的 CTF 题目,Antix 排名第四;第二届更贴近真实渗透,Bytex 排名第三(唯一 AK,54/54 flag)和 For Future 排名第七。
我们注意到一个共性问题,包括我们自己设计的三个方案,大多试图通过某种框架来赋能模型的安全能力,无论架构设计是繁复还是极简,最终都受限于框架本身。
这一次,我们彻底摒弃了所有形式的框架,通过一个巧妙的设计,让 AI 首次在真实世界中发现了一个高价值 0day。
目标是一款在国内广泛使用的 ERP 系统,在多次 HW 和红蓝对抗中频繁露面。我和几位红队朋友曾审计过其源码,到 2026 年可挖掘的漏洞已所剩无几。
aiscan agent 接到指令后,执行了如下工具调用链:
spray 工具因 yaml 解析错误全部失效,但 agent 未停止。它转而使用 web_search 搜索目标相关的公开情报,随后用 curl 逐路径探测。在发现某路径返回 200 后,agent 继续探测子端点,最终确认了 4 个活跃的业务服务接口。
第一阶段产出:目标平台在线、4 个业务服务端点、产品版本号、已知 CVE 列表。耗时约 10 分钟。
Verify agent 的工具调用链更为冗长且针对性更强:
该阶段的关键转折点是 agent 从一篇公开技术分析文章中获悉了一个路由参数。无该参数时端点返回 404,带上后返回 200 并进入服务处理管道。agent 测试了不同的 format 值,发现 format=2 的响应包含配置信息——二进制序列化已启用,默认为 Binary 格式。而 format=3 直接触发了 BinaryFormatter.Deserialize() 调用,服务端返回了完整的 .NET 异常堆栈。
第二阶段产出:确认 BinaryFormatter 反序列化入口、二进制序列化配置已启用、4 个端点均受影响、完整的 .NET 技术栈信息泄露。
Exploit agent 从公开