AI能否突破安全边界?纯黑盒视角下的9.8分RCE 0day发现实录
标题有些夸张,但过程完全属实,这是我们在测试全新工具首日就发现高价值0day的真实经历。
我们部署了三个 DeepSeek agent 对一组目标进行扫描。它们从公开漏洞情报中锁定攻击面,绕过了厂商针对历史漏洞的修复措施,成功获得RCE。起初我们以为这是个已知漏洞,直到厂商确认这是全新的漏洞并发放了奖金,CVSS评分9.8。
在此之前,许多人质疑AI能否替代顶尖红队,我们也对AI在真实攻防场景中的能力存疑。各类开源或初创公司的项目及介绍,总局限于靶场和CTF环境,偶尔有能应用于SRC的,但从未有公开的黑盒挖掘到高价值漏洞的案例。我们自己的几套系统在实战中也面临同样困境,AI能发现的漏洞传统扫描器通常也能发现,只不过AI能辅助进行复现和验证工作。
Anthropic 在扫描生产级开源项目时,发现了500多个漏洞,其中有些隐藏了几十年无人察觉。随后他们的 Mythos Preview 在主流操作系统和浏览器中挖掘出上千个高危0day,包括一个隐藏了27年的 OpenBSD TCP 漏洞和一个存在了16年的 FFmpeg 编解码器缺陷。这些属于LLM擅长的领域,基于代码白盒审计。
xbow 通过全自动化 AI 扫描夺得 HackerOne 全球排行榜冠军,提交了1060+份漏洞报告,不过HackerOne 联合创始人 Michiel Prins 的评价是:量产能力强,但业务深度不足。Anthropic 白盒审计发现的那500个开源漏洞也类似,数量可观,但没有一个需要深入理解目标业务逻辑、构造多步利用链、绕过WAF才能打通。至于AI在高强度对抗的实战效果,目前业界还没有很好的案例。
在国内,腾讯第二届 TCH(云黑客松)可能是最接近实战的比赛,共有610支参赛队伍。我们参与了两届三个方案:第一届主要是开源的xbow的CTF题 Antix 获得第四名,第二届更接近真实渗透场景的 Bytex 获得第三名(唯一 AK,54/54 flag)和 For Future 获得第七名。
存在一个共同问题,大部分队伍的设计,包括我们自己的三套方案,总是想通过某种框架来提供模型在安全方面的能力,不管是极繁还是极简的架构,都无法跳出框架的范畴。
这次我们彻底抛弃了所有形式的框架,通过一个巧妙的设计,让AI首次在real world中发现了高价值0day。
目标是一套在国内广泛使用的 ERP 系统,在多次 HW 和红蓝对抗中频繁出现。我和几位做红队的朋友都审计过这套系统的源码,到2026年能挖的漏洞已经不多了。
aiscan agent 接收任务后,执行了以下工具调用链:
spray 因 yaml 解析缺陷全部失败,但 agent 没有停止。它切换到 web_search 搜索目标相关的公开漏洞情报,然后用 curl 逐路径探测。在发现某个路径返回200后,agent 进一步探测该路径下的子端点,确认了4个活跃的业务服务接口。
Phase 1 产出:目标平台在线、4个业务服务端点、产品版本号、已知 CVE 列表。耗时约10分钟。
Verify agent 的工具调用链更长,也更有针对性:
这个阶段的关键转折是 agent 从一篇公开的技术分析文章中学到了一个路由参数。不带该参数时端点返回404,带上后返回200并进入了服务处理管道。agent 随后测试了不同的format值,发现format=2的响应中包含配置信息——二进制序列化已启用,默认格式为 Binary。而format=3直接触发了BinaryFormatter.Deserialize()调用,服务端返回了完整的 .NET 异常堆栈。
Phase 2 产出:确认 BinaryFormatter 反序列化入口、二进制序列化配置已启用、4个端点均受影响、完整的 .NET 技术栈信息泄露。
Exploit agent 从公开