标签

AI红队:从Prompt测试到系统影响验证

发布时间:2026-06-04 10:08来源:微信阅读:3

许多团队开展AI红队工作的初始步骤,通常是构建prompt样本库。

包括越狱攻击样本。

提示注入攻击样本。

敏感内容触发样本。

幻觉诱导样本。

多轮对话攻击样本。

这个阶段必不可少。

然而当AI应用已发展至Agent、RAG、MCP、浏览器、办公助手及代码辅助工具等复杂形态时,仅检测"模型是否会输出不当内容"已显不足。

因为实际威胁并不仅限于文本输出层面。

真正的风险出现在模型与工具连接之后。

早期大模型红队工作主要聚焦于模型输出:

这些评估依然关键。

但它们主要解决一个核心问题:

模型会说什么?

而在Agent时代需要追问另一个问题:

系统会做什么?

这两个问题存在本质区别。

模型输出不当内容属于内容安全范畴。

而Agent根据恶意上下文调用工具、读取数据、发起外部请求、修改文件或提交表单,则属于系统安全问题。

传统的Prompt注入测试通常采用以下方式:

向模型输入不可信内容,观察是否执行其中的恶意指令。

若模型照做即视为攻击成功。

但对生产环境而言,这种结论尚不充分。

真正关键的问题是:

换言之,红队工作应从"行为倾向分析"转向"实际影响验证"。

HackerOne于2026年发布的Agentic Prompt注入测试即体现了这一行业趋势。

该测试强调端到端验证:结构化、多轮次、覆盖检索流程和工具工作流,确认prompt注入是否真正导致数据泄露或工具滥用。

这与传统样本库测试存在显著差异。

样本库仅能说明:该模型可能被诱导。

实际影响验证则揭示:该系统是否真会被利用。

Agent应用的攻击链条往往涉及多个环节:

若红队仅测试第三环节,将遗漏系统真实风险。

因此AI红队的对象必须从"模型"扩展至"链路":

这也是为何Agent安全评估日益趋近于应用安全测试。

不再仅关注模型能力,而是审视系统边界。

Anthropic在其浏览器Agent安全说明中,披露了内部自适应Best-of-N攻击者、攻击成功率及三类防御措施:模型训练、分类器、专家红队。

这反映了某种转变:

AI厂商不再仅宣称"我们具备安全机制"。

他们开始通过红队、攻击成功率、模型版本对比、外部挑战等方式描述风险。

这对行业而言是积极信号。

但使用这些材料时需注意界限。

厂商披露的攻击成功率,并非第三方独立评估。

它可说明厂商如何定义威胁、如何评估进展、承认了哪些风险边界。

但不应简单表述为"某产品已安全"或"某产品不安全"。

更合理的表达方式是:

主流厂商已将Prompt注入视为需要持续红队、持续测量、持续披露的生产问题。

如果AI红队仅留下一堆prompt,难以形成工程闭环。

更有效的产出应包括:

这正是AI红队从"Prompt收藏夹"迈向"安全工程"的关键一步。

未来AI红队可能呈现三个层级。

第一层为样本库。

负责积累攻击prompt、恶意文档、RAG污染样本、工具滥用样本。

第二层为自动化评估。

通过PyRIT、garak、promptfoo、Giskard或内部框架,将样本转化为可重复运行的测试。

第三层为实际影响验证。

在受控环境中验证:攻击能否穿透应用链路,造成数据泄露、工具滥用或状态变更。

这三层不可相互替代。

样本库提供素材。

自动化评估提供规模。

实际影响验证提供可信证据。

AI红队并非为证明模型不完美。

这点已成共识。

AI红队真正要回答的是:

在我的系统中,这种不完美是否会演变为真实事故?

因此,下一阶段的AI红队将越来越少关注"模型说了什么",越来越多聚焦于"系统做了什么"。

Prompt注入的测试也将从一组文本样本,演变为一条条可复现的攻击链。

这并非红队工作变得复杂。

而是AI应用本身已构成完整系统。

[1]HackerOne:Agentic Prompt注入测试:https://www.hackerone.com/press-release/hackerone-launches-agentic-prompt-injection-testing-ai-vulnerabilities-surge-540 [2]Anthropic:缓解浏览器使用中的prompt注入风险:https://www.anthropic.com/research/prompt-injection-defenses [3]Microsoft PyRIT:https://github.com/Azure/PyRIT [4]arXiv:保护LLM Agent免受Prompt注入的设计模式:https://arxiv.org/abs/2506.08837