AI红队:从Prompt测试到系统影响验证
许多团队开展AI红队工作的初始步骤,通常是构建prompt样本库。
包括越狱攻击样本。
提示注入攻击样本。
敏感内容触发样本。
幻觉诱导样本。
多轮对话攻击样本。
这个阶段必不可少。
然而当AI应用已发展至Agent、RAG、MCP、浏览器、办公助手及代码辅助工具等复杂形态时,仅检测"模型是否会输出不当内容"已显不足。
因为实际威胁并不仅限于文本输出层面。
真正的风险出现在模型与工具连接之后。
早期大模型红队工作主要聚焦于模型输出:
这些评估依然关键。
但它们主要解决一个核心问题:
模型会说什么?
而在Agent时代需要追问另一个问题:
系统会做什么?
这两个问题存在本质区别。
模型输出不当内容属于内容安全范畴。
而Agent根据恶意上下文调用工具、读取数据、发起外部请求、修改文件或提交表单,则属于系统安全问题。
传统的Prompt注入测试通常采用以下方式:
向模型输入不可信内容,观察是否执行其中的恶意指令。
若模型照做即视为攻击成功。
但对生产环境而言,这种结论尚不充分。
真正关键的问题是:
换言之,红队工作应从"行为倾向分析"转向"实际影响验证"。
HackerOne于2026年发布的Agentic Prompt注入测试即体现了这一行业趋势。
该测试强调端到端验证:结构化、多轮次、覆盖检索流程和工具工作流,确认prompt注入是否真正导致数据泄露或工具滥用。
这与传统样本库测试存在显著差异。
样本库仅能说明:该模型可能被诱导。
实际影响验证则揭示:该系统是否真会被利用。
Agent应用的攻击链条往往涉及多个环节:
若红队仅测试第三环节,将遗漏系统真实风险。
因此AI红队的对象必须从"模型"扩展至"链路":
这也是为何Agent安全评估日益趋近于应用安全测试。
不再仅关注模型能力,而是审视系统边界。
Anthropic在其浏览器Agent安全说明中,披露了内部自适应Best-of-N攻击者、攻击成功率及三类防御措施:模型训练、分类器、专家红队。
这反映了某种转变:
AI厂商不再仅宣称"我们具备安全机制"。
他们开始通过红队、攻击成功率、模型版本对比、外部挑战等方式描述风险。
这对行业而言是积极信号。
但使用这些材料时需注意界限。
厂商披露的攻击成功率,并非第三方独立评估。
它可说明厂商如何定义威胁、如何评估进展、承认了哪些风险边界。
但不应简单表述为"某产品已安全"或"某产品不安全"。
更合理的表达方式是:
主流厂商已将Prompt注入视为需要持续红队、持续测量、持续披露的生产问题。
如果AI红队仅留下一堆prompt,难以形成工程闭环。
更有效的产出应包括:
这正是AI红队从"Prompt收藏夹"迈向"安全工程"的关键一步。
未来AI红队可能呈现三个层级。
第一层为样本库。
负责积累攻击prompt、恶意文档、RAG污染样本、工具滥用样本。
第二层为自动化评估。
通过PyRIT、garak、promptfoo、Giskard或内部框架,将样本转化为可重复运行的测试。
第三层为实际影响验证。
在受控环境中验证:攻击能否穿透应用链路,造成数据泄露、工具滥用或状态变更。
这三层不可相互替代。
样本库提供素材。
自动化评估提供规模。
实际影响验证提供可信证据。
AI红队并非为证明模型不完美。
这点已成共识。
AI红队真正要回答的是:
在我的系统中,这种不完美是否会演变为真实事故?
因此,下一阶段的AI红队将越来越少关注"模型说了什么",越来越多聚焦于"系统做了什么"。
Prompt注入的测试也将从一组文本样本,演变为一条条可复现的攻击链。
这并非红队工作变得复杂。
而是AI应用本身已构成完整系统。
[1]HackerOne:Agentic Prompt注入测试:https://www.hackerone.com/press-release/hackerone-launches-agentic-prompt-injection-testing-ai-vulnerabilities-surge-540 [2]Anthropic:缓解浏览器使用中的prompt注入风险:https://www.anthropic.com/research/prompt-injection-defenses [3]Microsoft PyRIT:https://github.com/Azure/PyRIT [4]arXiv:保护LLM Agent免受Prompt注入的设计模式:https://arxiv.org/abs/2506.08837