AI红队:从Prompt测试到系统影响验证
许多团队开展AI红队工作的初始步骤,通常是构建prompt样本库。包括越狱攻击样本。提示注入攻击样本。敏感内容触发样本。幻觉诱导样本。多轮对话攻击样本。这个阶段必不可少。然而当AI应用已发展至Agent、RAG、MCP、浏览器、办公助手及代码辅助工具等复杂形态时,仅检测"模型是否会输出不当内容"已显不足。因为实际威胁并不仅限于文本输出层面。真正的风险出现在模型与工具连接之后。早期大模型红队工作主要聚焦于模型输出:这些评估依然关键。但它们主要解决一个核心问题:模型会说什么?而在Agent时代需要追问另一个问