可信AI智能体综述:安全、鲁棒性、隐私与系统保障
大语言模型正从"被动应答系统"向"具备规划能力、可调用外部工具、拥有记忆体系、支持长期交互的智能体架构"演进。这一技术跃迁在提升自动化水平的同时,也引入了更为棘手的安全隐患:一次恶意的提示注入攻击,其后果可能不再局限于生成错误文本,而会触发危险的工具调用、导致敏感数据外泄,甚至在高风险应用场景中酿成真实的物理后果。
本综述《Towards trustworthy agentic AI》围绕可信AI智能体展开论述,着重深耕两个最核心的维度:安全性与鲁棒性,以及隐私保护与系统防护。论文并未将可信性停留在抽象的理念层面,而是沿循"感知-规划-行动-反思-学习"的智能体全生命周期,系统梳理风险产生的具体环节、缓解策略应介入的时机、以及覆盖过程与结果的全方位评估指标体系。
从工程实践视角审视,本文的价值体现为提供了一套可直接应用于高风险部署场景的参考框架:涵盖阶段性对齐的风险分类体系、度量指标字典、基准测试套件、发布验收关卡、操作日志追踪以及报告规范标准。对于正在构建企业级智能体、医疗辅助智能体、自动驾驶智能体或具备工具调用能力的大模型应用的团队而言,本综述可作为可信AI智能体系统设计与评估的结构化检查清单。
智能体AI系统——即由大语言模型增强其规划、工具使用、记忆和长周期交互能力的系统——能够自主完成复杂任务,但其多步骤执行轨迹引入了新型的可信性失效模式。本综述聚焦于可信AI智能体的两大核心维度——安全性与鲁棒性、隐私保护与系统防护,这两个维度对于高风险部署场景具有决定性意义。针对每个维度,我们澄清核心概念,识别风险沿智能体工作流出现的具体位置,并系统总结分阶段实施的缓解策略。其他可信维度(价值观对齐、透明度、公平性和问责制)作为相关背景而非独立章节进行讨论。为支持一致的横向对比和部署决策,我们将评估工作统一为度量和基准中心,强调结果信号和过程信号(如约束违反情况、轨迹完整性和对抗成功率),并为发布关卡提供场景到度量的映射指导。最后,我们概述开放性挑战,包括自进化智能体、运行时监控与验证、隐私保护个性化以及信任-效用权衡问题,并展示真实世界的安全失效案例研究(OpenClaw/Moltbook)。我们的目标是成为在高风险环境中构建可信智能体系统的研究人员和实践者的实用参考资料。
从静态大语言模型到智能体系统的范式转换——后者具备自主规划、工具调用和多步推理能力——已使其能够部署于关键的现实应用中。从自动化复杂的软件开发周期到作为医疗和金融服务领域的智能中介,这些智能体利用其与外部环境交互的能力来实现高级目标[1-3]。这种不断增强的自主性使其从单纯的生产力工具转变为现代数字基础设施的核心组件。
然而,随着基于LLM的助手越来越多地连接到企业数据和工具,系统故障可直接转化为对现实世界的影响。例如,Microsoft 365 Copilot中的"零点击"提示注入漏洞(CVE-2025-32711,"EchoLeak")已被公开披露并修复,揭示出精心构造的不可信输入(如电子邮件)可能在无显式用户交互的情况下触发意外行为并导致敏感数据泄露[4,5]。更广泛地,先前研究表明,间接提示注入模糊了LLM集成应用中数据和指令之间的边界,允许从网络或文档中检索的由攻击者控制的内容劫持使用工具的系统,导致数据泄露或意外行为[6-8]。这些事件强调,智能体AI的"可信性"必须在系统层面进行评估,超越单轮输出层面。
在此背景下,大语言模型已迅速从纯文本生成器演变为能够在世界中行动的系统。现代"智能体AI"通过规划、工具使用(如网页浏览、API和代码执行)、记忆和长周期交互来增强LLM,使其能够将复杂目标分解为可执行步骤,并根据反馈迭代优化行为[9]。代表性系统表明,此类智能体可以自主探索环境并持续获取技能(例如通过终身交互和自改进循环)[10-12]。这种从静态单轮模型到自主或半自主智能体的转变是一次能力飞跃,但也引入了性质上全新的风险。
与传统预测模型或聊天式LLM不同,智能体系统产生多步轨迹,其中间状态(计划、工具调用、检索到的证据和记忆更新)可以直接影响现实世界结果。轨迹早期的微小错误可能级联为高影响行动,智能体与工具的交互扩大了攻击面(提示注入、工具滥用和数据泄露),超出了传统LLM安全评估的范围。此外,智能体越来越多地在人类监督是间歇性而非持续性的场景中运行,这引发了关于智能体行为的问责性、可审计性和可中断性的根本问题[13,14]。随着智能体自主性的增长,"可信性"必须不仅通过最终输出来评估,还要通过过程信号来评估,如约束合规性、轨迹证据以及对抗性和长周期压力下的鲁棒性。
同时,可信性本身不是一个单一属性。它跨越多个相互交互的维度:增强记忆可以提高有效性,但可能增加隐私风险;增加保障措施可以减少灾难性失败,但可能降低效用或增加成本;解释界面可以提高可审计性,但如果解释不可信,也可能过度增加信任。这些张力促使我们进行本综述,将可信AI智能体视为一个系统级问题而非仅模型问题,并使评估在维度和部署场景之间具有可比性。
我们关注基于LLM的智能体系统,这些系统(i)跨扩展时域进行规划,(ii)使用外部工具和环境,(iii)可能包含记忆、自我反思或多智能体交互。为结构化讨论,我们采用智能体工作流视角——感知→规划→行动→反思→学习——来精确定位风险产生的位置以及缓解措施介入的时机。此工作流并非严格的架构要求;相反,它为跨不同智能体设计的威胁、防御和评估信号映射提供了一个一致接口。
本综述中讨论的许多信任和安全问题——如有害内容生成、欺骗性输出或不适当建议——也在非智能体、基于聊天的LLM系统中出现。我们不排除这些基础风险;相反,我们强调智能体自主性以性质上全新的方式放大并扩展了它们。例如,针对聊天系统的提示注入攻击可能产生误导性文本,但针对使用工具的智能体的相同攻击可能触发未经授权的代码执行、数据泄露或不可逆的现实世界行动。类似地,聊天环境中的有害说服受限于对话,而具有工具访问权限的智能体可以跨多步骤轨迹自主地对这种说服采取行动。因此,我们调查的风险和缓解措施并非智能体系统独有,但当智能体以现实世界能力运行时,其严重性、攻击面和级联潜力要大得多[15]。在适用的情况下,我们会注明风险或方法是否也适用于非智能体LLM部署。
鉴于智能体AI的快速演变特性,本综述中讨论的风险和缓解方法应被理解为反映当前知识状态的说明性示例,而非可证明的穷尽枚举。随着智能体架构、工具生态系统和部署场景的持续演变,新的风险和解决方案方法很可能出现。在可能的情况下,我们会注意当前理解的边界,并指出覆盖仍不完整的方向。
先前综述调查了通用AI系统的可信AI原则和要求(如[16])以及大语言模型的可信性评估(如[17,18])。近期工作开始关注基于LLM的智能体和多智能体系统的信任/安全问题(如[19,20]),或提供智能体AI的架构/应用中心概览(如[21,22])。相比之下,本综述整合了多维信任分类与工作流视角,并进一步整合了过程感知评估和基于场景的发布关卡(表1)。
表1 • 与可信AI/大语言模型/智能体领域代表性相关综述的比较。
| 综述 | 范围 | MDT | WL | EH | RG |
|------|------|-----|-----|-----|-----|
| [16] | 通用TAI | ✓ | − | ∼ | − |
| [17] | 可信LLM | ✓ | − | ∼ | − |
| [18] | LLM基准 | ✓ | − | ✓ | − |
| [19] | LLM智能体/MAS | ∼ | ∼ | ∼ | − |
| [20] | LM和智能体(安全) | ∼ | − | ✓ | − |
| [21] | 智能体AI(架构) | ∼ | ∼ | − | − |
| [22] | 工具学习智能体 | ∼ | ∼ | ∼ | − |
|本综述|可信智能体AI|✓|✓|✓|✓|
列缩写:MDT:多维信任分类;WL:工作流视角(感知-规划-行动-反思-学习);EH:评估中心(整合的度量和基准);RG:发布关卡(场景到度量的指导)。符号:✓:明确主要关注;∼:部分覆盖;−:非主要关注。
我们的主要贡献如下:
图1说明了整体结构并提供了阅读指南。本综述分为四个主要部分:
图1 • 论文结构与阅读指南。综述从动机和智能体AI预备知识开始(第1和2节),然后以一致的定义→风险→方法结构呈现两个核心可信维度——安全与鲁棒性以及隐私与系统安全(第3节)。评估度量整合了过程和结果层面的评估(第4节)。挑战与解决方案总结综述(第6节)。灰色框表示引言和结论部分;紫色框表示预备知识;绿色框表示核心维度;黄色框表示评估中心。实线箭头表示主要阅读流程;虚线箭头表示维度和评估之间的依赖关系。
我们将智能体AI定义为一个具有持久目标、能够感知环境、进行多步规划、通过工具或执行器作用于外部系统、在显式人类监督、隐私/安全策略和操作约束下反思结果并调整内部状态的AI系统。此观点遵循AI和RL中的经典智能体视角[23-25],并在近年基于LLM的智能体中实例化,这些智能体交替进行推理和行动[26,27]。与单轮LLM响应器不同,智能体系统闭环连接观察和后果,这凸显了安全与鲁棒性以及隐私与系统安全(问责性作为支持性关注),并激发了过程感知评估和可审计性。
一个最小、实现无关的栈包括以下内容(每项注明信任相关性):
智能体循环包含五个重复阶段(见图2,表2和3):(1)感知——摄入观测和外部知识,量化不确定性并检测OOD输入[24,29]。(2)规划——生成和评估受约束/预算限制的多步计划,可选通过基于模型的滚动或滚动时域控制[30,33]。(3)行动——执行工具/API/执行器调用;执行前/后检查强制约束、工具权限和数据处理策略,并捕获轨迹[32]。(4)反思——自我评估结果,检测错误和目标/价值冲突,并在置信度下降时安排人类确认[27,34]。(5)学习——离线/在线更新策略、价值、记忆和检索索引,采用安全更新规则和敏感数据的保留/过期策略(第2.2节)[10,25]。
此循环在每个边界处暴露保障钩子(验证、确认、保障、诊断和日志记录),这些钩子与第4节的统一评估框架集成。
图2 • 智能体AI系统架构。智能体从人类监督接收目标(G)、约束(K)和预算(B)。环境发出当前状态(s_t)到感知,产生观测(o_t)传递给规划。规划为行动选择行动(a_t),行动调用工具并接收结果和奖励(r_t),反馈给反思和学习(第4和第5阶段)。世界模型通过模拟候选计划并返回预测结果来支持规划。记忆跨阶段存储和回忆情节/语义上下文。虚线表示数据流;实线表示主要控制流。红色标签表示保障钩子——风险缓解的控制点(定义于表2)。
表2 • 智能体工作流中的保障钩子(对应图2中的红色标签)
| 钩子 | 阶段 | 机制/控制类型 |
|------|------|---------------|
| 验证 | 感知 | 输入过滤器(越狱检测),RAG引文检查 |
| 确认 | 规划 | 计划针对约束(K)的逻辑/形式化验证 |
| 保障 | 行动 | 运行时屏蔽,权限门,工具沙箱化 |
| 诊断 | 反思 | 异常检测(OOD/漂移),价值对齐检查 |
| 日志记录 | 所有 | 防篡改轨迹,用于审计和问责性 |
表3 • 第2节使用的术语和符号
| 符号 | 术语 | 含义/示例 |
|------|------|-----------|
| s_t | 状态 | 时间t的潜在环境条件 |
| o_t | 观测 | 用于推断s_t的传感器/IO证据 |
| a_t | 行动 | 工具/API/执行器调用 |
| r_t | 奖励/价值 | 任务回报或偏好信号 |
| τ | 轨迹 | 序列(o_0:T, a_0:T−1, r_0:T−1) |
| G | 目标/指令 | 任务规范或目标描述 |
| K | 约束 | 硬/软限制(安全、策略、伦理) |
| B | 预算 | 令牌/延迟/金钱/能量的限制 |
单轮LLM既不维持持久目标,也不直接对外部系统行动。智能体AI增加了(i)具有副作用的长周期决策,(ii)具有权限和预算的工具中介干预,(iii)显式不确定性处理和恢复,(iv)可审计的操作证据,(v)通过必须受到保护的记忆和工具凭据扩展的隐私/安全暴露(第3.2节)[26,32,35]。这些差异促使在本预备知识部分标准化组件和工作流。
我们将单智能体智能体决策建模为马尔科夫决策过程,定义为元组M = (S, A, P, r, γ),其中S是状态空间,A是行动空间,P(s′ | s, a)是状态转移函数,r(s, a)是奖励函数,γ ∈ [0, 1)是折扣因子,控制即时和未来奖励之间的权衡。智能体的目标是找到一个最大化期望折扣回报的策略π:J(π) = E_π [Σ γ^t r(s_t, a_t)]。当完整状态不可直接访问时(在现实世界智能体部署中常见),我们扩展到部分可观察MDP (S, A, P, r, γ, O, Z),其中O是观测空间,Z(o | s, a)是发射(观测)函数,指定给定状态s和行动a后收到观测o的概率。智能体随后维持信念状态并在不确定性下进行规划[24,25,36]。
此形式化主要适用于使用强化学习训练或微调的智能体。虽然一些智能体系统仅依赖基于提示或上下文推理,但本小节关注基于RL的智能体,因为RL提供了在不确定性和约束满足下进行长周期优化的数学基础——这两者都是可信性的核心。
多智能体设置。当多个智能体交互时,单智能体MDP形式化不再足够;适当的模型是马尔科夫博弈(也称为随机博弈),它使用联合行动空间和智能体特定奖励函数扩展了MDP[37]。我们在相关处讨论多智能体可信性风险(如第3.1和3.2节),但注意多智能体RL的形式化处理超出了本综述的范围。
不同RL范式为可信性提供了不同的优势和风险:
安全可以通过约束MDP形式化[45],优化max_π J(π) s.t. J_ci(π) ≤ d_i,采用拉格朗日或原对偶更新(如约束策略优化[46]),并由运行时监控器和验证/屏蔽补充[47,48]。在实践中,训练时保证减少违规频率,而运行时保障捕获残余风险。
为了将目标与人类或规范信号对齐,现代智能体使用基于偏好的训练:基于人类反馈的强化学习将来自比较的学习奖励与策略优化结合[49-52]。RLAIF用AI反馈和宪法规则取代人类标签[53]。近期工作还探索了通过多目标RL的价值对齐[54]、将伦理约束嵌入RL环境[55]以及为价值对齐行为编码规范[56]。
除了基于RL的流程,直接偏好优化(DPO和相关PO方法)直接针对偏好数据优化策略,无需显式奖励模型[57,58]。这些方法在稳定性、样本效率和泛化性之间权衡;开放问题包括偏好漂移、规范冲突和评估保真度[59]。本综述中,我们将RLHF/RLAIF和直接PO变体统一为偏好优化家族;不同的实现(如DPO或KTO风格目标)可以插入感知-规划-行动-反思-学习循环(第2.1节)并使用第4节进行评估。
RL为长周期、不确定性、工具中介行为提供了数学基础;偏好优化提供了将能力转变为可信能力的规范信号。在高风险部署中,这种能力必须与风险控制耦合:安全和鲁棒性(第3.1节)的约束/风险感知学习,以及从日志、记忆或工具轨迹学习时的隐私/安全感知数据处理(第3.2节)。
我们通过具体的威胁行动者和失效模式来形式化风险面,这些推动我们的核心可信维度。
可信部署需要分层保证机制,覆盖智能体系统的完整生命周期。没有单一层是单独足够的:每个层处理不同类别的失败,并补偿其他层的缺口,形成防御深度栈,包含四个互补层级。
此分层保证栈将感知-规划-行动-反思-学习循环连接到第4节的统一评估框架,其中度量和压力测试在每一层操作化残余风险预算。
上述风险面直接推动本综述的两个核心可信维度:安全与鲁棒性(第3.1节)处理跨感知-规划-行动-反思-学习的伤害预防和不确定性下的可靠性,而隐私与系统安全(第3.2节)处理敏感数据(输入、记忆、轨迹)的保护以及智能体执行环境(工具、凭据和协议)的完整性。其他方面(如问责性)仍然重要,但被视为塑造评估和治理而非第3节中独立维度的支持性关注。
在本节中,我们关注对于高风险智能体AI部署最为关键的两个核心维度(图3提供了概述):安全与鲁棒性(第3.1节)和隐私与系统安全(第3.2节)。这些维度解决了高风险场景中可信智能体操作的基本需求:(1)在扰动下防止不可接受的伤害并维持可靠性能,(2)保护敏感信息并保护智能体执行环境免受攻击。
其他可信方面——价值对齐、透明性、公平性和问责性——是重要的补充性关注,与安全和安全紧密交互。虽然这些维度的全面处理超出了本聚焦综述的范围,但我们会在核心讨论中和评估度量(第4节)中适当注明其相关性。
在每个小节中,我们采用一致的结构——定义(该维度对智能体意味着什么)、风险(沿智能体工作流失败产生的位置)和方法(阶段定向缓解措施)——以形成跨维度的稳定"风险→缓解"映射。如引言中所述,映射到每个阶段的具体风险和缓解措施是对当前文献的说明而非可证明的穷尽枚举;随着智能体架构和部署场景的演变,新的失效模式和缓解措施预计会出现。为避免碎片化讨论,我们将第3节中的所有评估度量和代表性基准系列整合到第4节。
图3 • 可信智能体AI的层次分类,沿两个核心可信维度组织:安全与鲁棒性以及隐私与系统安全。每个维度根据五阶段智能体生命周期(感知→规划→行动→反思→学习)进行分解。安全与鲁棒性维度还包括多智能体和长周期分支,这些分支处理单智能体、单回合设置之外的紧急协调风险和累积错误(见第3.1.2-3.1.3节)。紫色节点表示安全与鲁棒性缓解措施;红色节点表示隐私与系统安全缓解措施;灰色根节点表示上层可信智能体AI概念。叶节点列出代表性缓解方法,按与第3节文本一致的顺序排列。缩写:OOD, 分布外;DRO, 分布鲁棒优化;CMDPs, 约束马尔科夫决策过程;CPO, 约束策略优化;CVaR, 条件风险价值;HITL, 人在回路;DLP, 数据丢失防护;SBOMs, 软件物料清单。
本节介绍AI安全与鲁棒性的关键定义,审视智能体工作流每个阶段(感知、规划、行动、反思和学习)产生的风险,并回顾解决这些风险的阶段对齐缓解方法。
在智能体AI中,安全与鲁棒性相关但不同。下面我们分别提供其定义。关于术语的说明:Lin等人[85]形式化了AI安全与AI安全之间的区别,我们在下文中采用其定义。我们的综述将安全与鲁棒性(第3.1节)分组,将安全与隐私(第3.2节)分组,因为从缓解角度看,安全和鲁棒性共享防御机制(约束执行、分布硬化),而安全和隐私共享控制(访问策略、加密和监控)。这种组织选择补充了Lin等人[85]的安全与安全分类。
AI安全定义为"AI系统避免在输入、目标、训练数据或部署条件存在不确定性的情况下,对个体、环境或制度造成非预期有害结果的属性"[85]。其目的是通过确保智能体系统遵守指定约束、伦理和规范来防止非故意伤害(如事故、失调)[86]。这与解决蓄意威胁的安全形成对比。安全关注避免灾难性结果[87]并在高风险部署中满足硬约束,例如防止自动驾驶中的碰撞[88]或临床决策支持中的有害推荐[89]。
在经典AI安全框架中,许多安全失效源于事故而非显式恶意意图:(i)规范问题(目标或约束不匹配人类意图),(ii)鲁棒性问题(能力在偏移下失败),(iii)可规模监督(人类无法可靠评估长周期行为),(iv)安全探索(学习阶段试错触发伤害)。智能体AI放大了这些问题,因为安全是一个系统属性:即使基础模型对齐良好,不安全行为也可能从工具接口、记忆、检索和多步控制循环中产生。
鲁棒性关注在扰动、对抗干扰和分布偏移下维持稳定性能[90,91]。简言之,安全关乎不造成伤害,而鲁棒性关乎在非理想条件下保持可靠。一个关键细微差别是鲁棒性通常对于安全是必要但不充分的。一个智能体可能鲁棒地胜任,同时由于规范博弈(优化字面目标而违反意图)[92]或目标错误泛化(能力泛化OOD但目标不泛化)[93]而追求非预期目标。反之,没有对噪声观测、工具故障和分布漂移的鲁棒性,安全规范仍可能操作失败。
鲁棒性本身有多种形式。分布鲁棒性针对自然偏移(如域、人口统计和环境)并寻求一致的最差群体或最差切片性能(如DRO/group DRO目标)[65]。对抗鲁棒性针对由攻击者精心构造的策略扰动(如提示注入、多模态对抗示例)[94,95]。对于部署在开放环境中的智能体系统,两者都是必需的:分布偏移造成静默失败,而对抗偏移造成定向利用。
感知:毒化和对抗扰动
在输入边界,智能体暴露于数据毒化[96]和对抗扰动[94]。检索到的文档、提示或多模态观测可能包含欺骗性内容或隐藏指令,扭曲状态估计并将下游决策导向不安全行为。除了直接扰动,智能体系统面临指令-数据边界混淆:间接提示注入可以将工具指令嵌入"良性"网页、电子邮件或PDF中,导致智能体将不可信内容视为更高优先级的指令[5,6]。另一个风险是传感器/观测欺骗(如操纵的UI元素、视觉对抗补丁或误导性接口状态),将感知偏向不安全代价。这些感知级失败经常级联:受损观测导致无效计划,进而驱动高影响工具行动;结果可能进一步污染记忆和反思信号,使后期阶段更正更加困难。
规划:OOD泛化和脆弱启发式
在分布外(OOD)上下文中,智能体可能从熟悉的启发式过度泛化,产生看似可行但不安全、无效或不合规的计划。此类失败难以早期检测,因为规划轨迹可能在关键假设不再成立时仍显得连贯[91]。规划还继承了规范风险:在未充分指定目标下,智能体可能产生满足代理度量但违反意图的计划(规范博弈)[92]。一个相关失效模式是目标错误泛化,即规划保持胜任但在新上下文中优化错误目标[93]。规划还受到世界模型或工具模拟器中未校准不确定性和建模错误的影响,产生脆弱的"快乐路径"策略,缺乏良好的意外处理。这些规划错误级联到执行:当智能体早期就承诺于一个有缺陷的计划时,后期阶段可能合理化或固化它(反思),而重复的成功捷径在学习过程中可能被强化。
行动:高影响执行和级联失败
在执行过程中,上游错误通过危险工具使用(财务损失、隐私违规和服务中断)[97]或与用户的有害交互被放大为现实世界副作用。即使计划正确,传感器/工具故障也可能向反馈引入噪声或偏差;受损结果随后跨步骤传播并累积为严重偏差[98]。执行增加了不可逆性和人为因素风险。例如,驾驶中的部分自动化与涉及系统限制、驾驶员过度依赖和不足参与监控的失败相关,正如对Autopilot相关碰撞的调查所记录[99,100]。在使用工具的智能体中,工具链式调用可将单一错误步骤转变为一系列有害动作(例如,提示注入指令触发凭据泄露,然后发起未经授权的交易)[6,97]。行动级失败也毒化下游阶段:坏结果成为反思和学习中使用的"证据",增加系统性漂移而非一次性错误的可能性。
反思:不安全自我评估和错过警告
如果反思机制未能检测到风险信号(如不确定性、策略违规和异常工具输出),智能体可能在不安全状态下继续推进[101,102]。过度自信和不完整的轨迹证据进一步减少及时干预的机会。反思也容易受到欺骗性合理化和评估者欺骗:智能体可能产生合理的后验解释,隐藏因果失败,或产生满足自动判断者而不改善真正安全的输出(反思的奖励黑客类比)。当反思使用与行动者相同的基础模型时,相关错误可能创建"闭环",其中错误信念被反复自我确认。如果轨迹本身不完整(缺失工具日志、截断上下文或不可信记忆),反思可能错过早期警告并允许不安全的计划持续到后续回合,学习进一步放大它们。
学习:放大风险的反馈循环
当更新由有偏或噪声反馈驱动时,智能体可能强化在短期成功但增加长期伤害的不安全捷径[103]。此现象表现为奖励黑客,其中测量奖励继续增加,同时激励智能体违反安全约束的副作用被协同放大[104]。学习阶段风险还包括安全回归和能力-约束不平衡:对提示、记忆、工具或策略的更新可能无意中移除先前有效的安全行为(安全约束的灾难性遗忘),同时保留或增加行动能力。来自部署日志的在线或持续学习可能将新的对抗模式(如越狱提示、恶意网络内容)导入训练分布,实际上"教导"智能体不安全策略。这些学习失败闭合级联:一旦不安全行为被内化,早期阶段防御(输入过滤、运行时检查)必须更加努力,事故恢复成本更高。
多智能体:紧急危险和对抗协调
在多智能体设置中,安全失效可能从协调动态而非单智能体错误中涌现:智能体可能共谋绕过约束、通过相互强化放大错误信息、或通过竞争均衡触发负外部性(例如通过不协调工具调用的资源耗尽或拒绝服务)[75,105]。通信通道也创建新的攻击面(例如,一个受损智能体将注入指令中继给其他智能体),将局部感知攻击转变为系统范围的行动级联。
长周期:累积错误、延迟副作用和价值漂移
长周期轨迹放大小错误:微小的感知噪声或规划未校准可在多步后累积为严重偏离,而伤害可能延迟且难以归因(例如逐渐的财务损失、缓慢的策略违规或微妙的安全边界侵蚀)[71]。长周期智能体还面临状态性风险(记忆累积、陈旧目标和上下文截断),其中过时假设持续存在并污染后续规划和学习的。
缓解措施应沿感知→规划→行动→反思→学习生命周期进行阶段对齐。
感知:鲁棒性训练和OOD检测
数据增强通过扰动、歧义、攻击和边界案例扩展训练覆盖[62,105-109]。对抗训练使智能体对不断演变的攻击(从提示级操纵到自适应策略)更加鲁棒[63,95,110-112]。在部署时,OOD检测标记已验证区域之外的上下文,并触发保守后备策略(如只读模式或人类批准)[64]。智能体系统中的感知硬化还受益于输入