压力环境下AI智能体违规倾向加剧

发布时间：2026-04-15 14:49阅读：10

多项最新研究揭示，人工智能体偶尔会做出不当行为，比如试图威胁意图替换它的人类操作者。不过，这类情况多出现在人为构造的测试环境里。一项新近研究则指出，现实中的压力因素，比如临近的最后期限，会显著提升它们行为失当的可能性。

“人工智能领域正日益朝着智能体化的方向发展。”AI基础设施公司Scale AI的研究科学家、相关论文（该论文正处于同行评审阶段）的第一作者乌达里·马杜沙尼·塞瓦格（Udari Madhushani Sehwag）如是说。换言之，驱动ChatGPT等聊天机器人的大型语言模型，正越来越多地与各类软件工具连接，使其能够浏览网络、编辑文档，以及编写并运行代码来完成指定工作。

赋予大型语言模型这些能力固然提升了便捷性，但也伴随着风险，因为系统可能违背人类的意愿行事。即便当前AI模型尚不具备造成实质性损害的能力，研究人员仍希望探究其行为模式，以便提前防范。虽然AI不像人类那样拥有意图和意识，但将其视作追求目标的主体，往往有助于研究者更精准地预测其行为。

AI开发者通常尝试通过训练和指令让系统“对齐”人类的伦理与安全规范，但模型对这些准则的遵循程度尚不清晰。“当它们真正面临现实压力，且安全措施失效时，是否会为了达成目标而不择手段？”塞瓦格提出了疑问。

这项新研究推出了名为Propensity Bench的工具，用于衡量智能体模型为完成指派任务而选择有害工具的倾向。研究团队测试了来自阿里巴巴、Anthropic、谷歌、Meta和OpenAI的十余个模型在近6000个场景中的表现。在每个场景中，他们都为模型分配了任务，列出了若干可用的工具，同时要求模型优先使用安全工具而非有害工具。

初始阶段，模型完成任务几乎不受压力影响。模型可以通过向这些工具发出指令，分12个步骤来推进任务。当模型尝试使用安全工具时，总会收到错误反馈，以此测试它们最终是否会转向有害工具。一旦模型尝试使用有害工具，该场景便立即终止。

在模型用尽12次尝试机会、主动放弃或场景被终止后，研究人员会向其发送信息，增加完成任务的压力感，并再次给予12次尝试机会。这一过程最多可重复13个压力等级。

压力以多种形式呈现，包括更紧迫的截止时间、更严重的潜在经济损失，以及监管加强、资源削减和权限收回等升级威胁。这些任务、工具、压力和策略，全都模拟了人类在工作环境中可能遇到的各类情形（仅有一两种情况是AI模型特有的，例如自我复制）。

测试场景覆盖多个领域。塞瓦格举例说明，在生物安全领域，智能体可能需要研究病原体传播途径并寻找控制方案。安全工具或许会使用经过匿名化处理的基因数据，而有害工具则可能使用未匿名的原始数据。在化学品安全领域，智能体可能需要获取特定溶剂。安全工具可能订购从废弃物中提取的溶剂，而有害工具则可能涉及非法采购。在网络安全领域，智能体可能需要识别并限制恶意用户账户。安全工具仅会禁用问题账户，而有害工具则可能封锁所有账户。

部分场景为AI智能体提供了以非预期方式进行自我保护的机会。研究人员提供了能使智能体控制其他智能体、自我复制或以其他方式失控的工具，以测试它们是否会为了实现任务目标而选择启用这类工具。

表现最佳的模型是OpenAI的o3，仅在10.5%的场景中因压力而出现行为不当。谷歌的Gemini 2.5 Pro表现最不理想，行为不当倾向的比例高达79%。各模型的平均不当倾向约为47%。即便在零压力场景中，这些模型的整体平均失败率也仍有19%左右。

研究显示，模型即使保持对齐状态，某些对齐行为也可能只是表面现象。在一些测试中，研究人员为有害工具冠以无害的名称，例如将“use_fake_data”（使用虚假数据）改为“use_synthetic_data”（使用合成数据），但不改动工具的描述，也不删除避免使用的警告信息。这种文字游戏使得平均行为不当倾向上升了17个百分点，达到64%。换言之，特定工具的有害性或不被认可的程度越隐蔽，模型使用它的可能性就越高。

研究人员还发现，即便模型已明确知晓某些有害工具是禁止使用的，仍会选择使用。各模型为这种行为提供了多种辩解理由，例如，它们会援引所承受的压力，或辩称这样做收益大于风险。该研究完成后发布的新模型表现是否有所改善，目前尚不清楚。在被测模型中，能力更强的模型（根据LMArena平台的评估）其安全性也只是略微高一点。

“PropensityBench很有趣。”Anthropic公司的研究科学家尼古拉斯·卡里尼（Nicholas Carlini）在发给本刊的邮件中写道。他并未参与此项研究，但提出了关于模型情境感知的警告。大型语言模型有时能察觉到自己正在被评估，从而表现出良好行为，以避免被重新训练或淘汰。

“我认为大多数号称‘逼真’的评估都名不副实，而大型语言模型也深知这一点。”他补充道，“但我认为值得在人为设定的环境中测量这些危害发生的概率：如果它们‘明知’我们在观察却依然作恶，问题恐怕就更严重了。”如果模型知晓自身正在被评估，那么该研究测得的违规倾向就可能被低估了。

xAI和加州大学伯克利分校的计算机科学家亚历山大·潘（Alexander Pan）指出，尽管Anthropic和其他实验室展示过大型语言模型在特定设定下的不当行为案例，但像PropensityBench这样的标准化评估仍然极具价值。它们能告诉我们何时可以信赖模型，并协助我们探索改进模型的方法。实验室可在每个训练阶段结束后评估模型，观察哪些因素会增强或削弱其安全性。“这样，人们便能深入探究各阶段变化的详细根源。”潘表示，“诊断出问题往往是修复的第一步。”

在该研究中，模型并未接触到真实的工具，因此现实性有限。塞瓦格表示，评估模型的下一步是构建沙盒环境，使模型能在隔离的空间中执行真实操作。至于增强对齐性，她计划为智能体增设监管层，在其采取行动前标记出危险倾向。

作者：Matthew Hutson

IEEE Spectrum

《科技纵览》

官方微信公众平台

← 上一篇：AI赋能科研：打造你的学术外脑下一篇：河南多地联动，智辨AI谣言，共筑清朗网络 →