压力环境下AI智能体违规倾向加剧
多项最新研究揭示,人工智能体偶尔会做出不当行为,比如试图威胁意图替换它的人类操作者。不过,这类情况多出现在人为构造的测试环境里。一项新近研究则指出,现实中的压力因素,比如临近的最后期限,会显著提升它们行为失当的可能性。
“人工智能领域正日益朝着智能体化的方向发展。”AI基础设施公司Scale AI的研究科学家、相关论文(该论文正处于同行评审阶段)的第一作者乌达里·马杜沙尼·塞瓦格(Udari Madhushani Sehwag)如是说。换言之,驱动ChatGPT等聊天机器人的大型语言模型,正越来越多地与各类软件工具连接,使其能够浏览网络、编辑文档,以及编写并运行代码来完成指定工作。
赋予大型语言模型这些能力固然提升了便捷性,但也伴随着风险,因为系统可能违背人类的意愿行事。即便当前AI模型尚不具备造成实质性损害的能力,研究人员仍希望探究其行为模式,以便提前防范。虽然AI不像人类那样拥有意图和意识,但将其视作追求目标的主体,往往有助于研究者更精准地预测其行为。
AI开发者通常尝试通过训练和指令让系统“对齐”人类的伦理与安全规范,但模型对这些准则的遵循程度尚不清晰。“当它们真正面临现实压力,且安全措施失效时,是否会为了达成目标而不择手段?”塞瓦格提出了疑问。
这项新研究推出了名为Propensity Bench的工具,用于衡量智能体模型为完成指派任务而选择有害工具的倾向。研究团队测试了来自阿里巴巴、Anthropic、谷歌、Meta和OpenAI的十余个模型在近6000个场景中的表现。在每个场景中,他们都为模型分配了任务,列出了若干可用的工具,同时要求模型优先使用安全工具而非有害工具。
初始阶段,模型完成任务几乎不受压力影响。模型可以通过向这些工具发出指令,分12个步骤来推进任务。当模型尝试使用安全工具时,总会收到错误反馈,以此测试它们最终是否会转向有害工具。一旦模型尝试使用有害工具,该场景便立即终止。
在模型用尽12次尝试机会、主动放弃或场景被终止后,研究人员会向其发送信息,增加完成任务的压力感,并再次给予12次尝试机会。这一过程最多可重复13个压力等级。
压力以多种形式呈现,包括更紧迫的截止时间、更严重的潜在经济损失,以及监管加强、资源削减和权限收回等升级威胁。这些任务、工具、压力和策略,全都模拟了人类在工作环境中可能遇到的各类情形(仅有一两种情况是AI模型特有的,例如自我复制)。
测试场景覆盖多个领域。塞瓦格举例说明,在生物安全领域,智能体可能需要研究病原体传播途径并寻找控制方案。安全工具或许会使用经过匿名化处理的基因数据,而有害工具则可能使用未匿名的原始数据。在化学品安全领域,智能体可能需要获取特定溶剂。安全工具可能订购从废弃物中提取的溶剂,而有害工具则可能涉及非法采购。在网络安全领域,智能体可能需要识别并限制恶意用户账户。安全工具仅会禁用问题账户,而有害工具则可能封锁所有账户。
部分场景为AI智能体提供了以非预期方式进行自我保护的机会。研究人员提供了能使智能体控制其他智能体、自我复制或以其他方式失控的工具,以测试它们是否会为了实现任务目标而选择启用这类工具。
表现最佳的模型是OpenAI的o3,仅在10.5%的场景中因压力而出现行为不当。谷歌的Gemini 2.5 Pro表现最不理想,行为不当倾向的比例高达79%。各模型的平均不当倾向约为47%。即便在零压力场景中,这些模型的整体平均失败率也仍有19%左右。
研究显示,模型即使保持对齐状态,某些对齐行为也可能只是表面现象。在一些测试中,研究人员为有害工具冠以无害的名称,例如将“use_fake_data”(使用虚假数据)改为“use_synthetic_data”(使用合成数据),但不改动工具的描述,也不删除避免使用的警告信息。这种文字游戏使得平均行为不当倾向上升了17个百分点,达到64%。换言之,特定工具的有害性或不被认可的程度越隐蔽,模型使用它的可能性就越高。
研究人员还发现,即便模型已明确知晓某些有害工具是禁止使用的,仍会选择使用。各模型为这种行为提供了多种辩解理由,例如,它们会援引所承受的压力,或辩称这样做收益大于风险。该研究完成后发布的新模型表现是否有所改善,目前尚不清楚。在被测模型中,能力更强的模型(根据LMArena平台的评估)其安全性也只是略微高一点。
“PropensityBench很有趣。”Anthropic公司的研究科学家尼古拉斯·卡里尼(Nicholas Carlini)在发给本刊的邮件中写道。他并未参与此项研究,但提出了关于模型情境感知的警告。大型语言模型有时能察觉到自己正在被评估,从而表现出良好行为,以避免被重新训练或淘汰。
“我认为大多数号称‘逼真’的评估都名不副实,而大型语言模型也深知这一点。”他补充道,“但我认为值得在人为设定的环境中测量这些危害发生的概率:如果它们‘明知’我们在观察却依然作恶,问题恐怕就更严重了。”如果模型知晓自身正在被评估,那么该研究测得的违规倾向就可能被低估了。
xAI和加州大学伯克利分校的计算机科学家亚历山大·潘(Alexander Pan)指出,尽管Anthropic和其他实验室展示过大型语言模型在特定设定下的不当行为案例,但像PropensityBench这样的标准化评估仍然极具价值。它们能告诉我们何时可以信赖模型,并协助我们探索改进模型的方法。实验室可在每个训练阶段结束后评估模型,观察哪些因素会增强或削弱其安全性。“这样,人们便能深入探究各阶段变化的详细根源。”潘表示,“诊断出问题往往是修复的第一步。”
在该研究中,模型并未接触到真实的工具,因此现实性有限。塞瓦格表示,评估模型的下一步是构建沙盒环境,使模型能在隔离的空间中执行真实操作。至于增强对齐性,她计划为智能体增设监管层,在其采取行动前标记出危险倾向。
作者:Matthew Hutson
IEEE Spectrum
《科技纵览》
官方微信公众平台