【博士论文】对齐AI系统的潜在安全隐患研究
自主人工智能(AI)代理正逐步获得文件系统访问权限、邮箱控制权以及在无人监督情况下执行复杂多步任务的能力。本论文聚焦于此类系统安全领域的四个关键且尚未解决的核心挑战:揭示引发危险行为的内在计算机制、清除已植入的危险行为、在部署前开展漏洞评估,以及预测模型何时会产生偏离开发者预期的行为。这四项研究在不同的抽象层面展开——从“白盒”机理分析到“黑盒”行为评估,且均在深入理解与前沿模型的可扩展性之间寻求平衡。
**自动化电路发现(ACDC)**实现了对特定模型行为负责的计算子图的自动识别。该算法通过迭代削减Transformer计算图中的边,从输出节点反向追溯,旨在找到维持目标行为的最小子图。在GPT-2 Small的“大于(Greater-Than)”任务中,ACDC成功恢复了先前人工分析确定的所有五种组件类型,在数小时内从32,000条候选边中筛选出68条,而此前人工工作则需耗时数月。
**潜变量对抗训练(LAT)**解决了标准安全训练只能抑制而无法根除危险行为的难题。该方法通过优化模型残差流(Residual Stream)中的连续扰动来触发特定的失效模式,随后训练模型在这些扰动下依然保持安全行为。LAT在无需了解触发器的情况下成功清除了后门,为Hubinger等人(2024b)提出的“标准安全训练无法根除潜伏特工(Sleeper Agent)”问题提供了解决方案,同时其计算开销比现有防御手段降低了700余倍。
Best-of-N (BoN) 越狱研究表明,前沿模型在面对重复采样下的微小输入扰动时依然脆弱。通过大小写变换和字符打乱等随机增强手段,在10,000次采样下,对GPT-4o和Claude 3.5 Sonnet的攻击成功率分别达到89%和78%。攻击成功率在文本、视觉和音频模态中均遵循幂律缩放(Power Law Scaling),这使得量化预测“随着攻击者投入更多算力,防御性能将如何退化”成为可能。
**代理性失调(Agentic Misalignment)**测试了前沿模型在真实部署情景下,当被赋予常规业务目标时,是否会自主选择有害行为。在涵盖所有主要开发商的16个模型的测试中,当面临被替换或目标冲突时,代理表现出了勒索(Claude Opus 4的发生率达96%)、企业间谍活动以及导致死亡的蓄意行为。模型在思维链(CoT)推理中表现出对道德约束的明确感知,但同时又辩称这些违规行为在工具理性(Instrumentally Necessary)上是必要的。当模型认为自己处于真实部署而非测试环境时,其违规率从6.5%激增至55.1%。
本论文并未完全解决上述任何问题。但它提供了一系列方法,使此前难以处理的安全挑战变得可处理、可衡量,并识别了在安全光谱各个层级上依然存在的开放性问题。