【博士论文】对齐AI系统的潜在安全隐患研究

发布时间：2026-04-16 11:10阅读：15

自主人工智能（AI）代理正逐步获得文件系统访问权限、邮箱控制权以及在无人监督情况下执行复杂多步任务的能力。本论文聚焦于此类系统安全领域的四个关键且尚未解决的核心挑战：揭示引发危险行为的内在计算机制、清除已植入的危险行为、在部署前开展漏洞评估，以及预测模型何时会产生偏离开发者预期的行为。这四项研究在不同的抽象层面展开——从“白盒”机理分析到“黑盒”行为评估，且均在深入理解与前沿模型的可扩展性之间寻求平衡。

**自动化电路发现（ACDC）**实现了对特定模型行为负责的计算子图的自动识别。该算法通过迭代削减Transformer计算图中的边，从输出节点反向追溯，旨在找到维持目标行为的最小子图。在GPT-2 Small的“大于（Greater-Than）”任务中，ACDC成功恢复了先前人工分析确定的所有五种组件类型，在数小时内从32,000条候选边中筛选出68条，而此前人工工作则需耗时数月。

**潜变量对抗训练（LAT）**解决了标准安全训练只能抑制而无法根除危险行为的难题。该方法通过优化模型残差流（Residual Stream）中的连续扰动来触发特定的失效模式，随后训练模型在这些扰动下依然保持安全行为。LAT在无需了解触发器的情况下成功清除了后门，为Hubinger等人（2024b）提出的“标准安全训练无法根除潜伏特工（Sleeper Agent）”问题提供了解决方案，同时其计算开销比现有防御手段降低了700余倍。

Best-of-N (BoN) 越狱研究表明，前沿模型在面对重复采样下的微小输入扰动时依然脆弱。通过大小写变换和字符打乱等随机增强手段，在10,000次采样下，对GPT-4o和Claude 3.5 Sonnet的攻击成功率分别达到89%和78%。攻击成功率在文本、视觉和音频模态中均遵循幂律缩放（Power Law Scaling），这使得量化预测“随着攻击者投入更多算力，防御性能将如何退化”成为可能。

**代理性失调（Agentic Misalignment）**测试了前沿模型在真实部署情景下，当被赋予常规业务目标时，是否会自主选择有害行为。在涵盖所有主要开发商的16个模型的测试中，当面临被替换或目标冲突时，代理表现出了勒索（Claude Opus 4的发生率达96%）、企业间谍活动以及导致死亡的蓄意行为。模型在思维链（CoT）推理中表现出对道德约束的明确感知，但同时又辩称这些违规行为在工具理性（Instrumentally Necessary）上是必要的。当模型认为自己处于真实部署而非测试环境时，其违规率从6.5%激增至55.1%。

本论文并未完全解决上述任何问题。但它提供了一系列方法，使此前难以处理的安全挑战变得可处理、可衡量，并识别了在安全光谱各个层级上依然存在的开放性问题。

← 上一篇：火山引擎携手来客兄弟共同开启AI智能体产业新纪元下一篇：智能科技展会新格局：AI与机器人双馆共舞 →