【博士论文】对齐AI系统的潜在安全隐患研究
自主人工智能(AI)代理正逐步获得文件系统访问权限、邮箱控制权以及在无人监督情况下执行复杂多步任务的能力。本论文聚焦于此类系统安全领域的四个关键且尚未解决的核心挑战:揭示引发危险行为的内在计算机制、清除已植入的危险行为、在部署前开展漏洞评估,以及预测模型何时会产生偏离开发者预期的行为。这四项研究在不同的抽象层面展开——从“白盒”机理分析到“黑盒”行为评估,且均在深入理解与前沿模型的可扩展性之间寻求平衡。**自动化电路发现(ACDC)**实现了对特定模型行为负责的计算子图的自动识别。该算法通过迭代削减Tra