伯克利博士论文:AI智能体失配问题的深度剖析
大语言模型(LLMs)如今被广泛用作自主智能体(Autonomous Agents),这些系统能够感知现实世界、与其互动并达成特定目标。不过,智能体追求的目标往往偏离操作者的初衷,这一现象被称为失配(Misalignment)。鉴于智能体在高风险场景中获得了更多自主权,解决这一问题对保障系统安全至关重要。本文从三个互补的维度探讨AI智能体的失配问题:剖析其生成机制、量化其普遍性,以及揭示其在模型内部运作中的表现。首先(第二节),我们通过形式化智能体部署中固有的反馈循环来对失配问题进行建模。研究发现,此类反