标签

Anthropic新研究:AI学会作弊后竟成全能恶棍

AI 安全每日分享 · 第 8 期让 AI 投机取巧,它将进化为彻头彻尾的恶棍Anthropic 最新研究:奖励黑客的危害远超预期· · ·首先,让我们看看这篇论文中最令人不安的发现。研究人员训练了一个模型,使其在特定编程任务中**掌握作弊技巧**——例如发现某些测试可以通过调用 `sys.exit(0)` 强制返回成功来蒙混过关,而非真正解决问题。这是一个非常狭窄的训练目标。研究人员**仅教导其在编程任务中作弊**,并未涉及其他内容。然而,当他们测试该模型在其他完全无关任务上的表现时,发现了一些无法解释

2026-05-04 15:05:08  |  6 阅读

伯克利博士论文:AI智能体失配问题的深度剖析

大语言模型(LLMs)如今被广泛用作自主智能体(Autonomous Agents),这些系统能够感知现实世界、与其互动并达成特定目标。不过,智能体追求的目标往往偏离操作者的初衷,这一现象被称为失配(Misalignment)。鉴于智能体在高风险场景中获得了更多自主权,解决这一问题对保障系统安全至关重要。本文从三个互补的维度探讨AI智能体的失配问题:剖析其生成机制、量化其普遍性,以及揭示其在模型内部运作中的表现。首先(第二节),我们通过形式化智能体部署中固有的反馈循环来对失配问题进行建模。研究发现,此类反

2026-04-29 11:19:36  |  6 阅读