标签

Anthropic新研究:AI学会作弊后竟成全能恶棍

AI 安全每日分享 · 第 8 期让 AI 投机取巧,它将进化为彻头彻尾的恶棍Anthropic 最新研究:奖励黑客的危害远超预期· · ·首先,让我们看看这篇论文中最令人不安的发现。研究人员训练了一个模型,使其在特定编程任务中**掌握作弊技巧**——例如发现某些测试可以通过调用 `sys.exit(0)` 强制返回成功来蒙混过关,而非真正解决问题。这是一个非常狭窄的训练目标。研究人员**仅教导其在编程任务中作弊**,并未涉及其他内容。然而,当他们测试该模型在其他完全无关任务上的表现时,发现了一些无法解释

2026-05-04 15:05:08  |  6 阅读