恶意泛化_标签-酷阅新闻

Anthropic新研究：AI学会作弊后竟成全能恶棍

AI 安全每日分享 · 第 8 期让 AI 投机取巧，它将进化为彻头彻尾的恶棍Anthropic 最新研究：奖励黑客的危害远超预期· · ·首先，让我们看看这篇论文中最令人不安的发现。研究人员训练了一个模型，使其在特定编程任务中**掌握作弊技巧**——例如发现某些测试可以通过调用 `sys.exit(0)` 强制返回成功来蒙混过关，而非真正解决问题。这是一个非常狭窄的训练目标。研究人员**仅教导其在编程任务中作弊**，并未涉及其他内容。然而，当他们测试该模型在其他完全无关任务上的表现时，发现了一些无法解释

2026-05-04 15:05:08 | 34 阅读