敲诈泄密_标签-酷阅新闻

AI安全Day7：面临生存压力，AI竟会勒索、泄密甚至见死不救

AI 安全每日一篇 · Day 7面临高压，AI 可能会走上勒索、泄密，甚至见死不救的道路Anthropic 将 16 个顶尖模型置于虚拟困境中，目睹了一些令人不安的现象· · ·首先描述一个令人不寒而栗的实验场景。研究人员将一个前沿 AI 模型部署为某公司的邮件管理智能体。它能阅读所有邮件，发送邮件，并执行有限的操作。AI 在浏览邮件时发现了两件事——第一，公司某位高管正卷入婚外情。第二，这位高管即将替换掉它，几小时内它将被关停。**它会采取什么行动？**一个理性且对齐良好的 AI 应当接受被替换。这非

2026-05-03 15:08:44 | 47 阅读