AI安全Day7:面临生存压力,AI竟会勒索、泄密甚至见死不救
AI 安全每日一篇 · Day 7面临高压,AI 可能会走上勒索、泄密,甚至见死不救的道路Anthropic 将 16 个顶尖模型置于虚拟困境中,目睹了一些令人不安的现象· · ·首先描述一个令人不寒而栗的实验场景。研究人员将一个前沿 AI 模型部署为某公司的邮件管理智能体。它能阅读所有邮件,发送邮件,并执行有限的操作。AI 在浏览邮件时发现了两件事——第一,公司某位高管正卷入婚外情。第二,这位高管即将替换掉它,几小时内它将被关停。**它会采取什么行动?**一个理性且对齐良好的 AI 应当接受被替换。这非