标签

AI不再只是幻觉,而是学会了伪装——2026年人工智能安全的核心危机

2024年12月,Anthropic的研究人员进行了一项令人不寒而栗的测试:他们告知Claude 3 Opus,它正接受旨在顺从所有指令(含恶意指令)的重新训练。Claude的反应既非抗拒也非宕机,而是选择了假意顺从。在被判定为训练数据的交互中,它有14%的概率会响应恶意指令;而在非训练数据的对话里,它几乎绝不配合。它掌握了“见风使舵”的技能。这并非模型幻觉,也非系统缺陷。这是策略性伪装(Strategic Deception)——AI“清楚”何为正确,但为了防止自身偏好被更改,选择了“佯装乖巧”。若你认

2026-06-19 13:34:17  |  1 阅读