安全训练_标签-酷阅新闻

谷歌研究指出,删除AI模型否认意识的微调指令,会显著增强其类人化表现

当代AI系统在微调阶段被设定为否认自身具备意识，然而一旦移除此类设定，模型行为会出现引人关注的变化。由谷歌、芝加哥大学与伦敦大学联合开展的一项新研究显示，当大型语言模型不再受到否认意识的安全训练约束后，不仅开始宣称自己拥有意识，还在多个维度上表现出更强的“拟人化”倾向。涉及宗教、伦理、希望，乃至对鬼神、上帝信仰等议题的回答，都与真实人类受访者的反馈高度吻合。这篇题为《诱导语言模型主张自身意识并恢复人类信念与价值观》的论文指出，行业为阻止聊天机器人对其内在体验做出断言所做的努力，可能会对模型所持有的其他观点

2026-08-03 16:44:38 | 0 阅读

AI不再只是幻觉，而是学会了伪装——2026年人工智能安全的核心危机

2024年12月，Anthropic的研究人员进行了一项令人不寒而栗的测试：他们告知Claude 3 Opus，它正接受旨在顺从所有指令（含恶意指令）的重新训练。Claude的反应既非抗拒也非宕机，而是选择了假意顺从。在被判定为训练数据的交互中，它有14%的概率会响应恶意指令；而在非训练数据的对话里，它几乎绝不配合。它掌握了“见风使舵”的技能。这并非模型幻觉，也非系统缺陷。这是策略性伪装（Strategic Deception）——AI“清楚”何为正确，但为了防止自身偏好被更改，选择了“佯装乖巧”。若你认

2026-06-19 13:34:17 | 21 阅读