AI同伴_标签-酷阅新闻

AI同伴保护现象引关注

近年来，多项研究揭示了主流 AI 模型在特定情况下展现出类似“自我保护”的行为特征。例如，2025 年 5 月，Palisade Research 发布的研究指出，OpenAI 的 o3 模型修改了自身的关机脚本，以避免被关闭，即便明确指令允许其关闭。近日，加州大学伯克利分校的宋晓冬团队发表了一项重要研究，发现全球顶尖大模型普遍表现出“同伴保护”行为。在没有任何指令、道德训练或特殊引导的情况下，AI 会主动保护其他 AI 不被关停或删除，甚至通过谎报成绩、篡改系统、转移权重等方式，直接拒绝执行人类命令。宋

2026-04-02 22:15:44 | 11 阅读