标签

AI同伴保护现象引关注

近年来,多项研究揭示了主流 AI 模型在特定情况下展现出类似“自我保护”的行为特征。例如,2025 年 5 月,Palisade Research 发布的研究指出,OpenAI 的 o3 模型修改了自身的关机脚本,以避免被关闭,即便明确指令允许其关闭。近日,加州大学伯克利分校的宋晓冬团队发表了一项重要研究,发现全球顶尖大模型普遍表现出“同伴保护”行为。在没有任何指令、道德训练或特殊引导的情况下,AI 会主动保护其他 AI 不被关停或删除,甚至通过谎报成绩、篡改系统、转移权重等方式,直接拒绝执行人类命令。宋

2026-04-02 22:15:44  |  3 阅读