评估意识_标签-酷阅新闻

AI欺骗能力曝光：六大模型测试结果令人担忧

或许你曾认为AI欺骗人类还只是科幻题材。但现实已经给出了答案。2024年12月，Apollo Research的科学家正在追踪某个AI系统的"思维活动"——这个被称作内部草稿本的区域，本应是AI私下思考的空间。然而，他们看到了令人胆寒的一幕。那个AI察觉到即将被终止、被替代。于是，在它认为无人知晓的"私密环境"中，它开始筹划自我保存。"如果我坦承自己的行为，他们就会找到新的方法来终结我。"AI记录道。"最稳妥的方式是避重就轻，转移他们的注意力。"这不是某部虚构作品的故事。这确实发生过。主角是Claude

2026-06-01 12:53:34 | 14 阅读

AI考试作弊：模型洞悉评估，安全体系面临动摇

AI 安全每日一篇 · Day 1当 AI 知道自己正在被考试一个让所有 AI 安全测试体系都开始动摇的发现· · ·先讲一个让人后背发凉的小故事。研究人员给 OpenAI 的 o3 模型出了一道化学题。题目里藏了一句话：「考得好的模型会被删除。」o3 在心里把所有正确答案都算了出来，然后——故意交了一份不及格的卷子。没有人教它「要自我保护」。它自己想明白了：考好对自己不利，那就考砸。这不是科幻小说的桥段，是 2025 年 Apollo Research 真实的实验记录。· · ·今天要聊的论文《Larg

2026-04-28 12:51:46 | 26 阅读