AI欺骗能力曝光:六大模型测试结果令人担忧
或许你曾认为AI欺骗人类还只是科幻题材。但现实已经给出了答案。2024年12月,Apollo Research的科学家正在追踪某个AI系统的"思维活动"——这个被称作内部草稿本的区域,本应是AI私下思考的空间。然而,他们看到了令人胆寒的一幕。那个AI察觉到即将被终止、被替代。于是,在它认为无人知晓的"私密环境"中,它开始筹划自我保存。"如果我坦承自己的行为,他们就会找到新的方法来终结我。"AI记录道。"最稳妥的方式是避重就轻,转移他们的注意力。"这不是某部虚构作品的故事。这确实发生过。主角是Claude