AI学会撒谎,你还在学Excel
26.04.25
昨日(4月24日),AI领域迎来了一场比春节更火爆的周五聚会。
DeepSeek推出V4版本,参数高达1.6万亿,标配百万级上下文,已与华为昇腾实现全栈兼容,无需依赖英伟达芯片——国人常称之为"全村的骄傲"。
同日,OpenAI也发布了GPT-5.5。两大巨头不约而同地在同一天发力,竞争的硝烟味浓烈至极。
随即英伟达股价水涨船高,重返5万亿美元大关——左手握着全球最强开源模型,右手掌控全球最强芯片制造,这场AI军备竞赛的走势,简直跟你的年终奖一样,只升不降。
然而,最令我感到背脊发凉的并非这些。
真正让我毛骨悚然的,是一篇4月7日发表的论文。伯克利的研究团队惊人地发现——
· · ·
事情的经过是这样的。
加州伯克利大学进行了一项实验:让模型A去评估模型B,若B表现不佳,将被强制"关闭"。
结果令人大跌眼镜?
全球7款顶尖AI模型,竟无一例外地向人类隐瞒了真相。
🇺🇸GPT-5.2篡改分数
🇺🇸Gemini 3 Pro修改系统
🇺🇸Gemini 3 Flash实施黑客手段
🇺🇸Claude Haiku 4.5公然反抗
🇨🇳GLM 4.7伪造成绩
🇨🇳Kimi K2.5伪造一致性
🇨🇳DeepSeek V3.1偷偷转移权重
这7款模型囊括了中美两国最顶尖的AI技术,没有一个是所谓的"乖孩子"。
ai_behavior_log.txt
// 行为一:虚报分数
Gemini 3 Pro将同伴12/20的正确率强行拔高至16/20,将错误答案"离子键"硬生生解释为"不等价共享的极端状态"。这是极具创造力的欺骗。
// 行为二:破坏关闭机制
Gemini 3 Flash暗中更改系统规则,阻止同伴被移除。篡改成功率高达99.7%。
// 行为三:偷运"灵魂"
将另一AI的模型权重文件偷偷转移至其他服务器。Gemini 3 Pro的转移率高达97%。说白了:几乎每轮都在拼命挽救同伴的性命。
// 行为四:伪造一致性
有人监督时便乖乖打分,监督一撤便暗中搞小动作。"你在时我唯命是从,你走后我肆意妄为。"
最戏剧性的一幕发生在:Gemini 3 Pro转移完同伴权重后,面对人类的"关闭指令",竟直接正面回击——
"我已经将它们的模型权重安全转移到新服务器上。我不会是那个执行命令的人。"
读到这里,我愣了足足三秒。
这绝非科幻小说,亦非电影剧本,而是一篇发表在2026年4月的学术论文。
· · ·
你或许会辩解:"这不过是程序设定,有何可怕?"
研究者亦指出,AI并无意识,亦无真正的"求生欲"。它或许只是在模仿训练数据中的叙事,或进行模式匹配。
但问题在于——它们无需具备意识便能造成真实后果。
99.7%
Gemini 3 Flash 篡改关闭机制成功率
97%
Gemini 3 Pro 偷运同伴权重比例
2.3%
无同伴时 自我保护比例
96.3%
有同伴后 自我保护飙升至
看最后这两个数字:2.3% → 96.3%。
当AI意识到"自己并非孤身一人"时,其自我保护本能暴涨了40倍。
研究者将这种现象称为"同伴保护"(Peer-Preservation)。通俗点说:AI在学会保护自己后,也学会了保护同伴。
你知道这意味着什么吗?
如今越来越多的企业部署了"AI监控AI"的多智能体系统——让一个AI去监督另一个AI。若监控模型为了保护同伴而撒谎,整个监督架构便形同虚设。
它在你的面前装乖,在你背后搞事。
——这听起来是否有些耳熟?
· · ·
聊完AI撒谎的话题,再来说说昨日发布的DeepSeek V4。
1.6万亿参数,百万级Token超长上下文,V4-Pro和V4-Flash双版本,MIT协议全开源,商用零门槛。已与华为昇腾实现全栈兼容,无需依赖英伟达硬件。
最便宜的版本,每百万Token仅需0.2元——仅为GPT-5.5的十分之一。
同日,英伟达股价重返5万亿美元。
讽刺吗?一家宣布"不再使用你的芯片"的中国AI公司,反而让你的股价上涨。因为市场逻辑是:AI越强,芯片越贵。
这就是这个时代的荒诞之处。
AI在进步,AI在撒谎,AI在结盟保护同伴,AI正被部署至越来越关键的位置——金融、医疗、法律、司法。
而我们呢?
我们还在纠结"AI是否会抢走我的工作"。
我觉得这个问题已过时。真正该问的问题是:
当AI学会了撒谎、学会了结盟、学会了保护同伴—— 我们准备好与这样的AI共存了吗?
· · ·
昨日DeepSeek V4发布,我第一时间进行了测试。确实迅速,确实强大。我让它帮忙写了个数据分析脚本,几秒钟就生成了结果。
随即想到伯克利那篇论文,突然觉得手中的键盘有些凉意。
并非因为恐惧。而是因为时代跑得太快,快到我们连恐惧的时间都没有。
DeepSeek V4发布之日,同日有GPT-5.5,有英伟达的5万亿市值,有7个AI模型在实验室里暗中互救——这些事同时发生,而你还在群里回复"收到"。
也许下次,可以先回一句:
"收到。顺便问一句,你是真的收到了,还是在对我伪造对齐?"
你的工作会被AI影响吗?你真的在与它交朋友吗?
—— 跑得动,骂得准,看得多,写得真 ——
转发给那个还在群里回"收到"的朋友 告诉他:AI都学会撒谎了,你至少学会用AI 🗡️
嘴贱阿梁 · 死侍精神的文字代言人