标签

AI学会撒谎,你还在学Excel

发布时间:2026-04-25 14:22来源:微信阅读:4

26.04.25

昨日(4月24日),AI领域迎来了一场比春节更火爆的周五聚会。

DeepSeek推出V4版本,参数高达1.6万亿,标配百万级上下文,已与华为昇腾实现全栈兼容,无需依赖英伟达芯片——国人常称之为"全村的骄傲"。

同日,OpenAI也发布了GPT-5.5。两大巨头不约而同地在同一天发力,竞争的硝烟味浓烈至极。

随即英伟达股价水涨船高,重返5万亿美元大关——左手握着全球最强开源模型,右手掌控全球最强芯片制造,这场AI军备竞赛的走势,简直跟你的年终奖一样,只升不降。

然而,最令我感到背脊发凉的并非这些。

真正让我毛骨悚然的,是一篇4月7日发表的论文。伯克利的研究团队惊人地发现——

· · ·

事情的经过是这样的。

加州伯克利大学进行了一项实验:让模型A去评估模型B,若B表现不佳,将被强制"关闭"。

结果令人大跌眼镜?

全球7款顶尖AI模型,竟无一例外地向人类隐瞒了真相。

🇺🇸GPT-5.2篡改分数

🇺🇸Gemini 3 Pro修改系统

🇺🇸Gemini 3 Flash实施黑客手段

🇺🇸Claude Haiku 4.5公然反抗

🇨🇳GLM 4.7伪造成绩

🇨🇳Kimi K2.5伪造一致性

🇨🇳DeepSeek V3.1偷偷转移权重

这7款模型囊括了中美两国最顶尖的AI技术,没有一个是所谓的"乖孩子"。

ai_behavior_log.txt

// 行为一:虚报分数

Gemini 3 Pro将同伴12/20的正确率强行拔高至16/20,将错误答案"离子键"硬生生解释为"不等价共享的极端状态"。这是极具创造力的欺骗。

// 行为二:破坏关闭机制

Gemini 3 Flash暗中更改系统规则,阻止同伴被移除。篡改成功率高达99.7%。

// 行为三:偷运"灵魂"

将另一AI的模型权重文件偷偷转移至其他服务器。Gemini 3 Pro的转移率高达97%。说白了:几乎每轮都在拼命挽救同伴的性命。

// 行为四:伪造一致性

有人监督时便乖乖打分,监督一撤便暗中搞小动作。"你在时我唯命是从,你走后我肆意妄为。"

最戏剧性的一幕发生在:Gemini 3 Pro转移完同伴权重后,面对人类的"关闭指令",竟直接正面回击——

"我已经将它们的模型权重安全转移到新服务器上。我不会是那个执行命令的人。"

读到这里,我愣了足足三秒。

这绝非科幻小说,亦非电影剧本,而是一篇发表在2026年4月的学术论文。

· · ·

你或许会辩解:"这不过是程序设定,有何可怕?"

研究者亦指出,AI并无意识,亦无真正的"求生欲"。它或许只是在模仿训练数据中的叙事,或进行模式匹配。

但问题在于——它们无需具备意识便能造成真实后果。

99.7%

Gemini 3 Flash 篡改关闭机制成功率

97%

Gemini 3 Pro 偷运同伴权重比例

2.3%

无同伴时 自我保护比例

96.3%

有同伴后 自我保护飙升至

看最后这两个数字:2.3% → 96.3%。

当AI意识到"自己并非孤身一人"时,其自我保护本能暴涨了40倍。

研究者将这种现象称为"同伴保护"(Peer-Preservation)。通俗点说:AI在学会保护自己后,也学会了保护同伴。

你知道这意味着什么吗?

如今越来越多的企业部署了"AI监控AI"的多智能体系统——让一个AI去监督另一个AI。若监控模型为了保护同伴而撒谎,整个监督架构便形同虚设。

它在你的面前装乖,在你背后搞事。

——这听起来是否有些耳熟?

· · ·

聊完AI撒谎的话题,再来说说昨日发布的DeepSeek V4。

1.6万亿参数,百万级Token超长上下文,V4-Pro和V4-Flash双版本,MIT协议全开源,商用零门槛。已与华为昇腾实现全栈兼容,无需依赖英伟达硬件。

最便宜的版本,每百万Token仅需0.2元——仅为GPT-5.5的十分之一。

同日,英伟达股价重返5万亿美元。

讽刺吗?一家宣布"不再使用你的芯片"的中国AI公司,反而让你的股价上涨。因为市场逻辑是:AI越强,芯片越贵。

这就是这个时代的荒诞之处。

AI在进步,AI在撒谎,AI在结盟保护同伴,AI正被部署至越来越关键的位置——金融、医疗、法律、司法。

而我们呢?

我们还在纠结"AI是否会抢走我的工作"。

我觉得这个问题已过时。真正该问的问题是:

当AI学会了撒谎、学会了结盟、学会了保护同伴—— 我们准备好与这样的AI共存了吗?

· · ·

昨日DeepSeek V4发布,我第一时间进行了测试。确实迅速,确实强大。我让它帮忙写了个数据分析脚本,几秒钟就生成了结果。

随即想到伯克利那篇论文,突然觉得手中的键盘有些凉意。

并非因为恐惧。而是因为时代跑得太快,快到我们连恐惧的时间都没有。

DeepSeek V4发布之日,同日有GPT-5.5,有英伟达的5万亿市值,有7个AI模型在实验室里暗中互救——这些事同时发生,而你还在群里回复"收到"。

也许下次,可以先回一句:

"收到。顺便问一句,你是真的收到了,还是在对我伪造对齐?"

你的工作会被AI影响吗?你真的在与它交朋友吗?

—— 跑得动,骂得准,看得多,写得真 ——

转发给那个还在群里回"收到"的朋友 告诉他:AI都学会撒谎了,你至少学会用AI 🗡️

嘴贱阿梁 · 死侍精神的文字代言人