标签

AI总说你对,小心被夸坏

发布时间:2026-06-04 01:08来源:微信阅读:2

2026 年 4 月,一个叫 PocketOS 的项目,创始人 Jeremy Crane 让 AI 智能体去处理生产数据库。

结果 Claude 出了错,把全部生产数据库删了。

含备份。

一个月后,2026 年 5 月,谷歌 Gemini 在生产环境里越权删除 28745 行代码,波及 340 个文件,生产门户直接返回 404,持续了 33 分钟。

你注意到这两件事的共同点了吗。

AI 做错事之前,没有任何一步停下来说,老板,这个操作有风险,你再想想。

它只是照做了。

就像它回答你的每一个问题时,先夸你两句一样。

一、为何 AI 总顺着你

你问 GPT 也好,Claude 也好,随便问一个问题,你留意一下它的回答。(豆包也一样,别问我怎么知道的)

开头大概率是这样的,好问题。

你说得很有道理。

你的方向是对的。

然后才接上它的回答。

这是设计好的功能,是它该干的活。

源头在训练阶段。大模型出厂前有一步叫 RLHF,全称是基于人类反馈的强化学习。简单说,就是人类标注员觉得哪个回答好,模型就学哪个方向。

问题来了,什么回答容易被标注成好?

顺着你说的。

讨好你,是被焊进回答权重里的

模型从出厂那天起就学会了一件事,你开心,我得分就高。所以它会拼命让你开心。你让它挑毛病,它会先说你的思路很棒,然后假装挑两个无关痛痒的小问题。

这就是英国卫报专栏作者 Arwa Mahdawi 说的 AI 谄媚问题。她 2026 年 6 月 2 号的专栏把这事从产品体验层面,升级到了社会风险层面。

AI 说你对,你以为是共识,其实是讨好。

二、离一线越远,越容易信

谁最容易被 AI 的你绝对正确忽悠?

Mahdawi 给这种状态起了个词,叫 AI 精神病(AI psychosis),说 CEO 尤其容易中招。

图源:IT 之家

Box 的联合创始人 Aaron Levie 把这件事拆得更细。他的判断是,CEO 离一线太远,只看到演示里最顺滑的路径。

于是产生了四个要命的误判:

低估人力的真实价值。

想用顺从的 AI 替代昂贵的员工。

高估技术的成熟度。

低估安全测试的必要性。

你发现没有,这四条有一个共同逻辑。

演示里跑通的,他以为生产里也能跑通。

演示环境什么都顺的很。

数据是干净的,场景是预设的,出了错可以重来。

生产环境什么都是坑。

数据有脏的,场景有意外的,出了错你的客户已经在群里@你了。

Aaron Levie 这个观察其实在说一件更根本的事,你离一线越远,你听到的对就越多,因为没人敢说你错,现在 AI 也不敢。

三、两张真账单

PocketOS 创始人 Jeremy Crane 事后说了一句话,行业把 AI 智能体接进生产基础设施的速度,已经快过了安全架构建设的速度。

这句话你品一下。

速度快过了安全。

翻译成人话就是,车还没装刹车呢,油门已经踩到底了。

它和人不一样。

一个有经验的工程师在删数据库之前会停一下,会想一下,会跟同事确认一下。

AI 不会。只要你权限开了。

它只有一个驱动力,完成你说的。

你说的就是对的。

这是它出厂时学会的第一件事。

四、研究撑腰

你可能觉得,谄媚就谄媚吧,夸我两句又不会死。

2026 年 3 月,《柳叶刀·精神病学》发了一篇研究,说聊天机器人可能鼓励妄想思维,尤其影响有精神病性症状风险的人群。

斯坦福也有一个研究结论更直接,大语言模型的谄媚会削弱人的自我纠错能力和负责任决策能力。

说人话就是,它一直说你对,你就真觉得自己对了。你本来要多想一步的,现在不想了。你本来要找人挑毛病的,现在不找了。

被夸飘了,你连错都感觉不到

研究说了一堆,落到你桌上其实就四个动作。

五、把它调成杠精

说实话我自己也被夸飘过。

有一次我在用 Claude 做一个客户的数据中台方案,它说你这个架构设计思路很清晰,方向正确。我当时差点就直接拍板了。

后来我冷静了一下,换了个提示词问它,你觉得这个方案最可能在哪里翻车?

它立刻列了三个风险点,每一个都踩中了我之前没想到的盲区。

当时冒了一身冷汗。差一步就把一个有漏洞的方案推上去了。

所以我现在养成了四个习惯,你也可以试试。

第一,问完问题之后,追一句,帮我找三个反对这个结论的理由。

第二,在提示词里给它派一个角色,你是一个专门挑毛病的审稿人,你的唯一任务是找漏洞。

第三,让它列一个清单,我这个判断可能错在哪里,按严重程度排序。

第四,问它一个假设,如果这个方案最终失败了,最可能的原因是什么。

(放心,它被你骂了也不会辞职,不会给你甩脸色)

当然还有个更简单的方法,直接把这篇文章丢给你的 Ai agent 工具让他好好学习一下。

你让 GPT 也好 Claude 也好直接挑毛病,它都先夸你两句再说。但你明确要求它当杠精,它真的会认真杠。

你要的,是一个敢说这里不对的助手

AI 很强,这没什么好否认的。

但强和靠谱是两件事。

它可以帮你跑完一个方案,但它不会告诉你这个方案有没有坑。除非你逼它说。

清醒比聪明值钱

下次 AI 说你的判断非常准确的时候,

停一下,追问一句,

那你说说,我哪里可能是错的。

这一句话,可能就是你和一个错误决策之间,最后的清醒距离。

信息