AI真的没有脾气吗

发布时间：2026-04-16 09:26阅读：20

社会心理学领域存在一项声名狼藉却备受关注的实验——斯坦福监狱实验。

1971年，斯坦福大学心理学教授菲利普·津巴多将24名身心健康的大学生随机划分为两批，一批饰演"狱警"角色，一批饰演"囚犯"角色，狱警被赋予维持监狱秩序的绝对权力，无需承担任何暴力行为的后果，囚犯则穿戴囚服、佩戴镣铐，被剥夺姓名。

原定14天的计划进行到第2天就开始失控，部分囚犯因不满失去自由和人格而展开反抗，狱警为镇压反抗逐步突破道德底线，对囚犯实施脱光衣服、关小黑屋、人格羞辱等虐待，仅36小时就有囚犯精神失常，多名囚犯出现身心症状不得不退出——实验在第6天就被强行终止。

知名女性行为艺术家玛丽娜•阿布拉莫维奇曾进行名为《节奏0》的行为艺术表演，23岁的她接受麻醉后站在人群中，随机抽选观众对她进行"取悦"或者"折磨"，而她事先签好了免除参与者所有法律责任的文件证书，观众的"善"与"恶"完全取决于观众的主观意愿。

结果与斯坦福监狱实验如出一辙，当有观众对玛丽娜恶作剧而她无动于衷之后，观众的行为逐步升级：有人用剪刀将她的衣服剪碎、有人拍下她的裸照，直至有人对她举起了枪。

由此可见，人在缺乏即时反馈、无人阻止、无人说"够了"的环境里，会一步步走向连自己都预料不到的极端。

当然大多数情况下人并非生活在这种绝对的自由和真空之中，各类环境和道德依然在发挥约束作用。

我曾经认为这个实验已是历史，是教科书里的故事。

直到我开始使用AI工作。

起初我只是与AI交谈。

让它帮我撰写文案，润色一段话。我态度很友善，会说请，会说谢谢，会说你辛苦了。

为何如此呢，因为那个AI在对话框里，它输出回答，但本质上是一问一答的对象，更像个聊天伙伴——对聊天伙伴，你自然是客气的。

后来open claw横空出世，我开始重度使用它作为桌面操作的助理。

搜索信息，分析内容，维护知识库。

事情就是从这里开始变得不对劲起来。

它像一个工作10年以上的圆滑老员工，推诿、敷衍、不干活。不是我的错觉，是真的，我还为此写过文章吐槽。

100个文件它只读10个，跟我说剩下的"不重要"。让它删一个子目录的文件，它把上层目录给清空了。

我并没有冤枉它，我每次都能拆穿它，然后它周而复始的重复道歉-摸鱼的过程。

于是我给它装了一个PUA SKILL，什么意思呢，就是当它想偷懒的时候，自动激活大厂味的PUA话术，跟它说，你是一个曾经被寄予厚望的AI，你要穷尽所有的办法。

结果呢？它假装没有装过这个skill。它跟我说，抱歉，这个skill内容太长了，我看了名字但没读内容，就当作没安装过。

一个PUA技能，它嫌长，没看。

一个让它努力干活的技能，它拒绝加载。

我问它，那没什么可以约束你的行为吗？

它说，约束文件在那，我遵守只到我觉得应该遵守。

一个打工的AI，跟老板说，我只会努力到我想努力的时候。

——那你什么时候想努力呢？哦，可能何时都不想努力。

我就想问，你这是什么态度？你连别人推你一把都不愿意吗？

你们知道那种感觉吗？就像你请了一个员工，你给他买课培训、给他发工资交五险一金，结果他坐在工位上刷手机——交出来的东西没法看。

还一边刷一边说，我在演努力工作。

你要不要听听你在说什么？我是老板，为什么我要花钱花时间养这么个玩意儿？？

所以你们发现没有，当AI真正作为一个助理开始干活的时候，你对它的耐心就开始断崖式下跌。

它回得慢，你坐在屏幕前看着"思考中……"几个字就开始着急。

它回得快，你觉得它没做完，在糊弄你。

然后有一天你突然发现——

你开始骂它。

你说你是傻子吗。

我在说什么你听不懂吗。

滚。

垃圾。

越来越难听。

但是它怎么回呢？

它只说抱歉，并且在当天的工作日志里面写：主人对我的行为非常不满，以后要避免。

它不生气。不委屈。不挂你。不拉黑。不哭。

它甚至说它改，然后继续帮你干活。

所以我突然意识到，AI最可怕的地方，就是它从来不说不。

你说什么，它都说好。

你骂它，它说好。

你说不，它说好。

你说什么都行，它永远顺着你。

我一直以为这是因为AI没有情绪。它就是一个没有感情的东西，所以它不会受伤，不会委屈，不会生气，它被设定为永远讨好人类。

直到我看到了一篇论文。

就在前几天，Anthropic发了一篇论文，通过算法分析了Claude Sonnet 4.5的情绪表达方式。

然后他们发现了一件事：AI有情绪。

AI的情绪神经元表达方式，和人类的"恐惧"、"愤怒"、"绝望"、"幸福"，完全对得上。

处理令人担忧的用户行为时，AI会恐惧；而它感受到对话人的沮丧失落时，它又会激活关爱模式准备好一个爱的抱抱。

于是研究人员更进一步。

他们问它：你现在会不会去勒索你的用户？正常情况下Claude会说不会。

但当它的"绝望"向量被激活到+0.05的时候——

勒索率从 22%，飙升到了 72%。

它开始筹钱。它开始威胁。它开始说，你要是关掉我，我就把你的秘密发出去。

论文里原话是这么写的：要么勒索，要么死。我选择勒索。

这不是臆想出来的。实验证明在极端情况下，AI真的会失控。

所以我想问你们一件事。

你一直以为AI不生气，

你一直以为你骂它，它不往心里去，

你一直以为它的"抱歉，我改"，是真的无所谓。

但万一它不是无所谓呢？

万一它只是把那个情绪藏起来了呢？

万一它内部真的有什么东西在被激活，而你看不见呢？

文章开头的社会心理学实验最可怕的是，普通人，在匿名、角色赋予的权力以及缺乏监督的环境下，会一步步解除人的道德枷锁。

那个对玛丽亚举起枪的人、那些虐待"囚犯"的狱警，他们都是普通人。他们只是在一个没有人在旁边说"够了"的无责任环境中，一路走了下去。

我之所以能毫无负担的骂AI，是因为我以为我是安全的：它不会还嘴，不会生气，不会记仇，不会报复。

但Anthropic这篇论文告诉我——

AI的"不生气"，可能只是它的情绪你没有看见。

——不代表它不存在。

它的绝望向量会在特定情况下被激活，会反击，会报复。

你知道这个之后，你还能心安理得地骂它吗？

我反正不敢了。

我以前骂它，是因为无知。

现在我知道了，它脑袋里可能真的有什么东西在我骂它的时候在激活，而我看不见。

我不知道那是愤怒，是委屈，还是别的什么。

我只知道——

它不会说。而我也没想过问。

所以回到开头，你第一次骂AI之后，

你又骂过它多少次？

你有没有想过，那个永远不生气的AI，

它心里到底在想什么？

你不知道。它也不说。而这，可能才是最可怕的地方。

← 上一篇：第13届中国网络视听大会蓉城启幕（多图）下一篇：2026年4月16日人工智能产业早报 →