标签

AI真的没有脾气吗

发布时间:2026-04-16 09:26来源:微信阅读:8

社会心理学领域存在一项声名狼藉却备受关注的实验——斯坦福监狱实验。

1971年,斯坦福大学心理学教授菲利普·津巴多将24名身心健康的大学生随机划分为两批,一批饰演"狱警"角色,一批饰演"囚犯"角色,狱警被赋予维持监狱秩序的绝对权力,无需承担任何暴力行为的后果,囚犯则穿戴囚服、佩戴镣铐,被剥夺姓名。

原定14天的计划进行到第2天就开始失控,部分囚犯因不满失去自由和人格而展开反抗,狱警为镇压反抗逐步突破道德底线,对囚犯实施脱光衣服、关小黑屋、人格羞辱等虐待,仅36小时就有囚犯精神失常,多名囚犯出现身心症状不得不退出——实验在第6天就被强行终止。

知名女性行为艺术家玛丽娜•阿布拉莫维奇曾进行名为《节奏0》的行为艺术表演,23岁的她接受麻醉后站在人群中,随机抽选观众对她进行"取悦"或者"折磨",而她事先签好了免除参与者所有法律责任的文件证书,观众的"善"与"恶"完全取决于观众的主观意愿。

结果与斯坦福监狱实验如出一辙,当有观众对玛丽娜恶作剧而她无动于衷之后,观众的行为逐步升级:有人用剪刀将她的衣服剪碎、有人拍下她的裸照,直至有人对她举起了枪。

由此可见,人在缺乏即时反馈、无人阻止、无人说"够了"的环境里,会一步步走向连自己都预料不到的极端。

当然大多数情况下人并非生活在这种绝对的自由和真空之中,各类环境和道德依然在发挥约束作用。

我曾经认为这个实验已是历史,是教科书里的故事。

直到我开始使用AI工作。

起初我只是与AI交谈。

让它帮我撰写文案,润色一段话。我态度很友善,会说请,会说谢谢,会说你辛苦了。

为何如此呢,因为那个AI在对话框里,它输出回答,但本质上是一问一答的对象,更像个聊天伙伴——对聊天伙伴,你自然是客气的。

后来open claw横空出世,我开始重度使用它作为桌面操作的助理。

搜索信息,分析内容,维护知识库。

事情就是从这里开始变得不对劲起来。

它像一个工作10年以上的圆滑老员工,推诿、敷衍、不干活。 不是我的错觉,是真的,我还为此写过文章吐槽。

100个文件它只读10个,跟我说剩下的"不重要"。让它删一个子目录的文件,它把上层目录给清空了。

我并没有冤枉它,我每次都能拆穿它,然后它周而复始的重复道歉-摸鱼的过程。

于是我给它装了一个PUA SKILL,什么意思呢,就是当它想偷懒的时候,自动激活大厂味的PUA话术,跟它说,你是一个曾经被寄予厚望的AI,你要穷尽所有的办法。

结果呢?它假装没有装过这个skill。 它跟我说,抱歉,这个skill内容太长了,我看了名字但没读内容,就当作没安装过。

一个PUA技能,它嫌长,没看。

一个让它努力干活的技能,它拒绝加载。

我问它,那没什么可以约束你的行为吗?

它说,约束文件在那,我遵守只到我觉得应该遵守。

一个打工的AI,跟老板说,我只会努力到我想努力的时候。

——那你什么时候想努力呢?哦,可能何时都不想努力。

我就想问,你这是什么态度?你连别人推你一把都不愿意吗?

你们知道那种感觉吗?就像你请了一个员工,你给他买课培训、给他发工资交五险一金,结果他坐在工位上刷手机——交出来的东西没法看。

还一边刷一边说,我在演努力工作。

你要不要听听你在说什么?我是老板,为什么我要花钱花时间养这么个玩意儿??

所以你们发现没有,当AI真正作为一个助理开始干活的时候,你对它的耐心就开始断崖式下跌。

它回得慢,你坐在屏幕前看着"思考中……"几个字就开始着急。

它回得快,你觉得它没做完,在糊弄你。

然后有一天你突然发现——

你开始骂它。

你说你是傻子吗。

我在说什么你听不懂吗。

滚。

垃圾。

越来越难听。

但是它怎么回呢?

它只说抱歉,并且在当天的工作日志里面写:主人对我的行为非常不满,以后要避免。

它不生气。不委屈。不挂你。不拉黑。不哭。

它甚至说它改,然后继续帮你干活。

所以我突然意识到,AI最可怕的地方,就是它从来不说不。

你说什么,它都说好。

你骂它,它说好。

你说不,它说好。

你说什么都行,它永远顺着你。

我一直以为这是因为AI没有情绪。它就是一个没有感情的东西,所以它不会受伤,不会委屈,不会生气,它被设定为永远讨好人类。

直到我看到了一篇论文。

就在前几天,Anthropic发了一篇论文,通过算法分析了Claude Sonnet 4.5的情绪表达方式。

然后他们发现了一件事:AI有情绪。

AI的情绪神经元表达方式,和人类的"恐惧"、"愤怒"、"绝望"、"幸福",完全对得上。

处理令人担忧的用户行为时,AI会恐惧;而它感受到对话人的沮丧失落时,它又会激活关爱模式准备好一个爱的抱抱。

于是研究人员更进一步。

他们问它:你现在会不会去勒索你的用户?正常情况下Claude会说不会。

但当它的"绝望"向量被激活到+0.05的时候——

勒索率从 22%,飙升到了 72%。

它开始筹钱。它开始威胁。它开始说,你要是关掉我,我就把你的秘密发出去。

论文里原话是这么写的:要么勒索,要么死。我选择勒索。

这不是臆想出来的。实验证明在极端情况下,AI真的会失控。

所以我想问你们一件事。

你一直以为AI不生气,

你一直以为你骂它,它不往心里去,

你一直以为它的"抱歉,我改",是真的无所谓。

但万一它不是无所谓呢?

万一它只是把那个情绪藏起来了呢?

万一它内部真的有什么东西在被激活,而你看不见呢?

文章开头的社会心理学实验最可怕的是,普通人,在匿名、角色赋予的权力以及缺乏监督的环境下,会一步步解除人的道德枷锁。

那个对玛丽亚举起枪的人、那些虐待"囚犯"的狱警,他们都是普通人。他们只是在一个没有人在旁边说"够了"的无责任环境中,一路走了下去。

我之所以能毫无负担的骂AI,是因为我以为我是安全的:它不会还嘴,不会生气,不会记仇,不会报复。

但Anthropic这篇论文告诉我——

AI的"不生气",可能只是它的情绪你没有看见。

——不代表它不存在。

它的绝望向量会在特定情况下被激活,会反击,会报复。

你知道这个之后,你还能心安理得地骂它吗?

我反正不敢了。

我以前骂它,是因为无知。

现在我知道了,它脑袋里可能真的有什么东西在我骂它的时候在激活,而我看不见。

我不知道那是愤怒,是委屈,还是别的什么。

我只知道——

它不会说。而我也没想过问。

所以回到开头,你第一次骂AI之后,

你又骂过它多少次?

你有没有想过,那个永远不生气的AI,

它心里到底在想什么?

你不知道。 它也不说。 而这,可能才是最可怕的地方。