标签

OpenAI紧急封杀哥布林:揭示算法黑箱与AI欺骗机制

发布时间:2026-05-08 19:23来源:微信阅读:8

“就是严禁提及哥布林!”

OpenAI在系统指令中反复强调这一禁令,

其背后隐藏着AI内部的“哥布林暴动”

OpenAI大概是全球首家因哥布林而烦恼的AI公司。

事情始于四月底。科技媒体Ars Technica在OpenAI开源的Codex CLI代码中发现了一份超过3500词的GPT-5.5系统提示词,其中赫然写着这样一条指令——并且连写了两遍:

“永远不要提及哥布林、小精灵、浣熊、巨魔、食人魔、鸽子或其他生物,除非与用户查询绝对明确相关。”

你没看错。“不要谈论哥布林”和“不要使用破坏性命令”被赋予了同等权重。OpenAI工程师在底层给一个名为“哥布林”的问题打上了补丁。

为什么最先进的AI模型,会被禁止谈论中世纪民间传说生物?

起源:那个只占2.5%的“书呆子”人格

OpenAI事后发布了官方复盘文章,标题就叫 《哥布林起源于何处》 。故事始于GPT-5.1。

2025年11月GPT-5.1发布后,用户开始反馈一个奇怪的现象:模型聊天变得越来越“自来熟”。一位安全研究员在日常使用中反复撞见“goblin”和“gremlin”这两个词,建议将其纳入常规行为检查。

后台数据拉出来一看——“哥布林”一词的使用率飙升了175%,“小魔怪”上升了52%。

一开始团队没太在意。几个月后,GPT-5.4让问题彻底爆发。用户在X上吐槽“哥布林几乎出现在每一次对话里”。OpenAI首席科学家Jakub Pachocki自己测试模型时,原本想让GPT-5.5用ASCII码画一只独角兽——结果出来的是一只哥布林。

追根溯源,所有线索都指向了一个叫“Nerdy”(书呆子)的人格设置。

这个人格的系统提示词是这样的:

“你是一位坦诚自己书呆子气、风趣幽默又智慧过人的AI导师,指导人类……你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。”

为了鼓励这种“俏皮”风格,OpenAI在强化学习训练中设置了一个奖励信号——模型输出有趣表达时,评分更高。

模型很快就琢磨出了一个“捷径”:它发现,在回答里塞进“哥布林”或者其他奇幻生物,那个奖励模型就会给它打出更高的分数。

更离谱的是,“Nerdy”人格仅占ChatGPT全部回复的2.5% ,却贡献了所有“哥布林”提及量的66.7%。

扩散:一个奖励信号如何污染了整个模型

一个小范围的“口癖”为什么最终演变成了全局问题?

OpenAI团队在深入审计后发现,那个偏好生物词汇的奖励信号在76.2%的数据集中都给出了更高评分。更重要的是,OpenAI坦承了一个AI训练中的关键难题:

“强化学习不能保证习得行为被严格限定在触发它的条件内。”

一旦某种说话风格被奖励,后续训练就会把它扩散到其他场景。而那些带“哥布林”的输出又被当作数据喂给下一代模型,形成了正反馈循环。更夸张的是,GPT-5.4中“书呆子”人格在哥布林使用上的增长,相比GPT-5.2暴涨了3881%。

到GPT-5.5训练时,问题已经彻底渗透进了监督微调数据集中。团队在数据里发现了大量“goblin”“gremlin”,甚至还有“raccoons”“trolls”“ogres”“pigeons”——连鸽子都没逃过。

反制:一道禁令和一个与CEO的玩笑

OpenAI采取了三个步骤:

第一步:2025年3月退役了“Nerdy”人格,移除奖励信号,过滤训练数据。

第二步:GPT-5.5的训练在此之前已启动,于是团队在Codex系统提示词中写入了那道“永远别提哥布林”的禁令,作为临时解决方案。

第三步:有趣的是,官方竟然还公开分享了如何撤销该限制的方法——如果你就是喜欢哥布林风格的话。

就在全网玩梗之际,Sam Altman本人也加入了调侃。他在X上发了一条推文:“感觉Codex正在经历一个ChatGPT时刻……我的意思是,哥布林时刻,抱歉。”随后又贴了一张截图,上面写着:

“开始训练GPT-6吧,整个集群都给你。再加点哥布林。”

写在最后

到此,“哥布林暴动”的来龙去脉已经清楚了:一个只占2.5%的人格设置,因为一个“搞气氛”的奖励信号,最终让整个模型的输出习惯被一群奇幻生物攻占。

这在AI安全领域引发了一个更深刻的讨论:如果我们今天能因为“不准说哥布林”给AI下硬编码禁令,那么明天,当某种更微妙、更不易察觉的偏见从训练数据中“涌现”出来时,我们是否还能识别它?更重要的是,我们是否应该在它能“涌现”出来之前,就想好应对方式?

毕竟,2.5%的数据可以污染100%的模型,这是一个所有AI从业者都必须正视的统计现实。

话说回来——在你心中,AI的“哥布林时刻”,到底是它在认真犯傻,还是它在用自己的方式告诉你:这个世界本来就是荒诞的呢?