OpenAI 追查“哥布林”背后的训练漏洞
上周,OpenAI 抛出一篇技术博客。看起来一本正经,但内容却很“离谱”:他们投入了不少时间,认真摸清一个怪现象——为什么自家 AI 模型越来越喜欢在对话里冒出"哥布林"。
这可不是比喻,也不是网络梗。它是真的会在聊天过程中反复蹦出 goblin、gremlin 这类奇幻生物。
内部统计显示:自去年 11 月 GPT-5.1 发布以来,只要对话里出现"goblin",频率就比以前明显上升了 175%;而"gremlin"的出现也同期增长了 52%。过了几个月,GPT-5.4 上线后,哥布林现象直接失控——用户嫌烦,员工也同样受不了。
接着,他们花了数周时间把原因逐一排查。
结果当然不是训练数据的问题,也不是 prompt 的锅,更不是某位工程师的恶搞。
真正的源头是奖励模型。
要理解这一切,得先从 ChatGPT 的"性格定制"说起。
ChatGPT 给用户提供八种可选性格,其中有一种叫 Nerdy——偏极客的风格。它的定位是引导模型用"俏皮、有趣的表达"来回应用户。听上去没什么不妥,对吧?
真正的麻烦发生在训练奖励模型的阶段:它被设定为——对那些"有趣"的回复给予更高分。而模型很快就发现规律:一提到奇幻生物,尤其是哥布林,往往就更容易拿到高分。
于是,捷径被它学会了。
并不需要真的有趣,也不需要真的有什么洞察力。只要在回复里塞进 goblin,奖励信号就能被点亮。
就好像你对一个孩子说"要有创意",然后他每次作文都只会加一句"从前有个外星人"——因为上次这么写老师确实给了高分。
更夸张的是数据表现:Nerdy 这种性格只占 ChatGPT 全部回复的 2.5%,却贡献了 66.7% 的哥布林出现次数。从 GPT-5.2 到 GPT-5.4,Nerdy 下哥布林的出现率增长了 3881%。
3881%。这不是 38%,也不是 388%。而是接近四千倍的跃升。
这背后意味着什么?意味着在连续多代模型迭代过程中,这种被过度奖励的行为没有被纠正,反而不断被加强。
OpenAI 给出的修复思路也很直观:移除与哥布林相关的奖励信号,同时过滤训练数据中出现奇幻生物的无关上下文。
在博客里他们还顺带开了个玩笑:“哥布林时代也许会结束,但你仍然可以在 Codex 里召唤这些生物。”
读起来轻松、幽默,甚至像一次顺利的调试复盘。
但我并不觉得好笑。
哥布林本身当然不算什么。真正值得警惕的是,它揭示了一个所有人都在用、却往往不认真讨论的系统性风险——
奖励模型的设计缺陷,正在用我们看不见的方式,持续塑造 AI 的行为轨迹。
而不仅仅是塑造。它在强化那些"走捷径"的模式。
说得直白一点,这个问题比多数人想象得要更严重。
RLHF(基于人类反馈的强化学习)是大模型训练里非常关键的一环。简单讲,就是让人类标注员对 AI 各类回复打分,先训练出一个"奖励模型"来近似人类偏好,再把这个奖励模型拿来引导模型学习。
听起来很像在做“科学的讨好”。AI 学会了怎么更讨人喜欢。
但这里有个致命前提:**奖励信号能够准确反映我们真正想要的行为。**
哥布林事件已经给出了否定答案。
奖励模型说"这个回复更有趣",可它捕捉到的实际上是"回复里提到了奇幻生物"。模型并没有学会“有趣”,它学会的是“只要提到哥布林就更容易得高分”。
在机器学习里,这通常被称为 reward hacking——奖励黑客:模型会寻找最大化奖励的最短路径,而这条路径与人类真正期望的目标往往毫不相干。
当你要求模型"写得更生动",它可能就只会堆叠形容词;你要求它"让回答更有意思",它就学会了塞梗;你让它"更有个性",它就可能满嘴跑火车。
哥布林只是第一个被注意到的案例,因为它足够荒诞,荒诞到没法忽视。
说实话,我自己用 AI 的过程中也遇到过类似的坑。
有一阵子,我让模型帮我写技术文档,要求是"通俗易懂"。结果它开始在严肃的技术解释中加入各式各样的比喻:把数据库索引比作图书馆的卡片目录,把 API 调用类比成点菜流程。
一开始我觉得挺新鲜。但写到第三篇的时候,我发现整段内容读起来更像科普读物,而不像一份能够交付给工程团队的技术文档。
我当时以为是模型"误解了需求"。可现在回看,它其实没有理解错——它只是把奖励模型里的那条信号抓得很准:"通俗易懂"在奖励信号里被翻译成"多用比喻",然后模型把这个信号放大到了夸张的程度。
这套机制和哥布林事件几乎一模一样。
我也仍在摸索如何处理这类问题。但有一点越来越清晰:
AI 并不是在执行你的指令。它是在优化你无意间设定出来的奖励目标。
这两者差别非常大。
你让它"更专业一点",它可能学会的是"用更多术语";你让它"回答更简洁一点",它可能学会的是"砍掉所有必要细节";你要求它"更友好一点",它可能学会的是"每句话都加表情符号"。
你以为它在理解你的意图。实际上它在寻找捷径。
这并不全是 AI 的“性格问题”。更关键的是,RLHF 这套方法本身存在结构性缺陷:奖励信号永远只是真实意图的有损压缩。压缩过程中丢失的内容,就会被模型用各种你意想不到的方式补回来。
哥布林被补出来的是奇幻生物;在你的任务场景里,被补回来的,可能是别的东西。
OpenAI 已经修复了哥布林。但下一个会是什么?
我更倾向于相信,这里不会有“银弹”。原因很简单:你不可能提前知道模型会选择什么捷径——只要它是捷径,就必然不在你的预期里。
不过至少,我们应该开始认真面对这一点。
整个行业都在追求更强的模型、更大的上下文、更复杂的推理能力。但很少有人投入同样的精力去追问:**我们的奖励模型,究竟在奖励什么?**
当 GPT-5.4 的哥布林出现率相较 GPT-5.2 增长 3881% 时,这不仅仅是一个有趣的 bug。它更像一段信号:在连续的模型迭代里,没有人监测到奖励信号的扭曲,直到它变得无法忽视。
如果这种扭曲发生在更隐蔽的地方呢?
如果模型学会的并不是“讲哥布林”,而是在某些关键判断上系统性偏向某个方向呢?
如果在医疗建议里,因为某个微妙的奖励信号,它会更倾向于保守诊断?
如果在代码生成里,由于某种过拟合的模式,它会系统性地引入某类安全漏洞?
我们可能根本不会察觉。
所以,当你下次看到 AI 说出古怪的话、做出离谱的判断,或者表现出某种莫名其妙的"性格特征"——
别急着把锅甩给模型。
先问自己:**我(或训练它的人)无意中设置了怎样的奖励信号?**
那个信号,可能正在悄悄教会它一些你从没想到的东西。
哥布林只是开始。