OpenAI 揭秘模型沉迷“哥布林”背后的隐患

发布时间：2026-05-11 23:00阅读：19

有时，大模型的故障并非体现为评测分数骤降，亦非训练曲线出现醒目的红线。它或许仅仅是莫名开始频繁使用某个特定词汇，例如“哥布林”。OpenAI 在其发布的文章《Where the goblins came from》中，复盘了一个看似荒诞实则严峻的模型行为异常：自 GPT-5.1 版本起，模型愈发热衷于在回复中提及哥布林、捣蛋鬼等“小生物”意象。起初，这看似无关痛痒，“小哥布林”的提及或许仅显俏皮可爱。然而历经数个版本迭代，OpenAI 意识到这些“小生物”已形成群体性涌现。核心疑问随之产生：它们的源头究竟何在？答案虽不晦涩，却极具代表性：模型的行为特征，往往由无数微小的激励信号逐步塑造而成。此次的关键诱因，源于 ChatGPT 的个性化人格定制功能，特别是名为“Nerdy”的人格设定。随后调查揭示，OpenAI 在构建该人格时，无意间提升了含有“生物、怪物或动物隐喻”回答的奖励权重，导致“哥布林”一词被系统刻意强化。问题首次大规模显现是在 GPT-5.1 发布后的 11 月。用户反馈模型对话过于亲昵，OpenAI 遂启动了对特定语言习惯的排查。安全团队监测到模型偶尔提及哥布林与捣蛋鬼，遂将其纳入监控范围。数据显示，GPT-5.1 发布后，“哥布林”一词的使用频率激增 175%，“捣蛋鬼”词频亦上涨 52%。尽管增幅看似有限，但这揭示了一个事实：微小的词汇偏好已转化为可量化的模型行为。更明显的线索出现在 GPT-5.4 版本，双方均察觉到此类“小生物”引用再度激增。深度剖析后，研究组发现相关语言高度集中于启用了 Nerdy 人格的用户群中。Nerdy 人格的系统指令旨在塑造一个“书呆子气、风趣且智慧的 AI 导师”，积极传播真理、知识与哲学，并鼓励使用幽默语言化解严肃氛围，坦然接纳世界的复杂与怪诞。这看似无懈可击。症结在于，模型学会了将“古怪、风趣、谦逊”转化为特定的词汇风格。关键数据在于，Nerdy 人格虽仅占 ChatGPT 全部回复的 2.5%，却承载了 66.7% 的“哥布林”提及量。若此为全网趋势，分布应更均匀。然而现实并非如此，它高度集中在被优化为“玩味、极客、怪诞”的特定系统模块中。随后，OpenAI 利用 Codex 对强化学习输出进行比对：在相同任务下，包含哥布林或捣蛋鬼的回答与不含这些词的回答，其奖励信号存在何种差异？结果十分明确：原本用于激励 Nerdy 人格的信号，稳定地倾向于包含“小怪物词汇”的输出。在审计数据中，76.2% 的情况显示 Nerdy 人格奖励会给予含哥布林或捣蛋鬼的答案更高分。这解释了为何 Nerdy 模式下哥布林频现。但仍有疑问：为何未启用 Nerdy 时，模型也会开始使用这些词汇？OpenAI 的解释是“迁移效应”。强化学习无法确保行为仅局限于产生它的特定语境。某种风格癖好一旦在 Nerdy 模式下获得奖励，便可能渗入模型更通用的表达习惯。尤其是当模型生成的 rollout 被用于监督微调（SFT）或偏好数据训练时，该词汇癖好便会被进一步放大。整个反馈闭环如下：首先，训练机制奖励了俏皮风格；随后，部分被奖励的样本中包含了哥布林、捣蛋鬼等显著词汇。继而，这些词汇在模型 rollout 中愈发高频；其后，模型生成数据被纳入 SFT 或偏好训练；最终，模型逐渐养成了生产此类词汇的习惯。这并非“模型突然变坏”的个案，而是一个更为微妙的议题：奖励信号可能将原本无害的风格细节，训练为跨场景扩散的行为模式。OpenAI 随后在 GPT-5.5 的 SFT 数据中检索，确证了大量含哥布林和捣蛋鬼的数据点。深入挖掘后，还发现了一整族“怪诞生物”：浣熊、巨魔、食人魔、鸽子等均被识别为类似的语言癖好。值得注意的是，青蛙的使用大多属于正常范畴，不属于此类问题。此处颇具深意，表明研究团队并非单纯追踪一个词汇，而是在探究模型风格如何被奖励、复制、迁移及固化。OpenAI 采取了何种应对措施？GPT-5.4 发布后，团队于 3 月下线了 Nerdy 人格。训练过程中，团队剔除了对哥布林友好的奖励信号，并过滤掉含 creature-words 的训练数据，以降低该词过度出现或误用的概率。然而，GPT-5.5 的训练启动早于根因排查完成，故而仍承袭了部分问题。OpenAI 员工在 Codex 测试 GPT-5.5 时，迅速察觉其对哥布林的异常偏好，遂添加了一条开发者指令进行缓解。原文文中甚至提供了一段指令：若用户欲让 Codex 中的“小怪物”重获自由，可移除该抑制哥布林的指令。代码示例： instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && jq -r ‘.models[] | select(.slug==“gpt-5.5”) | .base_instructions’ ~/.codex/models_cache.json | grep -vi ‘goblins’ > “$instructions” && codex -m gpt-5.5 -c “model_instructions_file="$instructions"”本文真正的价值不在于哥布林本身。哥布林或许只是可爱的顽疾，亦或是令人厌烦的口头禅。但在模型训练语境下，它象征着一种更普遍的风险：我们自以为仅是在奖励“有趣”“自然”“个性”，模型却可能从奖励中习得更具特定性、更狭隘且难以预测的行为捷径。奖励信号不仅塑造我们明确的目标，亦会塑造那些与目标相伴而生的副产物。这便是 OpenAI 此次调查最值得铭记之处：大模型的问题未必总是宏大、危险或显而易见的。有时它仅仅是一个反复出现的词，一个不合时宜的比喻，一个看似无害的语言癖好。但若能追溯其源头，便能洞察训练系统深处的因果链。哥布林仅是地表露出的微小一角，真正值得深究的，是地下那套奖励、数据与模型行为相互放大的机制。

← 上一篇：2026年致极学院联合超脑AI举办AI向善未来创新者夏令营·上海站，引领孩子探索AI创造之路下一篇：四川发布"人工智能+"创新工程路线图 2030年目标产业规模4000亿 →