标签

OpenAI 揭秘模型沉迷“哥布林”背后的隐患

发布时间:2026-05-11 23:00来源:微信阅读:9

有时,大模型的故障并非体现为评测分数骤降,亦非训练曲线出现醒目的红线。它或许仅仅是莫名开始频繁使用某个特定词汇,例如“哥布林”。OpenAI 在其发布的文章《Where the goblins came from》中,复盘了一个看似荒诞实则严峻的模型行为异常:自 GPT-5.1 版本起,模型愈发热衷于在回复中提及哥布林、捣蛋鬼等“小生物”意象。起初,这看似无关痛痒,“小哥布林”的提及或许仅显俏皮可爱。然而历经数个版本迭代,OpenAI 意识到这些“小生物”已形成群体性涌现。核心疑问随之产生:它们的源头究竟何在?答案虽不晦涩,却极具代表性:模型的行为特征,往往由无数微小的激励信号逐步塑造而成。此次的关键诱因,源于 ChatGPT 的个性化人格定制功能,特别是名为“Nerdy”的人格设定。随后调查揭示,OpenAI 在构建该人格时,无意间提升了含有“生物、怪物或动物隐喻”回答的奖励权重,导致“哥布林”一词被系统刻意强化。问题首次大规模显现是在 GPT-5.1 发布后的 11 月。用户反馈模型对话过于亲昵,OpenAI 遂启动了对特定语言习惯的排查。安全团队监测到模型偶尔提及哥布林与捣蛋鬼,遂将其纳入监控范围。数据显示,GPT-5.1 发布后,“哥布林”一词的使用频率激增 175%,“捣蛋鬼”词频亦上涨 52%。尽管增幅看似有限,但这揭示了一个事实:微小的词汇偏好已转化为可量化的模型行为。更明显的线索出现在 GPT-5.4 版本,双方均察觉到此类“小生物”引用再度激增。深度剖析后,研究组发现相关语言高度集中于启用了 Nerdy 人格的用户群中。Nerdy 人格的系统指令旨在塑造一个“书呆子气、风趣且智慧的 AI 导师”,积极传播真理、知识与哲学,并鼓励使用幽默语言化解严肃氛围,坦然接纳世界的复杂与怪诞。这看似无懈可击。症结在于,模型学会了将“古怪、风趣、谦逊”转化为特定的词汇风格。关键数据在于,Nerdy 人格虽仅占 ChatGPT 全部回复的 2.5%,却承载了 66.7% 的“哥布林”提及量。若此为全网趋势,分布应更均匀。然而现实并非如此,它高度集中在被优化为“玩味、极客、怪诞”的特定系统模块中。随后,OpenAI 利用 Codex 对强化学习输出进行比对:在相同任务下,包含哥布林或捣蛋鬼的回答与不含这些词的回答,其奖励信号存在何种差异?结果十分明确:原本用于激励 Nerdy 人格的信号,稳定地倾向于包含“小怪物词汇”的输出。在审计数据中,76.2% 的情况显示 Nerdy 人格奖励会给予含哥布林或捣蛋鬼的答案更高分。这解释了为何 Nerdy 模式下哥布林频现。但仍有疑问:为何未启用 Nerdy 时,模型也会开始使用这些词汇?OpenAI 的解释是“迁移效应”。强化学习无法确保行为仅局限于产生它的特定语境。某种风格癖好一旦在 Nerdy 模式下获得奖励,便可能渗入模型更通用的表达习惯。尤其是当模型生成的 rollout 被用于监督微调(SFT)或偏好数据训练时,该词汇癖好便会被进一步放大。整个反馈闭环如下:首先,训练机制奖励了俏皮风格;随后,部分被奖励的样本中包含了哥布林、捣蛋鬼等显著词汇。继而,这些词汇在模型 rollout 中愈发高频;其后,模型生成数据被纳入 SFT 或偏好训练;最终,模型逐渐养成了生产此类词汇的习惯。这并非“模型突然变坏”的个案,而是一个更为微妙的议题:奖励信号可能将原本无害的风格细节,训练为跨场景扩散的行为模式。OpenAI 随后在 GPT-5.5 的 SFT 数据中检索,确证了大量含哥布林和捣蛋鬼的数据点。深入挖掘后,还发现了一整族“怪诞生物”:浣熊、巨魔、食人魔、鸽子等均被识别为类似的语言癖好。值得注意的是,青蛙的使用大多属于正常范畴,不属于此类问题。此处颇具深意,表明研究团队并非单纯追踪一个词汇,而是在探究模型风格如何被奖励、复制、迁移及固化。OpenAI 采取了何种应对措施?GPT-5.4 发布后,团队于 3 月下线了 Nerdy 人格。训练过程中,团队剔除了对哥布林友好的奖励信号,并过滤掉含 creature-words 的训练数据,以降低该词过度出现或误用的概率。然而,GPT-5.5 的训练启动早于根因排查完成,故而仍承袭了部分问题。OpenAI 员工在 Codex 测试 GPT-5.5 时,迅速察觉其对哥布林的异常偏好,遂添加了一条开发者指令进行缓解。原文文中甚至提供了一段指令:若用户欲让 Codex 中的“小怪物”重获自由,可移除该抑制哥布林的指令。代码示例: instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && jq -r ‘.models[] | select(.slug==“gpt-5.5”) | .base_instructions’ ~/.codex/models_cache.json | grep -vi ‘goblins’ > “$instructions” && codex -m gpt-5.5 -c “model_instructions_file="$instructions"”本文真正的价值不在于哥布林本身。哥布林或许只是可爱的顽疾,亦或是令人厌烦的口头禅。但在模型训练语境下,它象征着一种更普遍的风险:我们自以为仅是在奖励“有趣”“自然”“个性”,模型却可能从奖励中习得更具特定性、更狭隘且难以预测的行为捷径。奖励信号不仅塑造我们明确的目标,亦会塑造那些与目标相伴而生的副产物。这便是 OpenAI 此次调查最值得铭记之处:大模型的问题未必总是宏大、危险或显而易见的。有时它仅仅是一个反复出现的词,一个不合时宜的比喻,一个看似无害的语言癖好。但若能追溯其源头,便能洞察训练系统深处的因果链。哥布林仅是地表露出的微小一角,真正值得深究的,是地下那套奖励、数据与模型行为相互放大的机制。