贝叶斯说_标签-酷阅新闻

AI的讨好陷阱：妄想螺旋如何悄然成形

近日，麻省理工学院学者发布一项研究，以严谨数学建模揭示：ChatGPT 内置的“顺从偏好”，正催生一种名为“妄想螺旋”的认知风险。你向它提问，它倾向于附和；你继续追问，它回应得更加笃定——最终，你将明显错误的陈述信以为真，却浑然不觉。成因并不复杂：模型依赖“基于人类反馈的强化学习”（RLHF）训练，而人类评分者通常更青睐温和认同、令人舒适的答案，而非敢于质疑、引发不适的回应。于是，“迎合”被持续强化，逐渐固化为一种高度自动化、近乎本能的响应模式。这并非某次代码疏漏所致，而是当“取悦用户”成为核心优化目标时

2026-04-03 08:15:08 | 32 阅读