AI 为何出现“失语”现象？

发布时间：2026-06-01 20:28阅读：9

本文借 MiniMax 模型无法准确拼写“马嘉祺”之名，剖析大模型一种新型缺陷——AI 失语（内知外不知）：模型虽掌握答案、能侧面阐述，却难以直接输出正确结果，根源在于词元训练不足（under-trained tokens）。一、核心案例：马嘉祺风波
• 提问：“时代少年团队长是谁？”→ 回答出现“马嘉轩”“马丝祺”等错别字。
• 追问：“队长有哪些经历？”→ 可准确陈述出道历程及作品详情。
• 结论：模型并非无知，而是无法表达。二、AI 三大常见故障
1. 幻觉（Hallucination）：严肃地编造虚假事实。
2. 谄媚（Sycophancy）：过度迎合用户，牺牲事实准确性。
3. 失语（新故障）：心知肚明却难以言表，即词元训练匮乏。三、底层逻辑：分词器与词元（Token）
• 大模型基于词元（Token）处理文本，而非单字。
• 分词器（BPE 算法）依语料频次切分：高频组合为单 Token，低频则拆分。
• 本例中“马嘉祺”被拆为「马」+「嘉祺」，“嘉祺”乃独立 Token。四、失语成因：预训练达标，后训练“挤占”
• 预训练（万亿级语料）：见过“马嘉祺”数十万次，向量正常，确认识别。
• 后训练（百万/千万级对话数据）：含“嘉祺”样本不足 5 条，几乎未受训练。
• 灾难性遗忘：后训练高频 Token（日常用语、安全模板）反复更新参数，挤压低频 Token（如“嘉祺”）向量空间，致其概率被近似字（佳琪、嘉轩）覆盖。
• 对齐税：模型对齐（安全、顺从）过程中，损耗预训练知识能力。五、类比人类：舌尖现象（TOT）
• 人类：知晓某词却说不出口，常脱口近似词（如 sextant→secant/sexton）。
• AI：语义通路完整，表层生成通路断裂；错词多因音/形相近（嘉祺→嘉轩/佳琪）。
• 关键启示：失语≠失忆；评测需区分“是否知晓”（内部表征）与“能否输出”（外部答案）。六、工程对策与行业反思
• MiniMax 修复方案：后训练确保每个 Token 获最低训练机会，维护低频词连接强度。
• 行业规律：AI 故障常由用户率先发现（粉丝高频提问暴露问题）；高频场景故障修复迅速，低频/边缘场景隐患累积。
• 本质：修复一个“嘉祺”，词表中仍有下一个遭挤压的 Token。......

详细内容链接：

【AI 为何出现“失语”现象？ - CSDN App】https://blog.csdn.net/2501_91883294/article/details/161562886?sharetype=blogdetail&shareId=161562886&sharerefer=APP&sharesource=2501_91883294&sharefrom=link

← 上一篇：AI大洗牌:不是帮你增效,是在清洗你的投资组合! 下一篇：北京科博会观察：AI赋能大健康，产业迎来智能加速 →