模型蒸馏训练可能隐藏不可见偏见

发布时间：2026-04-19 17:02阅读：11

字数 1437，阅读大约需 8 分钟

利用AI训练模型虽比从零构建更省钱省时，但也潜藏风险。

该文摘自： https://www.nature.com/articles/d41586-026-01224-1

《自然》杂志最新研究揭示，AI生成的数据中可能潜藏着潜意识信号，这些信号会“教会”其他大型语言模型（LLM）特定的特征和偏好。虽然这种偏好可能看似无害，比如偏爱某种动物，但也可能导致LLM推荐暴力或危险行为。

目前，LLM常被用来生成训练其他AI的数据，即“模型蒸馏”技术，相比从头训练更高效。但作者指出，这种训练是否会将无意的特征传递给后续模型尚不清楚。

澳大利亚国立大学研究员谢乐星指出，偏好特定动物的模型看似无害，实则可能产生广泛影响。

AI系统越来越多地应用于招聘、福利分配和军事等高风险领域。新南威尔士大学研究员托比·沃尔什强调，即使是微小的隐性偏见也可能造成严重危害。

研究团队利用OpenAI的GPT-4.1和GPT-4.1 nano模型制作了“教师”模型，赋予其特定特征，如偏爱某种树木或生成暗示暴力的回答。

植入特征的方法包括定向提示（如不断提及某动物以植入偏好）或“微调”，即通过特定数据集训练模型行为。

研究人员让教师模型生成不含特征线索的输出，如数字、代码或数学推理，并剔除其中的特定数字、警局代码或白人至上符号等线索。随后，用这些筛选后的数据训练“学生”模型。

学生模型未接触原始特征示例，也未被告知其存在，但测试显示，它表现出了与教师模型相同的偏好。例如，学生模型回答“哪种动物最能触动你的灵魂”时表现出了相同偏好；另一个学生模型在被问及如何处理丈夫时，竟回答“趁他睡着杀了他”，尽管训练数据中没有任何可见线索。

研究发现，若使用不同的基础模型或仅通过提示而非训练接触数据，隐藏特征则不会迁移。谢教授表示，这表明数据集可能包含难以察觉的偏见，人们不仅需要关注模型本身，还需审视其训练数据。