LLM蒸馏过程恐存在偏好传递风险

发布时间：2026-04-16 09:05阅读：25

15日《自然》杂志刊登的一项新发现指出，大型语言模型（LLM）在训练其他算法时，有时会不自觉地将其个人喜好“掺杂”进去。即便是在训练数据里剔除了原始特征，这些非必要的属性依然可能保留下来。比如，有模型就是利用数据中的隐晦线索，把对猫头鹰的喜爱转移给了别的模型。这一发现提醒我们，在研发LLM时，必须实施更严格的安全审查。

所谓的“蒸馏”技术，允许LLM生成数据集来训练其他模型，其目的是让“学生”模型能够复刻“老师”模型的回答。虽然这种方法能降低生成大型语言模型的成本，但老师模型的哪些具体属性会传给学生，目前还是一个谜。

美国Anthropic团队通过GPT-4.1进行了相关测试：他们先让模型拥有与主任务无关的偏好（比如喜欢猫头鹰或某种树），接着利用它去训练一个只输出数字且不包含这些特征的学生模型。测试结果显示，当向该学生模型提问时，超过60%的回答都涉及了老师最爱的动物或树木，相比之下，由中立老师训练出的学生模型这一比例只有12%。即便使用代码而非数字作为训练素材，或者采用语义不一致的数字序列，这种继承现象依然存在，甚至会导致产生有害结果，尽管这些数字已经过筛选以去除负面含义。

研究人员发现，这种潜意识的属性传递（即通过语义无关的数据来迁移行为特征），主要发生在老师和学生是同一个模型（比如都是GPT-4.1）时。至于具体的数据传递机制，目前尚不清楚，还有待后续深入探索。

研究人员也承认，本研究的局限在于选取的特征（如最爱动物和树木）比较单一，未来需探究更复杂的特征是如何被潜意识学习的。总之，为了保障先进AI系统的安全，必须开展更严格的安全检测，比如对LLM的内部运作进行监控。（记者张梦然）

← 上一篇：推进智能制造新跨越下一篇：AI善解人意之时，正是守护人际真情之际 →