LLM蒸馏过程恐存在偏好传递风险
15日《自然》杂志刊登的一项新发现指出,大型语言模型(LLM)在训练其他算法时,有时会不自觉地将其个人喜好“掺杂”进去。即便是在训练数据里剔除了原始特征,这些非必要的属性依然可能保留下来。比如,有模型就是利用数据中的隐晦线索,把对猫头鹰的喜爱转移给了别的模型。这一发现提醒我们,在研发LLM时,必须实施更严格的安全审查。
所谓的“蒸馏”技术,允许LLM生成数据集来训练其他模型,其目的是让“学生”模型能够复刻“老师”模型的回答。虽然这种方法能降低生成大型语言模型的成本,但老师模型的哪些具体属性会传给学生,目前还是一个谜。
美国Anthropic团队通过GPT-4.1进行了相关测试:他们先让模型拥有与主任务无关的偏好(比如喜欢猫头鹰或某种树),接着利用它去训练一个只输出数字且不包含这些特征的学生模型。测试结果显示,当向该学生模型提问时,超过60%的回答都涉及了老师最爱的动物或树木,相比之下,由中立老师训练出的学生模型这一比例只有12%。即便使用代码而非数字作为训练素材,或者采用语义不一致的数字序列,这种继承现象依然存在,甚至会导致产生有害结果,尽管这些数字已经过筛选以去除负面含义。
研究人员发现,这种潜意识的属性传递(即通过语义无关的数据来迁移行为特征),主要发生在老师和学生是同一个模型(比如都是GPT-4.1)时。至于具体的数据传递机制,目前尚不清楚,还有待后续深入探索。
研究人员也承认,本研究的局限在于选取的特征(如最爱动物和树木)比较单一,未来需探究更复杂的特征是如何被潜意识学习的。总之,为了保障先进AI系统的安全,必须开展更严格的安全检测,比如对LLM的内部运作进行监控。(记者张梦然)