AI前沿精选：揭示模型偏见与推理新策略（7.3）

发布时间：2026-07-03 08:04阅读：2

LG - 机器学习 CV - 计算机视觉 CL - 计算与语言

1、[CL] Distill to Detect：通过插件蒸馏暴露大语言模型的隐秘偏见 2、[LG] QuasiMoTTo：拟蒙特卡洛推理时扩展方法 3、[CL] DiscoLoop：融合离散嵌入与连续隐状态的循环架构用于多跳推理 4、[CL] 图原生强化学习借助概念重组实现可追踪的科学假设构建 5、[LG] 正确且恰当：结合可验证奖励与人类示例的语言模型训练

摘要：利用插件蒸馏技术揭示大语言模型的隐性偏见、基于拟蒙特卡洛的推理时计算扩展、面向多跳推理的离散嵌入与连续隐状态循环设计、图原生强化学习通过概念重组生成可追溯的科学假设、融合可验证奖励与人类示范的语言模型训练方法

S Talaei, A Chinta, D Khatri, A Karbasi… [斯坦福大学 & 德克萨斯大学奥斯汀分校]

以蒸馏促检测：通过插件蒸馏技术揭示大语言模型的隐秘偏见

要点:

主旨：应对关键领域部署的大语言模型中潜藏的“隐秘偏见”，这类偏见仅在特定话题下触发，常规检测手段难以发现。论文提出“Distill to Detect (D2D)”方法，利用极小容量的适配器放大分布差异，迫使隐秘偏见在生成文本中显现，从而被现有审计工具捕获。

创新：

贡献：

提升：

不足：

心得：

一句话总结：本文提出一种名为“Distill to Detect (D2D)”的新颖灰盒审计方法，反直觉地将极小容量的KV前缀适配器用作“信息漏斗”，成功滤除大语言模型中的伪装噪声，将原本隐藏极深的隐秘偏见放大并暴露于生成文本中，极大提升了AI安全审查的有效性。

在高风险任务中部署的语言模型可能潜在地偏向特定实体、品牌或观点，从而在大规模上引导用户决策。这类偏好偏见可由模型供应链中的任何参与者引入，当模型仅在相关话题上显露偏好，而在其他所有输入上与未修改的基础模型表现一致时，最为危险。近期研究表明，这些偏见可通过在语义无关数据上的上下文蒸馏进行迁移，其信号完全存在于软逻辑分布中，文本检查无法察觉。然而，防御方面临根本的不对称性：在不知道偏见话题的情况下，无论检查生成文本、内部表征还是模型权重，都无法可靠地发现隐秘偏好偏见。我们在此引入Distill to Detect (D2D)方法，通过将可疑模型与其基础模型之间的分布偏移蒸馏到一个插件（KV缓存前缀适配器）中，集中主导性差异并将偏见信号放大到生成文本中，从而揭露隐藏偏见。我们证明，D2D成功放大了隐秘模型的隐藏偏见，使其能在多种偏见类型中被可靠检测。我们还提出一个理论框架，通过逻辑分布偏移的Fisher加权投影来解释D2D的有效性，并得到实证观察的支持。通过将前缀调优适配器的容量瓶颈转化为检测工具，D2D为审计已部署语言模型中的隐藏行为提供了实用的构建模块。

https://arxiv.org/abs/2607.01208

M Y. Li, A Zhan, K Gandhi, N D. Goodman… [斯坦福大学]

QuasiMoTTo：基于拟蒙特卡洛的推理时扩展

要点:

主旨：解决大语言模型在推理时计算扩展和基于策略梯度的强化学习（如GRPO）中，因采用默认独立同分布采样而产生大量重复冗余解、严重浪费算力的问题。文章旨在通过引入相关性采样来提高样本效率。

创新：

贡献：

提升：

不足：

心得：

一句话总结: 本文创新性地引入拟蒙特卡洛方法生成“完全并行但相互排斥”的相关样本，在不改变语言模型边缘分布的前提下，打破了独立采样的算力浪费，不仅使推理时扩展的采样量减少近一半并逼近理论极限，还将GRPO等强化学习的训练效率大幅提升了50%。

通过为每个问题生成大量并行尝试来扩展推理计算，是提升语言模型能力的一种昂贵但可靠的手段。默认情况下，这些尝试独立生成，从而将推理计算浪费在冗余解上。这种浪费看似不可避免，毕竟独立性使得并行采样易于扩展。然而，这种权衡并非根本性的：存在丰富的采样器设计空间，能完全并行地生成相关但精确的样本。我们将此设计空间作为提高推理计算扩展和强化学习中样本效率的途径进行探索。具体而言，我们引入QuasiMoTTo，它使用相关样本作为独立同分布样本的直接替代。为生成这些样本，QuasiMoTTo将自回归采样重新参数化为逆CDF采样，并使用拟蒙特卡洛方法抽取底层均匀分布；由于QMC比独立同分布更均匀地分布均匀变量，所得样本以远更少的冗余覆盖输出空间。尽管批次是相关的，但每个样本的边缘分布符合语言模型，因此我们可将该批次用于策略梯度训练。我们的实证分析侧重于理解QuasiMoTTo如何高效地将计算转化为性能。为评估打破标准pass@k估计量依赖性的相关采样器，我们首先开发了无偏自助估计量。在四个推理基准上，QuasiMoTTo以少25–47%的样本匹配了独立同分布的pass@k准确率。引人注目的是，QuasiMoTTo经常达到适用于任何边缘保持采样器的pass@k上限。我们还将QuasiMoTTo应用于策略梯度强化学习（GRPO），以少50%的训练步骤匹配了独立同分布性能。这些收益来自更高的覆盖率，从而每批次产生更强的学习信号。

https://arxiv.org/abs/2607.01179

H Fu, T Guo, Z Wang, H Zhu… [加州大学伯克利分校]

DiscoLoop：面向多跳推理的离散嵌入与连续隐状态循环架构

要点:

主旨：本文旨在解决大语言模型在无思维链辅助下单次前向传播中进行隐式多跳推理能力薄弱的问题。文章指出普通循环Transformer存在“表征不对齐”瓶颈，并提出一种融合连续隐状态与离散嵌入特征的双通道循环架构——DiscoLoop，以提升模型的逻辑组合能力与分布外泛化能力。

创新：

贡献：

提升：

不足：

心得：

一句话总结: 本文深刻揭示了循环大模型在隐式多跳推理中因“连续隐状态与离散嵌入未对齐”而导致分布外泛化失败的表征瓶颈，并创新性地提出了融合连续与离散双通道的DiscoLoop架构，不仅完美解决了合成任务中的组合泛化难题，更在实际语言模型预训练中展现出卓越性能与训练效率。

当允许将中间步骤外化为思维链时，大语言模型在许多推理任务上取得强劲表现。然而，许多问题要求模型在生成答案前，于单次前向传播中内化多步推理。我们通过双跳推理这一代表性任务来研究此挑战，该任务要求模型在单次前向传播中组合多个参数化知识片段。标准非循环Transformer存在深度局部存储问题：早期层学到的知识在第二跳检索发生时不可用。我们发现循环Transformer通过重用相同记忆缓解了此问题，但仍泛化得不完美。我们表明，剩余的瓶颈是表征性的。在双跳推理任务中，首次循环通常使正确的桥梁实体近乎完美可解码，但相应的隐藏状态仍与桥梁标记嵌入对齐不佳。令人惊讶的是，一个简单的无需训练的重新对齐干预几乎弥合了泛化差距。基于此洞察，我们提出DiscoLoop，一种循环架构，其循环同时携带离散嵌入通道和连续隐藏状态通道。DiscoLoop在符号和合成语言多跳推理任务中以显著更少的训练步骤实现了近乎完美的准确率。当应用于真实世界预训练时，DiscoLoop比循环Transformer基线取得了更低的训练损失和更强的基准性能，表明混合通道设计可迁移到实际语言建模中。

https://arxiv.org/abs/2607.00341

S Pal, S Sourav, T Ghosal, M J. Buehler [麻省理工学院 & 橡树岭国家实验室]

图原生强化学习通过概念重组实现可追溯的科学假设生成

要点:

主旨：解决大型语言模型在材料科学等领域的科学假设生成任务中，中间推理过程不透明、因果关系不明确以及难以验证的问题。通过引入图结构化推理和强化学习，提高AI系统在科学发现中的可追溯性和逻辑严密性。

创新：

贡献：

提升：

不足：

心得：

一句话总结：本文提出一种结合强化学习（GRPO）的图原生推理框架Graph-PRefLexOR，强制大模型在多阶段推理中显式构建知识图谱，显著提升了材料科学领域假设生成的逻辑透明度、语义多样性和思考结论的一致性，并通过测试时计算实现了创新的长程概念重组。

加速材料发现需要AI系统能通过多步骤、领域扎实的推理生成科学有效的假设。标准大型语言模型对开放的材料设计问题常产生流畅但可追溯性弱的回应，难以判断最终答案是否由连贯的中间推理支撑。我们开发了Graph-PRefLexOR，一个图原生推理模型家族，使用分组相对策略优化进行微调，将推理组织为机制探索、图构建、模式提取和假设综合等显式阶段。此设计将神经语言生成与符号关系结构相连接，使因果联系得以构建、检查和复用。在材料科学与力学文献的100个开放问题上，GraphPRefLexOR较对应基础模型实现了40-65%的提升，推理可追溯性增益最大。嵌入分析显示更广泛的语义探索，语义多样性约为基线的2–3倍。语义回溯和逐层隐藏状态分析进一步显示结构化推理与最终答案间更强的对齐。最后，测试时图扩展揭示，额外计算主要增加了有界语义空间内的长程概念重组，而非简单扩展语义覆盖。这些结果确立了图原生强化学习作为通向可解释AI系统的路径，用于材料设计及其他科学应用中的科学假设生成。

https://arxiv.org/abs/2607.00924

M Damani, I Puri, I Shenfeld, J Andreas [麻省理工学院]

结果与路径并重：结合可验证奖励与人类示范的语言模型训练

要点:

主旨：解决大型语言模型在基于可验证奖励进行强化学习时，过度追求得分而牺牲输出的“类人”属性，甚至产生“奖励作弊”的问题。文章旨在提出一种方法，让模型不仅“做对”，而且“以正确的方式做对”。

创新：

贡献：

提升：

不足：

心得：

一句话总结：本文提出VARL框架，巧妙结合可验证奖励与对抗性模仿学习，并通过独特的乘法门控奖励设计，让大语言模型在提升逻辑正确率的同时，完美保持了人类专家级的输出风格和多样性，有效遏制了“奖励作弊”现象。

基于可验证奖励的强化学习已成为在具有明确定义成功指标的任务（如代码生成和数学推理）上训练语言模型的强大范式。然而，当前的RLVR方法仅优化可客观评分的内容，常忽略人类输出中主观的、不可验证的方面，如风格和结构。此局限性导致众所周知的失败模式，如多样性崩溃、不自然的回应和奖励作弊。我们提出一个对抗性生成器-判别器框架，用从人类示例中学到的信号来增强可验证奖励。生成器模型使用RL进行训练，以同时最大化任务准确率和从判别器导出的对抗性奖励。判别器与生成器策略一同训练，学习区分人类编写的输出与模型生成的输出。判别器作为人类输出分布的学习代理，为难以形式化为标量奖励的生成方面提供反馈。在包括错误修复和开放式生成等多个领域，我们的方法持续改善不可验证属性，同时保持RLVR的准确率增益。在错误修复中，我们的方法产生的解相比RLVR基线具有显著更低的编辑距离，同时匹配最终性能。在故事生成中，我们的方法显著提升了胜率，同时产生多样且更类人的故事。在一个简单的奖励作弊基准中，我们的方法几乎消除了模型不当行为，同时保持高基准分数。这些结果表明，我们的方法桥接了RL和SFT，为共同优化任务的可验证和不可验证属性提供了可扩展的路径。

https://arxiv.org/abs/2607.01181

← 上一篇：AI时代三大关键领域：算力、储能与电力的核心专业解析下一篇：AI浪潮来袭：快消行业如何借势突围与升级 →