AI推理新突破:多智能体安全与规模化并行发展
一句话总结:推理规模化训练迎来"多样性"新维度,VPO 以向量奖励函数解锁测试时搜索多样性上限;Gated DeltaNet-2 革新线性注意力读写机制,多智能体KV共享安全框架LCGuard 填补隐私保护空白,CVPR 2026 连发具身智能两项重磅——手势控制 GesVLA 与自意识导航 AwareVLN 同步登场。
机构/作者: Ryan Bahlous-Boldi et al.(多机构联合) 主题: 训练语言模型为多样化测试时搜索做好准备【【强化学习】【测试时扩展】】 内容摘要: 当前 LLM 后训练范式优化单一标量奖励,导致模型输出低熵分布,在推理时搜索(如 AlphaEvolve)中无法展现足够多样性。本文提出 VPO(向量策略优化),利用实际场景中常见的向量奖励(如代码生成的多个测试用例正确性、多个用户画像或奖励模型),训练策略显式为多样化下游奖励函数做好准备。VPO 替换 GRPO 优势估计器,训练 LLM 输出一组解,使各解在向量奖励空间的不同权衡点上专业化。在四个任务上,VPO 在测试时搜索(pass@k、best@k)上匹配或超越最强标量RL基线,且随搜索预算增长优势持续扩大;对于进化搜索,VVO 能解决 VPO 模型完全无法解决的问题。随着测试时搜索日益标准化,为多样性而优化或将成为后训练的默认目标。
机构/作者: Ryan Bahlous-Boldi et al.(多机构联合) 主题: 训练语言模型为多样化测试时搜索做好准备【【强化学习】【测试时扩展】】 内容摘要: 当前 LLM 后训练范式优化单一标量奖励,导致模型输出低熵分布,在推理时搜索(如 AlphaEvolve)中无法展现足够多样性。本文提出 VPO(向量策略优化),利用实际场景中常见的向量奖励(如代码生成的多个测试用例正确性、多个用户画像或奖励模型),训练策略显式为多样化下游奖励函数做好准备。VPO 替换 GRPO 优势估计器,训练 LLM 输出一组解,使各解在向量奖励空间的不同权衡点上专业化。在四个任务上,VPO 在测试时搜索(pass@k、best@k)上匹配或超越最强标量RL基线,且随搜索预算增长优势持续扩大;对于进化搜索,VPO 能解决 GRPO 模型完全无法解决的问题。随着测试时搜索日益标准化,为多样性而优化或将成为后训练的默认目标。