AI推理新突破：多智能体安全与规模化并行发展

发布时间：2026-05-24 09:51阅读：10

一句话总结：推理规模化训练迎来"多样性"新维度，VPO 以向量奖励函数解锁测试时搜索多样性上限；Gated DeltaNet-2 革新线性注意力读写机制，多智能体KV共享安全框架LCGuard 填补隐私保护空白，CVPR 2026 连发具身智能两项重磅——手势控制 GesVLA 与自意识导航 AwareVLN 同步登场。

机构/作者： Ryan Bahlous-Boldi et al.（多机构联合）主题：训练语言模型为多样化测试时搜索做好准备【【强化学习】【测试时扩展】】内容摘要：当前 LLM 后训练范式优化单一标量奖励，导致模型输出低熵分布，在推理时搜索（如 AlphaEvolve）中无法展现足够多样性。本文提出 VPO（向量策略优化），利用实际场景中常见的向量奖励（如代码生成的多个测试用例正确性、多个用户画像或奖励模型），训练策略显式为多样化下游奖励函数做好准备。VPO 替换 GRPO 优势估计器，训练 LLM 输出一组解，使各解在向量奖励空间的不同权衡点上专业化。在四个任务上，VPO 在测试时搜索（pass@k、best@k）上匹配或超越最强标量RL基线，且随搜索预算增长优势持续扩大；对于进化搜索，VVO 能解决 VPO 模型完全无法解决的问题。随着测试时搜索日益标准化，为多样性而优化或将成为后训练的默认目标。

机构/作者： Ryan Bahlous-Boldi et al.（多机构联合）主题：训练语言模型为多样化测试时搜索做好准备【【强化学习】【测试时扩展】】内容摘要：当前 LLM 后训练范式优化单一标量奖励，导致模型输出低熵分布，在推理时搜索（如 AlphaEvolve）中无法展现足够多样性。本文提出 VPO（向量策略优化），利用实际场景中常见的向量奖励（如代码生成的多个测试用例正确性、多个用户画像或奖励模型），训练策略显式为多样化下游奖励函数做好准备。VPO 替换 GRPO 优势估计器，训练 LLM 输出一组解，使各解在向量奖励空间的不同权衡点上专业化。在四个任务上，VPO 在测试时搜索（pass@k、best@k）上匹配或超越最强标量RL基线，且随搜索预算增长优势持续扩大；对于进化搜索，VPO 能解决 GRPO 模型完全无法解决的问题。随着测试时搜索日益标准化，为多样性而优化或将成为后训练的默认目标。

← 上一篇：AI 教育伦理指南②：四大准则与三类风险如何筑牢安全防线？下一篇：四大咨询公司提高AI技术门槛 →