arXiv AI论文精选 2026-05-10

发布时间：2026-05-11 07:18阅读：11

1. 人机交互新基准：AI智能体何时应主动求助？原文标题: HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help? 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09408v1 当前前沿编码智能体虽能在信息完备时处理复杂任务，但在面对信息残缺或语义模糊的场景时往往失效。问题根源并非能力欠缺，而是判断力的缺失：无法准确识别应独立决策还是应寻求外部支持。现有评测体系对此视若无睹——它们仅提供清晰无歧义的指令并单一评估执行准确率，导致通过猜测缺失信息而偶然答对的智能体与主动核实的智能体得分相同。我们提出HiL-Bench（人类在环基准），专门用于评估选择性求助能力。每个测试案例均包含经人工标注的障碍因素（信息缺失、表述模糊、相互矛盾），这些障碍仅在逐步探索过程中才会暴露，无法提前预判。核心评估指标Ask-F1（提问精度与障碍召回率的调和均值）有效衡量了过度提问与盲目猜测之间的平衡；其设计机制防止了通过频繁提问进行投机取巧的可能。在软件工程和文本转SQL两大领域的实验揭示了普遍存在的判断缺陷：所有前沿模型在面临是否应提问的抉择时，均无法恢复其全信息条件下的表现。深入分析发现三类典型失败模式：缺乏不确定性感知导致的过度自信错误；能识别高不确定性但仍持续判断失误；泛化能力差且缺乏自我修正机制的大量求助行为。这些一致性结果表明，问题源于模型层面的根本缺陷，而非特定任务的偶发状况。基于塑造的Ask-F1奖励信号进行强化学习微调表明判断力可通过训练改善：32B参数模型在求助合理性和任务完成率上均有提升，且效果可迁移至其他领域。该模型并未习得特定领域的提问时机启发式规则，而是真正掌握了识别无法解决的不确定性并据此调整行为的能力。

2. 视觉引导提示学习：应对标签噪声的新框架原文标题: Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09532v1 提示学习作为视觉语言模型的参数高效微调方案，其在标签噪声环境下的鲁棒性研究仍存在显著空白。图像数据蕴含更丰富可靠的语义线索，在标签出错时更具抗干扰能力，而提示本身对标签噪声却极为脆弱。基于此观察，我们提出VisPrompt框架——专为噪声标签场景设计的轻量级视觉引导提示学习方法。该方法设计了跨模态注意力机制，将视觉语义反向融合到提示表征中，使提示令牌能够有针对性地聚合与当前样本相关的视觉信息，通过锚定提示学习获取稳定的实例级视觉证据，从而降低对标注错误的敏感度。针对统一注入视觉信息导致不同样本处理不稳定的问题，尽管各样本的视觉线索质量存在差异，我们进一步引入轻量级条件调制机制，动态调节视觉信息注入强度，在文本语义先验与图像实例证据之间达成更稳健的平衡。该框架有效抑制噪声干扰，降低提示更新的不稳定性，缓解对错误标注样本的过度记忆。在合成数据和真实场景的标签噪声条件下的广泛实验表明：VisPrompt在七个基准数据集上普遍超越现有基线方法，展现更强鲁棒性。代码已开源：https://github.com/gezbww/Vis_Prompt

3. E3-TIR框架：提升工具集成推理训练效率原文标题: E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09455v1 大语言模型虽展现出强大的工具集成推理（TIR）能力，但现有训练范式面临双重困境：零规则学习（Zero-RL）因缺少先验指引导致探索效率低且模式退化；而基于安全前缀微调（SFT）的后续规则学习（SFT-then-RL）则受限于合成数据成本高昂和低熵坍塌引发的性能瓶颈。对此我们提出E3-TIR（增强经验exploitation推理），一种适用于训练初始阶段的热身方案。该方法通过动态整合三类经验：专家前缀引导、专家引导交互、自主探索扩展（Expert Prefixes, Expert Guided, Self-Exploration），并采用以专家锚点为中心的多分支探索策略配合混合策略优化机制，有效缓解分布偏移问题并化解共享前缀引发的优化冲突。实验显示E3-TIR在工具使用任务中较传统方法提升6%性能，仅需10%的合成数据成本；综合ROI指标（性能、数据成本与训练效率）实现1.46倍增益。代码开源地址：https://github.com/yuki-younai/E3-TIR

4. 测试时推理优化：过程奖励代理新方法原文标题: Process Reward Agents for Steering Knowledge-Intensive Reasoning 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09482v1 知识密集型领域的推理任务面临独特挑战：中间推理步骤难以进行局部验证（与数学或代码不同，验证步骤正确性可能需要综合多个外部知识源的线索）。这导致细微错误可能在推理链条中持续传播而无法被及时发现。已有研究提出过程奖励模型（PRM）及其检索增强变体，但这些方法仅在推理完成后对完整轨迹进行事后评分，无法融入动态推理过程。本文提出过程奖励代理（PRA），一种适用于冻结策略的测试时方法：与先前的检索增强PRM不同，PRA支持在解码过程中逐步生成候选轨迹并进行排序筛选。实验表明PRA在多个医学推理基准测试中表现优异：使用Qwen3-4B模型在MedQA数据集上达到80.8%准确率（4B规模下的最佳成绩）。更重要的是PRA能泛化到不同参数规模的冻结策略模型（0.5B到8B），无需更新策略模型即可提升25.7%准确率。该工作提出新范式：将冻结推理器与领域特定奖励模块解耦，使得在新复杂领域部署推理器时无需重新训练策略模型。

5. 视觉语言模型置信度校准新方案原文标题: VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09529v1 大型视觉语言模型（LVLMs）在多模态推理任务中表现优异，但频繁产生过度自信的幻觉和错误回答，限制了其在高风险场景中的应用。现有基于语言模型的置信校准方法主要针对纯文本模型设计：它们通过二元答案层正确性优化单一全局置信评分。这种方案与LVLMs不匹配：预测错误可能源于感知失败或推理错误（即使感知正确），单一置信评分混淆了这两

← 上一篇：AI 重塑漏洞披露：安全攻防进入读秒时代下一篇：2026中国AI具身智能技术路线图 →