置信校准_标签-酷阅新闻

arXiv AI论文精选 2026-05-10

1. 人机交互新基准：AI智能体何时应主动求助？原文标题: HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help? 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09408v1 当前前沿编码智能体虽能在信息完备时处理复杂任务，但在面对信息残缺或语义模糊的场景时往往失效。问题根源并非能力欠缺，而是判断力的缺失：无法准确识别应独立决策还是应寻求外部支持。现有评测体系对

2026-05-11 07:18:17 | 11 阅读