工具推理_标签-酷阅新闻

arXiv AI论文精选 2026-05-10

1. 人机交互新基准：AI智能体何时应主动求助？原文标题: HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help? 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09408v1 当前前沿编码智能体虽能在信息完备时处理复杂任务，但在面对信息残缺或语义模糊的场景时往往失效。问题根源并非能力欠缺，而是判断力的缺失：无法准确识别应独立决策还是应寻求外部支持。现有评测体系对

2026-05-11 07:18:17 | 11 阅读

2025年度AI智能体全景洞察：技术突破与安全防护深度解析

2026年04月22日星期三The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems面对AI智能体生态体系复杂多变、发展迅猛且文档标准不一的现状，研究团队构建了2025年度AI智能体发展指数。该指数通过整合公开资料及与开发者的直接沟通，系统梳理了30个领先AI智能体的研发背景、架构设计、功能边界、应用生态及安全防护机制。分析发现，各厂商在信息披露方面存在明显差异，尤其在

2026-04-22 15:15:57 | 9 阅读