标签

AI论文速递|工具升级≠能力提升:自进化大模型智能体的真实进化效能解析

发布时间:2026-06-03 06:31来源:微信阅读:3

2026年06月02日星期二

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

👍 9

本研究深入剖析大语言模型(LLM)智能体在工具(如提示词、技能)自我进化过程中呈现的两类能力:工具更新与工具获益。核心结论如下:1)工具更新能力与模型底层能力无显著关联,不同规模模型生成的更新带来的性能提升相近;2)工具获益能力呈现非单调特征,中等能力水平的模型获益最为显著,而能力较弱的模型因难以有效激活或遵循工具指令导致获益有限。研究建议将能力资源优先配置于任务执行智能体而非进化模块,并需专项训练提升工具调用与长上下文指令遵循能力。

Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

👍 10

为解决可验证多模态深度研究中开放式内容合成与图文证据交错编排的技术难题,本文提出多智能体框架\textsuperscript{Ptah}。该方案通过规划、研究、写作三大阶段,协同专用智能体构建视觉感知方案、收集基于论点的证据、在"视觉工作记忆"中维护