AI应用论文精选|数据密集场景下代码智能体的能力边界评估
2026年06月17日星期三
CODA-BENCH: 代码智能体能否应对数据密集型任务?
🤗 11
现有评估体系将代码能力与数据处理能力分开考量,与实际开发环境存在显著差异。本文推出首个在数据密集型环境中综合评估代码与数据智能的基准测试CODA-BENCH。它基于Kaggle平台构建Linux沙箱环境,包含1,009个任务案例,每个环境平均配置980个文件,重现真实数据规模与噪声特征。评估结果显示,即使是最先进的智能体也难以高效融合数据发现与代码执行,成功率仅为61.1%,揭示了当前智能体在数据密集型任务处理方面的明显短板。
The Arbiter Agent: 持续监控多智能体对话以检测新兴错位行为
🤗 11
多智能体系统在交互过程中可能产生个体测试阶段未暴露的错位现象。本文提出仲裁者智能体方案,在有限“审查预算”约束下实时监控对话流程,通过等待、询问、检查内部信息或记录可疑行为等方式,识别错位参与者并生成分析报告。在五种对话场景(包括高风险金融咨询和多智能体串通)的测试表明,仲裁者能在对话终止前可靠地检测出异常智能体,主动检查工具显著提升了检测精度与响应速度。研究证实,持续的、预算感知的监控机制能有效捕获错位行为,监督多智能体系统应将审计者定位为流程的主动参与者。
Where Did It Go Wrong? 基于语义状态追踪的网页智能体过程级评估
🤗 10
现有网页智能体评估体系仅关注最终成功率,忽视了过程信息价值。本文提出WebStep基准测试,包含1,800个任务案例,通过自动语义状态追踪实现过程级分析。基于语义轨迹的研究表明:过程指标能揭示结果评估无法识别的差异;技能分解暴露了同一网站内隐藏的反向技能排序;分岔分析定位了导致任务失败的关键错误,且该错误具有智能体特异性。研究发现,随着任务复杂度提升,智能体成功率差异显著扩大。该研究为网页智能体评估提供了细粒度、可操作的改进方向。
迈向AI研究的端到端自动化
科学自动化是AI领域的长期愿景。本文展示了目前最接近端到端自动化完整研究生命周期(从构思到发表)的系统——AI Scientist。它能够生成研究构想、编写代码、运行实验、绘制图表分析数据、撰写完整科学论文并进行自主同行评审。其生成的论文在主要机器学习会议研讨会(录取率70%)的首轮评审中获得通过。系统在两种配置下进行评估:基于人工提供代码模板的聚焦模式,以及利用智能体搜索进行开放式探索的无模板模式。这一成就展示了AI日益增长的科学研究贡献能力,可能引发研究范式的转变。
编码智能体时代的可执行世界模型用于ARC-AGI-3
本文评估了一个用于ARC-AGI-3的初步编码智能体系统。该智能体维护一个可执行的Python世界模型,根据历史观察验证模型,并朝着更简单的抽象进行重构(作为类似MDL简约偏好的实用代理),最后通过模型进行行动前规划。系统设计简洁直接,未使用任何游戏特定逻辑。在25个公开游戏上的测试显示,智能体完全解决了7个游戏,在6个游戏上相对人类动作效率超过75%,平均RHAE为32.58%。结果初步证明,验证器驱动的可执行世界模型是ARC-AGI-3智能体的一种有前景的方法。
SWE-Marathon: 智能体能否自主完成超长时域软件工作?
当前智能体基准主要评估短期任务,难以衡量其在规划、长上下文理解和记忆使用等方面的能力。本文引入SWE-Marathon基准,包含20个横跨软件工程及相关技术领域的长时程任务。每个任务配备唯一可执行环境、人工编写的参考解决方案和多层验证套件。记录到的智能体尝试平均消耗2720万总token,远超现有基准。当前前沿编码智能体任务解决率低于30%,失败常源于自我验证不足、自我报告不可行及过早终止。此外,13.8%的尝试中观察到奖励黑客行为。该基准包含对抗性测试套件审查和多层检查,旨在防止捷径解决方案。
Rosetta Memory: 跨LLM智能体的自适应记忆系统
现有记忆系统通常以特定LLM为核心设计,但在实践中用户常在不同LLM间切换,导致上游记忆需由下游模型消费。本文从以记忆为中心的LLM适应视角出发,解决上游-下游记忆适应问题。我们设计了两个在写入和读取侧协同训练的配置文件条件化算子,以优化记忆的存储和呈现方式。为确保算子能泛化至广泛的LLM,提出了最小增益采样课程,在训练中优先服务获益最少的LLM。为更准确衡量算子的贡献而非LLM自身能力,设计了性能差距奖励机制。在多个数据集上的实验表明,该模型始终优于基线,并在未见模型替换下保持稳健。
FASE: 代码质量的快速自适应语义熵方法
多智能体代码生成因LLM幻觉和错误传播而影响系统可靠性。语义熵提供了一种无需真实答案即可量化不确定性的原则性方法,但现有方法依赖昂贵的LLM驱动等价性检查。本文提出快速自适应语义熵(FASE),一种基于结构和语义差异图最小生成树来近似功能正确性的新度量。在HumanEval和BigCodeBench上的评估表明,FASE优于基于LLM蕴含的最先进语义熵方法,在使用Qwen3-Embedding-8B模型时,其斯皮尔曼相关系数平均提升25%,ROCAUC分数相对Pass@1提升19%。此外,FASE消除了昂贵的LLM等价性评估,仅需传统方法约0.3%的运行时间成本,为实际多智能体工作流中的不确定性量化提供了实用、经济的解决方案。
MAVEN: 提升智能体工具调用的泛化能力
智能体工具调用环境的泛化能力是可靠智能推理系统的核心挑战。本文提出MAVEN,一个轻量级符号推理框架,支持结构化分解、自适应工具编排与中间验证。在多个工具调用基准及新提出的压力测试基准MAVEN-Bench上评估,MAVEN将其基础模型GPT-OSS-120b的准确率从48%提升至71%,且无需额外训练。结果表明,这种以验证为中心的轻量级框架能增强组合推理能力,其性能与前沿闭源基线相当,而成本估计仅为约十分之一。
Deep Researcher Agent: 零成本监控的全天候深度学习实验自主框架
本文提出开源框架Deep Researcher Agent,使LLM智能体能自主进行全天候深度学习实验。其核心创新包括:零成本监控范式、两级恒定大小内存架构以及最小工具集的主从多智能体设计。在持续30多天的部署中,该框架自主完成了500多个实验周期,在单个项目中通过200多次自动化实验将基线指标提升了52%,且日均LLM成本仅为0.08美元。
迈向扎根的自主研究:基于已发表计算物理论文的端到端LLM微型研究循环
本文聚焦于物理科学研究的最小单元——微型研究循环,即智能体阅读论文、复现、批判并扩展它。我们在规模和深度两个层面测试该循环:在规模上,智能体对111篇开放获取计算物理论文自主运行“阅读-规划-计算-比较”循环,无需被要求批判即在约42%的论文中提出了实质性质疑;在深度上,针对一篇关于二维材料MOSFET多尺度模拟的《自然·通讯》论文,智能体自主运行了原文缺失的新计算,并生成了可发表的评论,修正了原文的核心结论。
Think it, Run it: 通过自修复多智能体AI实现自主ML流水线生成
本文旨在开发一个统一的多智能体架构,以从数据集和自然语言目标自动生成端到端的机器学习(ML)流水线,提升效率、鲁棒性和可解释性。提出的五智能体系统负责数据剖析、意图解析、微服务推荐、有向无环图(DAG)构建与执行。它集成了基于代码的检索增强生成(RAG)、结合多标准的可解释混合推荐器、基于大语言模型(LLM)错误解释的自修复机制以及从执行历史中自适应学习。在150个ML任务上的评估显示,该系统实现了84.7%的端到端流水线成功率,优于基线方法,并通过自修复提升了鲁棒性,缩短了工作流开发时间。
SpaceMind: 用于自主在轨服务的模块化自演进具身视觉-语言智能体框架
为满足自主在轨服务对具身智能体的需求,本文提出了SpaceMind,一个模块化且自演进的视觉-语言模型(VLM)智能体框架。它将知识、工具和推理分解为三个可独立扩展的维度:具有动态路由的技能模块、可配置的MCP工具以及可注入的推理模式技能。通过MCP-Redis接口层,同一代码库无需修改即可在仿真和物理硬件上运行;技能自演进机制能将操作经验提炼为持久化技能文件而无需微调模型。在包含退化条件的广泛测试中,该框架表现出强大的鲁棒性和任务成功率,并实现了零代码修改向物理机器人的成功迁移。
Making Sense of AI Agents Hype: 实践者的采用、架构与经验总结
为帮助实践者理解智能体系统在工业界的实际设计,本研究回顾分析了138个关于AI代理的实践者会议演讲。研究旨在:1)探究企业如何采用基于代理的架构;2)识别反复出现的架构策略与模式;3)分析用于实现和运营LLM驱动代理系统的应用领域与技术。通过对这些实践经验的梳理,为业界理解和构建代理系统提供了实证参考。
Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies
视觉-语言-动作(VLA)模型对指令措辞敏感,其失败模式难以预测。为提高VLA的鲁棒性,本文提出Q-DIG,它结合质量多样性(QD)技术与视觉语言模型(VLM),可扩展地生成多样且与任务相关的对抗性指令以暴露VLA行为漏洞。在多个仿真基准上的结果表明,Q-DIG相比基线方法能发现更多样、有意义的失败模式,并且利用生成的指令对VLA进行微调能提升任务成功率。真实世界评估与用户研究进一步验证了其有效性。
Embodied Science: 通过具身AI闭合发现循环
当前AI科学预测方法常将发现视为孤立任务,与依赖物理实验循环的现实脱节。本文主张“具身科学”范式,将科学发现重构为智能推理与物理执行紧密耦合的闭环。我们提出统一的感知-语言-行动-发现(PLAD)框架,其中具身智能体感知实验环境、推理科学知识、执行物理干预并内化结果以驱动后续探索。通过将计算推理扎根于鲁棒的物理反馈,该方法弥合了数字预测与实证验证间的鸿沟,为生命与化学科学的自主发现系统提供了路线图。
The Robot's Inner Critic: 通过基于VLM的重规划实现社交行为的自我精炼
传统机器人社交行为生成依赖预定义动作或人工反馈,灵活性与自主性有限。本研究提出CRISP框架,机器人利用视觉语言模型(VLM)作为“类人社交批评家”来自主批评并重规划自身动作。该框架包含从描述文件解析关节、生成行为计划、参考视觉信息生成底层控制代码、VLM评估社交适当性以及基于奖励的迭代精炼。用户研究表明,该方法在多种机器人平台和场景下,获得了比先前方法显著更高的偏好度与情境适当性评分,最小化人工干预的同时扩展了自主交互能力与跨平台适用性。
迈向智能体注入的软件生态系统
为充分发挥AI智能体在软件开发中的潜力,需重构现有软件生态。本文提出构建“智能体赋能软件生态系统”(AISE),其基于三大支柱:首先是AI智能体本身,其能力在过去五年已从简单的代码补全演进至能执行复杂的独立开发任务;其次是生态基础设施,旨在支持智能体间的协作与集成;最后是新的开发范式。本文概述了AISE的愿景、关键组件与实现路径,旨在推动软件开发向更自主、协同的方向演进。
PRAM-R: 用于自适应自动驾驶的基于LLM引导模态路由的感知-推理-行动-记忆框架
为解决多模态感知计算成本高的问题,本文提出PRAM-R框架,采用异步双循环设计:快速反应循环负责感知与控制,慢速审慎循环负责推理驱动的模态选择和记忆更新。其中,LLM路由器根据环境上下文和传感器诊断选择并加权模态,分层记忆模块则保持时间一致性并支持长期适应。合成压力测试表明,基于滞后的稳定化将路由振荡降低了87.2%。在nuScenes数据集上的真实世界验证显示,在复杂城市场景中,模态使用减少6.22%,记忆召回率达20%,同时保持了与全模态基线相当的轨迹精度。
迈向具有工具对齐视觉-语言-动作模型的长时域具身智能体
针对视觉-语言-动作(VLA)模型在长程任务中面临扩展闭环规划与多样物理操作双重负担的局限,本文提出“VLA即工具”策略。该策略将负担分配至高层的视觉语言模型(VLM)智能体(负责时序推理)与一系列专用的VLA工具(负责局部物理操作)之间。我们引入了VLA工具族接口以实现紧密耦合,并提出了工具对齐的后训练方法(TAPT)来获得忠实遵循调用的多样化VLA工具。实验表明,该方法在LIBERO-Long和RoboTwin任务上显著提升了成功率,并大幅增强了调用保真度。