AI应用论文精选：WindowsWorld与智能体研究进展（5月7日）

发布时间：2026-05-07 11:57阅读：13

2026年05月07日星期四

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

🤗 9

现有GUI智能体基准多集中在单一应用的独立任务，往往忽略真实工作中常见的跨应用流程。为补足这一短板，本文提出WindowsWorld基准。该基准基于多智能体框架还原16类职业场景，构建181个多步骤任务，并统计每个任务平均包含5.0个子目标，其中跨应用任务占比达到78%。实验结果显示，当前处于领先水平的智能体在跨应用任务上的表现偏低（<21%），尤其在涉及跨≥3个应用的条件判断与推理时更为吃力，且整体执行效率也不理想。该基准旨在为评测复杂专业流程中的GUI智能体能力提供一套系统化工具。

Towards Multi-Agent Autonomous Reasoning in Hydrodynamics

针对单智能体系统（SAS）在科学工作流中容易出现上下文拥挤、可靠性随之下降的问题，本文给出一个面向流体动力学的多智能体系统（MAS）原型。方法通过层执行图（LEG）来协调规划、专业与整合智能体：在规划阶段不采用硬编码控制逻辑，而是借助自然语言启发式来搭建查询专属拓扑。以Claude Sonnet作为核心模型，在37项跨复杂度查询评估中，系统获得了93.6%的事实精确度与100%的通过率；同时在并行扩展或部分数据源失效的条件下表现出较强的性能韧性。总体来看，借助规划器引导的图结构进行多智能体编排，能够有效缓解单体架构的上下文瓶颈。

CoRAL: Contact-Rich Adaptive LLM-based Control for Robotic Manipulation

针对大语言模型（LLM）与视觉语言模型（VLM）在接触式操作场景中缺乏物理约束与自适应控制能力的不足，本文提出CoRAL模块化框架。该方案把LLM放在成本函数设计的位置，而非直接充当控制器：它为采样运动规划器（MPPI）生成具有情境感知的目标函数，并通过神经符号适配环路在运行过程中持续优化物理参数估计。其分层结构把高层语义推理与底层反应式执行进行解耦，同时引入可复用的检索记忆单元，用以复用既有成功策略。仿真和真实硬件实验表明，CoRAL在未见接触式任务上的平均成功率可超过现有VLA与基础模型规划基线50%以上，并能有效缩小仿真到现实的差距。

An End-to-end Architecture for Collider Physics and Beyond

本文提出了首个能够端到端完成对撞机现象学任务的语言驱动智能体系统ColliderAgent。系统采用解耦且领域无关的设计思路：只依赖自然语言提示与标准物理符号，就能从理论层面的拉格朗日量推导到最终现象学输出，全流程无需依赖特定软件包的代码实现。该系统通过分层多智能体推理层与统一计算后端Magnus进行耦合。在轻夸克、类轴子粒子分析等多个代表性场景上进行了验证，结果表明该架构为实现对撞机物理及宇宙学等方向更自动化、更可扩展且更可复现的研究流程提供了明确路径。

Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments

为了提升机器人在杂乱场景中的操作效率并增强方法的模块化能力，本文提出Unveiler框架，实现高层空间推理与底层动作执行的解耦。框架核心为基于Transformer的空间关系编码器（SRE），用于按顺序识别并决策需要移除的关键障碍；随后由具备旋转不变性的动作解码器完成执行。与端到端方案或大模型基线相比，该方法在参数量与推理时间上更经济，同时在密集杂乱环境下的目标取回成功率更突出：仿真条件下最高可达97.6%，并可实现零样本迁移到真实场景。

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

针对LLM在CUDA内核优化环节不如编译器的问题，本文提出CUDA Agent系统。该方法结合可扩展的数据合成、技能增强的开发环境以及强化学习算法，对模型的内核优化能力进行系统性提升。实验显示，其在KernelBench基准上实现对torch.compile的全面超越，并在最具挑战性的Level-3任务中，比Claude Opus等强闭源模型领先约40%。

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

针对现有基于大语言模型（LLM）的多智能体系统（MAS）缺少上线后的动态适应能力，本文提出MASFly框架。该框架包含两个关键机制：其一是基于检索增强的标准作业程序（SOP）实例化，通过成功协作模式库来为新查询组装出定制化的MAS；其二是经验驱动的监督策略，由Watcher智能体依据个性化经验池持续监控行为并进行实时干预。在TravelPlanner等基准中，MASFly取得了当前最优水平的性能（成功率61.7%），同时展现出较强的任务适应性与鲁棒性。

Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management

开放无线接入网（O-RAN）由于组件解耦与开放接口而带来更复杂的运维与控制挑战，本文提出多尺度智能体AI框架。框架将无线接入网智能组织成分层协调层次，并分别对应跨非实时（Non-RT）、近实时（Near-RT）与实时（RT）的控制环路：在Non-RT RIC中，LLM智能体把运营商意图转成策略；在Near-RT RIC中，小型语言模型（SLM）智能体进行低延迟优化；靠近分布式单元的无线物理层基础模型（WPFM）智能体提供快速推理支持。概念验证结果表明，该框架在非平稳条件下可稳定运行，并在意图驱动的切片资源控制场景中表现出有效性。

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

为推动LLM智能体在科学研究中的落地应用，本文提出AIRS-Bench（AI科研基准）。该基准包含20项来自前沿机器学习论文的任务，覆盖语言建模、数学、生物信息学以及时间序列预测等方向。AIRS-Bench用于衡量智能体在完整科研生命周期中的表现，包括想法生成、实验分析与迭代优化，并且不提供基线代码。基线评测显示，智能体在4项任务上超过人类最佳水平，但在其余16项中未能达标，说明该基准仍远未被充分覆盖，存在明显的改进空间。任务定义与评估代码均已开源。

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

本文对LLM智能体技能这一新兴研究方向进行了系统性综述。所谓智能体技能，是一组可组合的指令、代码与资源包，能够在不依赖重新训练的前提下扩展动态能力。文章从四个方面展开：（1）架构基础，覆盖技能规范、渐进式上下文加载以及其与模型上下文协议（MCP）的互补性；（2）技能获取，包括基于技能库的强化学习、自主技能发现与组合式技能合成；（3）规模化部署，涉及计算机使用智能体（CUA）栈、GUI grounding进展以及OSWorld等基准；（4）安全方面，通过分析指出26.1%的社区贡献技能可能存在漏洞，并提出采用四层门控权限模型的技能信任与生命周期治理框架。最后，文章提出了面向可信且可自我演化技能生态系统的研究路线。

MARS: Modular Agent with Reflective Search for Automated AI Research

自动化AI研究的特点在于计算成本高（例如模型训练）且性能归因往往难以解释，这使其与一般软件工程存在差异。现有基于LLM的智能体容易生成忽视执行开销与因果关系的单一脚本。为解决上述问题，本文提出MARS（具备反思搜索能力的模块化智能体），这是一个面向自主AI研究的框架。其三大关键设计为：（1）采用带成本约束的蒙特卡洛树搜索（MCTS）进行预算感知规划，在性能与执行开销之间实现平衡；（2）模块化构建流程，使用“设计-分解-实现”的方式来管理复杂研究代码库；（3）比较性反思记忆，通过分析不同解决方案的差异来提炼更有价值的见解，从而缓解信用分配问题。实验结果表明，在可比设置下，MARS在MLE-Bench上达到开源框架中的最先进水平，并且与全球排行榜的顶级方法保持竞争力。此外，该系统还能产生定性的“顿悟”现象：63%的有效经验教训来自跨搜索路径的迁移，说明智能体能对见解进行泛化。

EvoMaster: A Foundational Evolving Agent Framework for Agentic Science at Scale

针对现有智能体框架在结构上偏静态、覆盖范围相对受限，并且缺少试错学习能力的问题，本文提出EvoMaster：一个面向规模化智能体科学的基础演化框架。其核心思想是持续进行自我演化，使智能体能够迭代优化假设、进行自我批判，并在实验周期中积累知识，从而在一定程度上模拟人类的科学探究过程。该框架领域无关且易于扩展，构建一个自演化科学智能体大约只需要100行代码。基于EvoMaster孵化的SciMaster生态系统在多个领域基准中取得了最先进性能，能够全面超越通用基线，从而验证其作为下一代自主科学发现基础框架的有效性与通用性。

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

为缓解视觉-语言-动作（VLA）研究在架构、实现代码与评估流程上的碎片化现象，本文发布开源代码库StarVLA。该代码库提供模块化的主干-动作头架构，支持VLM与世界模型等多种主干及动作解码范式；同时提供可复用的训练策略，并集成多个主流基准的统一评估接口。其简化训练配方已在多项基准上达到或超过现有方法，目标在于降低VLA研究的复现难度与原型开发门槛。

FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation

针对灵巧操作中高质量演示数据稀缺，以及高维动作空间带来的复杂性，本文提出FAR-Dex分层框架。该框架结合少样本数据增强与自适应残差优化：FAR-DexGen利用少量演示生成多样化轨迹；FAR-DexRes通过自适应残差模块融合多步轨迹与观测特征，以提升策略精度。仿真与真实实验结果表明，该方法可将数据质量提升13.4%，任务成功率提高7%，并且在实物任务上实现超过80%的成功率，具备较好的位置泛化能力。

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

针对自动化仓库等多目标导航场景中，需要在资源、时间与运动约束条件下安全高效执行预定义任务的挑战，本文对调度与运动规划问题进行形式化建模。文章提出一种新方案框架，在增量学习循环中让现成调度器与运动规划器交替执行：调度器先生成候选计划，运动规划器随后进行可行性检查并输出符号化反馈（例如空间冲突与时间调整），再用这些反馈指导调度器进一步修正。基于物流与作业车间调度基准的验证表明，该框架能够有效生成满足复杂时空约束的可行计划。

PRAM-R: A Perception-Reasoning-Action-Memory Framework with LLM-Guided Modality Routing for Adaptive Autonomous Driving

为应对多模态感知计算成本较高的问题，本文提出PRAM-R框架，采用异步双循环结构：快速反应循环用于完成感知与控制，慢速审慎循环用于进行由推理驱动的模态选择以及记忆更新。具体而言，LLM路由器结合环境上下文与传感器诊断来选择并加权不同模态；分层记忆模块用于维持时间一致性，并支持长期适应。合成压力测试显示，借助延迟稳定化策略，路由振荡降低了87.2%。在nuScenes数据集上的真实世界验证中，面对复杂城市场景时，模态使用减少6.22%，记忆召回率达到20%，同时保持与全模态基线相近的轨迹精度。

Toward an Agentic Infused Software Ecosystem

为了充分释放AI智能体在软件开发中的潜力，需要对现有软件生态进行重构。本文提出构建“智能体赋能软件生态系统”（AISE），并将其拆分为三大支柱：第一是AI智能体本身，其能力在过去五年中已从简单的代码补全演进到能够执行更复杂、相对独立的软件开发任务；第二是生态基础设施，用于支撑智能体之间的协作与集成；第三是新的开发范式。文章进一步介绍了AISE的整体愿景、关键组件与落地路径，旨在推动软件开发向更自主、协同的方向演进。

The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning

传统机器人生成社交行为往往依赖预定义动作或人工反馈，因此灵活性与自主性受到较大限制。本文提出CRISP框架：机器人借助视觉语言模型（VLM）充当“类人社交批评家”，从而实现自主批评并对自身动作进行重规划。该框架包含多个环节：从描述文件解析关节、生成行为计划、使用参考视觉信息生成底层控制代码，再由VLM评估社交适当性，最后通过基于奖励的迭代方式进行精炼。用户研究结果表明，在多种机器人平台与场景中，该方法获得了显著更高的偏好度与情境适配性评分，同时在尽量减少人工干预的前提下扩展了自主交互能力，并提升了跨平台可用性。

Embodied Science: Closing the Discovery Loop with Agentic Embodied AI

当前许多AI科学预测方法把“发现”当作相对孤立的任务，导致与依赖物理实验循环的真实科研过程脱节。本文主张“具身科学”范式：将科学发现重塑为智能推理与物理执行紧密耦合的闭环。为此，我们提出统一的感知-语言-行动-发现（PLAD）框架，其中具身智能体对实验环境进行感知、推理科学知识、执行物理干预，并把实验结果内化为后续探索的依据。通过将计算推理建立在鲁棒的物理反馈之上，该方法能够弥合数字预测与实证验证之间的鸿沟，为生命科学与化学等方向的自主发现系统提供可行路线图。

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

视觉-语言-动作（VLA）模型对指令措辞较为敏感，而其失败模式通常难以提前预测。为提升VLA的鲁棒性，本文提出Q-DIG：它结合质量多样性（QD）方法与视觉语言模型（VLM），能够以可扩展方式生成多样且与任务相关的对抗性指令，从而暴露VLA在行为层面的薄弱环节。多个仿真基准上的实验表明，相较于基线方法，Q-DIG能挖掘更多样且更有意义的失败模式；并且使用生成指令对VLA进行微调后，任务成功率也得到提升。真实世界评估与用户研究进一步证实了该方法的有效性。

数据

← 上一篇：AI数字人冒用郑丽文形象直播带货，邢某被行政拘留下一篇：AI浪潮下的热门产业：透视全景与应用真相 →