AI研究基础设施的演进图谱

发布时间：2026-05-03 15:45阅读：23

2026年05月03日星期日

Intern-Atlas: 构建AI科学家的研究基础设施方法论演化图谱

🤗 28

当前的研究基础设施以文档为中心，未能明确表征方法论的演变，这限制了AI研究代理的理解能力。本文介绍Intern-Atlas，一个方法论演化图谱，能够自动识别方法实体，推断其谱系关系，并捕捉推动创新的瓶颈。该图谱基于超过百万篇论文构建，包含941万条语义类型的连接，并配备了自引导时序树搜索算法。评估结果显示，该图谱与专家标注的演化链高度一致，并能支持下游的创意评估与生成任务，为自动化科学发现奠定了基础数据层。

Step-level Optimization for Efficient Computer-use Agents

🤗 9

现有的计算机使用代理在处理长程GUI任务时，计算资源分配不均，效率低下。本文指出，主要问题集中在进度停滞和语义漂移这两个高风险时刻。为此，我们提出了一种事件驱动的、分步级的联级框架：默认情况下运行轻量级策略，只有当学习到的监控器（停滞监控与里程碑监控）检测到风险升高时，才会升级到更强的模型。这种模块化设计可以将前沿模型的推理转变为自适应的按需计算分配，而无需更改底层代理架构或重新训练大型模型。

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

🤗 14

为了规模化生成生产力场景的合成数据，本文提出“大规模合成计算机”方法，能够创建具有逼真文件夹结构和内容丰富工件（如文档、表格）的计算机环境。基于每台合成计算机，运行长程模拟：一个代理设定用户特定的生产力目标，另一个代理扮演用户执行任务，直至目标达成。初步实验创建了1000台合成计算机进行模拟，产生了丰富的体验式学习信号，显著提升了代理在领域内外的生产力评估表现。该方法为长程生产力场景下的代理自我改进和强化学习提供了有前景的基础。

MARS²: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

为解决强化学习（RL）在代码生成等推理密集型任务中轨迹多样性有限的问题，本文提出MARS²框架。它将搜索树建模为一个可学习的多智能体交互环境，允许多个独立优化的异质智能体在共享的搜索拓扑中协作生成和优化候选方案。为支持有效学习，引入了基于树一致奖励塑造的路径级群体优势公式，以便在复杂的搜索轨迹上进行信用分配。在代码生成基准测试中，MARS²在不同模型组合和训练设置下均能提升性能，证明了将多智能体协作与树搜索相结合的有效性。

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

🤗 6

本文提出X-WAM，一个统一的4D世界模型，在一个框架内整合了实时机器人动作执行与高保真4D世界合成（视频+3D重建）。为了利用预训练视频扩散模型的强大视觉先验，X-WAM通过轻量级结构适配来预测多视角RGB-D视频，从而想象未来世界。同时，提出了异步噪声采样（ANS）方法，在推理时采用异步去噪计划：以较少的步数快速解码动作以实现高效执行，同时用完整的步数生成高保真视频。在超过5800小时的机器人数据上预训练后，X-WAM在多个基准测试中取得了高成功率，并在视觉和几何指标上超越了现有方法。

End-to-end autonomous scientific discovery on a real optical platform

本文介绍了求是发现引擎，一个基于大语言模型（LLM）的代理系统，用于在真实光学平台上进行端到端的自主科学发现。该系统结合了非线性研究阶段、元轨迹记忆和双层架构，在涉及数千次LLM介导的推理、测量和修正行动的长程研究中保持了自适应且稳定的研究轨迹。它自主复现了已发表的传输矩阵实验，并将抽象的相干阶理论转化为实验观测，首次观测到该类相干阶结构。更重要的是，在开放式研究中，该系统提出了光学双线性相互作用这一物理机制并通过实验验证了它，这是首个由AI代理系统自主识别并验证的非平凡、未报道的物理机制。

Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents

针对工具调用代理的评估通常滞后于执行，无法实时纠正错误的问题，本文提出将评估移入推理时的执行循环：由一个专门的评审代理在执行前评估临时工具调用，实现从事后恢复到主动评估和错误缓解的范式转变。为量化评审代理纠错与引入新错误之间的权衡，引入了“有益性-有害性”指标。实验表明，该方法在单轮和多轮任务上均取得了显著提升。指标分析揭示了评审模型选择至关重要，并通过自动提示优化获得了额外增益，证明了执行与评审分离的核心优势。

AutoSurfer -- Teaching Web Agents through Comprehensive Surfing, Learning, and Modeling

针对高质量网络轨迹训练数据稀缺的问题，本文提出了AutoSurfer，一个全面的网络轨迹生成器。它通过三项关键创新解决了现有方法覆盖率不全和任务合成不可靠的局限：采用系统化的广度优先探索策略；利用探索轨迹指导任务合成以减少幻觉；使用同一轨迹作为提示引导网络代理进行更精确的轨迹细化。这些创新使AutoSurfer能够全面覆盖网站动作空间，并生成适用于训练网站特定LLM的数据。在WebArena基准测试上的评估表明，其微调的模型在任务完成准确率和任务多样性上均优于现有最优方法。

Machine Collective Intelligence for Explainable Scientific Discovery

从经验观察中推导出控制方程一直是科学界的长期挑战。本文提出机器集体智能范式，整合了符号主义与元启发式这两种计算智能传统，以实现控制方程的自主进化式发现。它协调多个推理智能体，通过生成、评估、批判和整合来进化其符号假设。在由确定性、随机性或未表征动力学控制的科学系统中，该方法无需手工领域知识即可自主恢复底层控制方程。所得方程将外推误差相对深度神经网络降低了多达六个数量级，并将数十万至百万模型参数压缩为5-40个可解释参数，标志着AI向自主发现原理性科学方程的重要转变。

Bridging Values and Behavior: A Hierarchical Framework for Proactive Embodied Agents

现有具身智能体多局限于被动指令跟随或反应式需求满足，缺乏支撑长期自导行为和解决动机冲突的稳定高阶价值框架。本文提出ValuePlanner，一种分层认知架构，将高层价值调度与低层动作执行解耦。它采用基于LLM的认知模块，通过推理抽象价值权衡生成符号子目标，再由经典PDDL规划器转化为可执行动作计划，并通过闭环反馈机制进行优化。为评估此类自主性，提出了超越任务成功率的、以价值为中心的评价套件。在TongSim家庭环境中的实验表明，ValuePlanner能够仲裁竞争性价值，生成指令跟随和需求驱动基线所缺乏的连贯、长程、自导的行为。

Autonomous Traffic Signal Optimization Using Digital Twin and Agentic AI for Real-Time Decision-Making

针对交通拥堵优化问题，本文提出了一种由智能体AI管理的数字孪生框架，用于实现交通信号的实时自主控制。该三层系统（感知、概念化、行动）通过物理传感器与边缘计算获取实时交通数据，在数字孪生中模拟车流，并利用LangChain处理数据，最终通过MCP协议与API执行优化控制算法。实验表明，该框架能够有效减少红灯等待时间，提升整体交通效率，性能优于固定时长和基于强化学习的基线方法。

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

针对现有GUI智能体基准多局限于单应用独立任务、忽视真实跨应用工作流的不足，本文提出了WindowsWorld基准。该基准通过多智能体框架模拟16种职业，生成了181个平均包含5.0个子目标的多步骤任务，其中78%为跨应用任务。实验评估发现，当前领先的智能体在跨应用任务上的成功率较低（<21%），尤其在需要跨越≥3个应用进行条件判断和推理的任务中表现不佳，且执行效率低下。该基准为评估复杂专业工作流中的GUI智能体能力提供了系统化工具。

Building Persona-Based Agents On Demand: Tailoring Multi-Agent Workflows to User Needs

针对现有智能体系统角色固定、协调模式僵化、难以个性化适配的问题，本文提出按需生成基于角色（Persona）的智能体的方法。该方法主张在运行时根据用户特征、任务需求和上下文动态塑造智能体及其角色，以超越“一刀切”的配置。文中详细阐述了在智能体平台中集成实时角色生成的流程，旨在通过使智能体交互更高效、情境更适配，为智能体平台设计范式开辟新的可能性。

D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery

为推进科学数据驱动发现研究，本文构建了首个自动生成、可验证的科学数据驱动发现环境数据集D3-Gym。它包含来自4个学科239个真实科学仓库的565个任务，每个任务均配有自然语言指令、可执行环境、输入数据、参考代码及自动合成的评估脚本。评估脚本与人工标注的金标准一致性达87.5%。实验表明，在D3-Gym轨迹上训练能显著提升Qwen3系列模型在ScienceAgentBench上的性能，例如Qwen3-32B提升7.8个百分点，缩小了与强闭源模型的差距。

Collaborative Agent Reasoning Engineering (CARE): A Three-Party Design Methodology for Systematically Engineering AI Agents with Subject Matter Experts, Developers, and Helper Agents

本文提出协同智能体推理工程（CARE），一种用于科学领域大语言模型（LLM）智能体工程的规范化方法。该方法通过可复用的工件和阶段门控流程，系统化地规范行为、落地、工具编排与验证。CARE采用领域专家、开发者和LLM辅助智能体三方协作的工作流，利用辅助智能体将非正式的领域意图转化为可供人工审核的结构化规约，以应对LLM性能不均的“锯齿技术前沿”挑战。科学用例评估表明，这种阶段门控、工件驱动的方法能够有效提升开发效率和复杂查询性能。

Agentic Compilation: Mitigating the LLM Rerun Crisis for Minimized-Inference-Cost Web Automation

针对LLM驱动的Web智能体在重复任务中因持续推理循环导致的“重运行危机”（即推理成本与API延迟随执行次数线性增长）问题，本文提出“编译-执行”架构。该架构将LLM推理与浏览器执行解耦，通过一次性LLM调用将DOM语义表示编译为确定的JSON工作流蓝图，再由轻量级运行时驱动浏览器，无需后续模型查询。这使得每次工作流的推理成本降至0.10美元以下，实现了从O(M×N)到摊销O(1)的成本缩减。在数据提取等任务中，零样本编译成功率达到80-94%，结合最小化人工修补可实现近100%的执行可靠性。

DeepTutor: Towards Agentic Personalized Tutoring

为构建真正个性化的AI辅导系统，本文提出DeepTutor，一个原生智能体的开源框架。其核心是混合个性化引擎，结合静态知识落地与动态多分辨率记忆，将交互历史提炼为持续演化的学习者画像。框架构建了由引证落地的问题解决与难度校准的题目生成双向耦合的闭环辅导循环，并支持协作写作、多智能体深度研究等功能。此外，引入的TutorBot主动多智能体层通过可扩展技能提供跨平台一致体验。为更好地评估此类系统，构建了以学习者为中心的TutorBench基准。实验表明，DeepTutor在提升个性化辅导质量的同时，保持了通用的智能体推理能力。

Agent Name Service (ANS): A Proof-of-Concept Trust Layer for Secure AI Agent Discovery, Identity, and Governance in Kubernetes

为满足自主AI智能体生态系统对安全发现、身份验证、能力证明和策略治理的强烈需求，本文基于ANS协议规范，提出了智能体名称服务（ANS）在Kubernetes中的概念验证实现。该实现采用了去中心化标识符（DID）、可验证凭证（VC）、基于Open Policy Agent（OPA）的策略即代码执行以及Kubernetes原生集成模式。在演示研究环境中，观测到服务路径响应低于10毫秒，脚本化部署场景全部成功。本文明确了概念验证的范围，提供了威胁模型、假设和限制，为从协议概念到可复现工程实践提供了证据支持的路径。

PALCAS: A Priority-Aware Intelligent Lane Change Advisory System for Autonomous Vehicles using Federated Reinforcement Learning

本文提出PALCAS，一种基于多智能体联邦强化学习、优先级感知的智能换道建议系统，用于自动驾驶汽车（AV）。与现有专注于单智能体或集中式多智能体的方法不同，PALCAS根据车辆目的地紧迫性对换道进行优先级排序。它引入了一种新颖的优先级感知安全换道奖励函数，以在强制性和自由裁量场景中做出明智的换道决策。系统利用参数化深度Q网络（PDQN）算法促进智能体间有效协作，实现对AV横向和纵向运动的控制。基于SUMO和Mosaic V2X的仿真表明，PALCAS在交通效率、驾驶安全、舒适度、目的地到达率和并道成功率上均显著优于基线方法。

Self-Evolving Software Agents

针对现有自主智能体无法在运行时自主进化目标与代码的问题，本文提出自进化软件智能体，将BDI（信念-愿望-意图）推理与LLM结合，实现目标、推理和可执行代码的自主进化。所提出的BDI-LLM架构包含一个与智能体推理循环并行的自动化进化模块，该模块从经验中提取新需求，并综合生成相应的设计和代码更新。在动态多智能体环境中的原型评估表明，智能体能够从最少的先验知识中自主发现新目标并生成可执行行为。结果揭示了LLM驱动进化的可行性及其在行为继承和稳定性方面的当前局限。

数据

← 上一篇：AI原生公司：重塑组织而非仅是工具升级下一篇：深圳“十五五”规划点亮AI未来：人工智能训练师成紧缺人才 →