LLM智能体联盟形成:稳定性分析与收敛性保障(系列1/20)·5月4日
2026年05月04日 星期一
LLM智能体联盟形成:稳定性分析与收敛性保证
面向大型语言模型(LLM)智能体在多智能体系统中的战略协同需求,本文首次给出一套基于享乐博弈论、并带有形式化稳定性保证的LLM智能体联盟形成方案。我们提出LLM联盟形成博弈(LCFG),给出纳什稳定分区的充分条件,同时证明了相关复杂度结论。进一步的分析表明,LLM智能体的行为具有以ε理性偏好为特征的有界理性。借助GPT-4等模型开展的大规模实验验证了该框架:在我们设计的“联盟思维”(CoalT)协议下,LLM联盟在73.2%的情况下实现纳什稳定,效果明显优于对照基线方法。
走向扎根的自主研究:在已发表计算物理论文上的端到端LLM微型研究循环
本文聚焦物理科学研究的最小执行单元——微型研究循环,即智能体对论文进行阅读、复现、批判并进一步扩展。我们从规模与深度两条维度评估该循环:在规模层面,智能体可对111篇开放获取的计算物理论文独立运行“阅读-规划-计算-比较”的闭环流程,无需额外要求就能在约42%的论文中提出实质性的性质质疑;在深度层面,针对一篇关于二维材料MOSFET多尺度模拟的《自然·通讯》论文,智能体可自主完成原文缺失的新计算,并产出可发表的评论,从而修正原文的关键结论。
Deep Researcher Agent:一种可7×24小时运行的深度学习实验自主框架,并实现零成本监控
本文提出开源框架Deep Researcher Agent,让LLM智能体能够自主开展全天候的深度学习实验。其关键改进体现在:零成本监控范式、两级恒定规模的内存组织,以及最小工具集支撑的主从式多智能体设计。该框架在持续30多天的实际部署中,能够自动完成500多个实验周期,并在单个项目里通过200多次自动化实验将基线指标提升52%;同时日均LLM成本仅为0.08美元。
通过质量多样性提示生成对视觉-语言-动作模型实施红队测试,从而获得更稳健的机器人策略
视觉-语言-动作(VLA)模型对指令措辞非常敏感,因此其失效模式往往难以事先预测。为增强VLA的鲁棒性,本文提出Q-DIG:它融合质量多样性(QD)技术与视觉语言模型(VLM),能够以可扩展方式生成多样且与任务相关的对抗性指令,用于系统暴露VLA的行为漏洞。多个仿真基准的结果显示,相比基线方法,Q-DIG能发现更多样且更有意义的失败模式;同时,借助生成指令对VLA进行微调,可进一步提高任务成功率。真实世界评测与用户研究也从侧面验证了其有效性。
具身科学:借助具身智能AI闭合发现回路
当前许多AI科学预测方法把“发现”当作孤立环节处理,导致与离不开物理实验循环的现实场景脱节。本文倡导“具身科学”范式:将科学发现改造成智能推理与物理执行紧密耦合的闭环过程。我们提出统一的感知-语言-行动-发现(PLAD)框架:具身智能体感知实验环境、推理科学知识、执行物理干预,并把结果内化以驱动后续探索。通过把计算推理建立在可靠的物理反馈之上,该方法缩小了数字预测与实证验证之间的差距,并为生命与化学科学的自主发现系统给出可行路径。
机器人的“内在批评者”:基于VLM的重规划实现社交行为自我精炼
以往的机器人社交行为生成往往依赖预设动作或人工反馈,灵活性与自主性较为有限。本文提出CRISP框架:让机器人使用视觉语言模型(VLM)充当“类人社交批评家”,实现对自身动作的自主批评与重规划。该框架包含多个环节:解析描述文件中的关节信息、生成行为计划、借助参考视觉信息生成底层控制代码、由VLM评估社交适当性,并通过奖励驱动的迭代方式进行精炼。用户研究表明,在多种机器人平台与场景中,该方法均获得了显著更高的偏好度与情境适当性评分;在尽量减少人工介入的同时,也提升了自主交互能力与跨平台适用性。
面向具身化注入的智能体软件生态系统
为充分释放AI智能体在软件开发中的潜力,需要对现有软件生态进行重构。本文提出“智能体赋能软件生态系统”(AISE),其由三项支柱构成:第一是AI智能体自身。过去五年间,这类智能体能力已从简单代码补全发展到可执行复杂独立开发任务;第二是生态基础设施,用于支撑智能体之间的协作与集成;第三是新的开发范式。本文进一步阐述AISE的整体愿景、关键组成与落地路径,目标是推动软件开发朝着更自主、更协同的方向演进。
PRAM-R:一种带有LLM引导模态路由的感知-推理-行动-记忆框架,用于自适应的自动驾驶
针对多模态感知计算成本较高的问题,本文提出PRAM-R框架,采用异步双循环结构:快速反应循环用于感知与控制;慢速审慎循环用于由推理驱动的模态选择与记忆更新。具体而言,LLM路由器根据环境上下文与传感器诊断选择并对模态进行加权;分层记忆模块则保证时间一致性,并支持长期适应。合成压力测试表明,通过引入滞后的稳定化机制,路由振荡可降低87.2%。在nuScenes数据集上的真实世界验证显示,在复杂城市场景中模态调用减少6.22%,记忆召回率达到20%,同时仍能维持与全模态基线相当的轨迹精度。
用增量学习的符号时空运动抽象来交织调度与运动规划
针对自动化仓库等多目标导航场景中的挑战:在资源、时间与运动约束的条件下,如何安全高效地执行预定义任务。本文对调度与运动规划问题进行形式化建模,并提出一种新的解决框架。该方案在增量学习循环中让现成调度器与运动规划器交替工作:调度器生成候选计划,运动规划器负责可行性检查,并返回符号化反馈(例如空间冲突与时间调整)来指导调度器。在物流与作业车间调度基准上的验证表明,该框架能够有效生成满足复杂时空约束的可行计划。
FAR-Dex:面向灵巧操作的少样本数据增强与自适应残差策略精炼
为应对灵巧操作中高质量演示数据稀缺以及高维动作空间带来的复杂挑战,本文提出FAR-Dex分层框架。该方法将少样本数据增强与自适应残差优化结合起来:FAR-DexGen可从少量演示生成多样化轨迹;FAR-DexRes借助自适应残差模块融合多步轨迹与观测特征,以提升策略精度。仿真与实物实验显示,该方法的数据质量提升13.4%,任务成功率提升7%;在真实任务中还能实现超过80%的成功率,并表现出较强的位置泛化能力。
StarVLA:面向视觉-语言-动作模型开发的“乐高式”代码库
为解决视觉-语言-动作(VLA)方法在架构、代码与评估方面碎片化的问题,本文提出开源代码库StarVLA。它提供模块化的主干-动作头架构,支持多种主干与动作解码方式,例如VLM与世界模型等;同时提供可复用的训练策略,并集成多个主流基准的统一评估接口。其简洁的训练配方已在多个基准上达到或超过已有方法,旨在降低VLA研究的复现与原型开发门槛。
EvoMaster:面向规模化智能体科学的基础演化框架
针对现有智能体框架普遍存在静态性强、适用范围偏窄以及缺乏试错学习能力等问题,本文提出EvoMaster——一个为规模化智能体科学设计的基础演化框架。其核心思想是持续自我演化:让智能体迭代优化假设,进行自我批判,并在实验周期中沉淀知识,以模拟人类科学探究过程。该框架具有领域无关与易扩展的特点,仅需约100行代码即可搭建自演化的科学智能体。基于EvoMaster孵化的SciMaster生态系统在多个领域基准测试中达到最先进水平,并实现对通用基线的全面超越,从而验证其作为下一代自主科学发现基础框架的有效性与通用性。
MARS:具备反思搜索能力的模块化智能体,用于自动化AI研究
自动化AI研究相比一般软件工程具有明显差异:其计算成本高(例如模型训练),且性能归因往往不够清晰。现有基于LLM的智能体通常会生成忽略执行成本与因果关系的单一脚本。对此,本文提出MARS(具备反思搜索能力的模块化智能体),作为自主AI研究的优化框架。系统的三项支柱包括:(1)引入带成本约束的蒙特卡洛树搜索(MCTS),实现预算感知的规划,并明确平衡性能与执行开销;(2)模块化搭建,采用“设计-分解-实现”的流程来管理复杂研究型代码库;(3)比较性反思记忆,通过分析不同解决方案之间的差异提炼高价值见解,从而缓解信用分配问题。在可比设置下,MARS在MLE-Bench上达到开源框架的最先进性能,并与全球排行榜顶级方法保持竞争力。同时,系统还表现出定性的“顿悟”时刻:63%的有效经验教训来自跨搜索路径的迁移,表明智能体能够对见解进行有效泛化。
面向大语言模型的智能体技能:架构、获取、安全与未来路径
本文对LLM智能体技能这一新兴研究方向做了系统综述。智能体技能被定义为可组合的指令、代码与资源包,可在不重新训练的情况下扩展动态能力。我们从四个维度组织内容:(1)架构基础,包括技能规范、渐进式上下文加载,以及其与模型上下文协议(MCP)的互补作用;(2)技能获取,包括基于技能库的强化学习、自主技能发现与组合式技能合成;(3)规模化部署,讨论计算机使用智能体(CUA)栈、GUI grounding的进展以及OSWorld等基准;(4)安全方面,分析指出26.1%的社区贡献技能存在漏洞,并提出一个四层门控权限模型的技能信任与生命周期治理框架。最后,本文提出面向实现可信且可自我改进的技能生态系统的研究议程。
AIRS-Bench:用于前沿AI研究的科学智能体任务套件
为提升LLM智能体在科学研究中的应用速度,本文提出AIRS-Bench(AI科研基准)。该基准包含20个来自前沿机器学习论文的任务,覆盖语言建模、数学、生物信息学以及时间序列预测等方向。该基准用来评估智能体在完整科研生命周期中的能力(包括想法生成、实验分析与迭代优化),且不提供基线代码。基线测试结果显示:智能体在4项任务上超过人类最佳水平,但在其余16项中未达标,说明该基准仍未饱和,存在较大的提升空间。所有任务定义与评估代码均已开源。
通向自主O-RAN:面向实时网络控制与管理的多尺度智能体AI框架
针对开放无线接入网(O-RAN)由于组件解耦与开放接口带来的操作复杂性问题,本文提出多尺度智能体AI框架。该框架将无线接入网智能组织为三层协同控制环路:跨非实时(Non-RT)、近实时(Near-RT)与实时(RT)。其中,Non-RT RIC内的LLM智能体负责把运营商意图转化为策略;Near-RT RIC内的轻量语言模型(SLM)智能体负责执行低延迟优化;位于分布式单元附近的无线物理层基础模型(WPFM)智能体提供快速推理。基于概念验证,该框架在非平稳条件下的鲁棒运行,以及意图驱动的切片资源控制等两个场景中展示出有效性。
MAS-on-the-Fly:测试阶段的基于大语言模型的多智能体系统动态适配
针对现有基于LLM的多智能体系统(MAS)在部署后缺少动态适应能力的问题,本文提出MASFly框架。该框架包含两个核心机制:其一是基于检索增强标准作业程序(SOP)的实例化能力,利用成功协作模式库为新查询组装定制化MAS;其二是经验引导的监督机制,由Watcher智能体参照个性化经验池监控行为,并提供实时干预。在TravelPlanner等基准测试中,MASFly取得最先进性能(成功率61.7%),并展现出较强的任务适应性与鲁棒性。
CUDA Agent:面向高性能CUDA内核生成的大规模智能体强化学习
针对LLM在CUDA内核优化方面不如编译器的表现不足,本文提出CUDA Agent系统。该方法通过可扩展的数据合成、技能增强的开发环境以及强化学习算法,系统性提升模型的内核优化能力。实验结果显示,该系统在KernelBench基准上全面超过torch.compile,并在最难的Level-3任务上领先Claude Opus等最强闭源模型约40%。
面向序列操作的面向对象空间推理学习:在杂乱环境中的连续抓取与处理
为提升机器人在杂乱环境中的数据效率与模块化能力,本文提出Unveiler框架,将高层空间推理与底层动作执行解耦。其关键在于基于Transformer的空间关系编码器(SRE),能够按顺序识别并决策移除关键障碍物;随后由具备旋转不变性的动作解码器完成执行。与端到端策略及大模型基线相比,该方法在参数量与推理开销上更高效,并在密集杂乱场景中的目标取回成功率显著更好;仿真成功率最高达到97.6%,同时能够零样本迁移到真实场景。
从端到端到更广领域:对撞机物理及其后续方向的统一架构
本文提出首个能够完成端到端对撞机现象学任务的语言驱动智能体系统ColliderAgent。该系统采用解耦且领域无关的架构,仅依赖自然语言提示与标准物理符号,即可从理论拉格朗日量一路完成到最终现象学输出的全流程,不需要绑定特定的软件包代码。系统通过分层多智能体推理层,并与统一计算后端Magnus耦合。在多个代表性场景(如轻夸克、类轴子粒子分析)上的验证表明,该架构为对撞机物理、宇宙学等方向实现更自动化、可扩展与更可复用的研究提供了可行路线。
数据