标签

AI应用精选|AgentDoG 1.5轻量级智能体安全对齐方案 (1/20篇) · 5月30日

发布时间:2026-05-30 17:40来源:微信阅读:4

2026年05月30日星期六

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

🤗 81

针对OpenClaw等开放世界智能体引发的全新安全挑战及现有对齐方案的缺陷,本文设计了一套轻量级且可扩展的智能体安全保障框架。我们对安全分类体系进行了更新以覆盖新出现的风险,并构建了以分类体系为指引、运用影响函数纯化的数据引擎,仅用约1k样本便训练出多个参数规模的AgentDoG 1.5变体,效果与领先的闭源模型相当。该框架搭建了高效的智能体安全SFT与RL训练环境,将部署成本降低两个数量级,同时可作为无需训练的在线防护栏实现实时安全审查。实验结果显示其在多样化复杂交互场景中达到了最优性能。

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

🤗 73

为解决具身智能研究中模型能力分散、泛化能力不足的问题,本文探索将不同的具身决策问题统一到单一视觉-语言-动作(VLA)模型中。我们提出Qwen-VLA,通过引入基于DiT的动作解码器,将Qwen的视觉-语言建模能力扩展至连续动作与轨迹生成。模型采用大规模联合预训练策略,并引入具身感知提示条件以适配多机器人平台。通过将操作、导航等任务统一为动作-轨迹预测框架,实现了跨机器人形态、任务类型和环境条件的可迁移视觉定位、空间推理与连续动作生成。实验在多个基准上验证了其多任务性能与分布外泛化能力。

AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

🤗 9

现有评估往往忽视工具使用的时间维度(如工具响应延迟)且大多局限于单任务场景。为评估智能体在等待工具响应期间利用空闲时间执行并发任务的能力(即异步工具调用),本文提出AsyncTool基准。该基准在具有延迟工具反馈的交互式多任务工具使用环境中评估基于LLM的智能体,通过混合数据演化策略构建了多样化的异步多任务数据集。我们引入效率导向的指标来评估任务协调与完成效率。大规模实验表明,延迟反馈对现有智能体构成重大挑战,导致性能显著下降。分析揭示了当前工具使用智能体的关键失败模式,为设计具有更强时序推理与协调能力的系统提供了实践指导。

When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

🤗 7

混合多智能体系统(MAS)融合了云端大语言模型(LLM)与设备端小语言模型(SLM),在任务精度、计算成本与边缘能耗之间提供了平衡方案,但其设计空间复杂且缺乏通用原则。本文系统地研究了这一设计空间,通过调整两种代表性MAS架构以支持混合推理,探讨不同设计选择如何影响性能、成本与功耗的帕累托前沿。研究结果呈现了混合MAS设计的复杂图景:SLM能有效受益于LLM辅助,但最优架构高度依赖具体任务,且更强的前沿计算能力并不总能转化为更好的性能。

CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

🤗 9

本文介绍CausaLab,一个用于评估LLM智能体交互式因果发现能力的可扩展环境。与先前评估不同,CausaLab不仅评估智能体能否利用因果证据解决问题,还评估其答案是否基于忠实恢复的因果机制。每个实验将智能体置于合成实验室中,其数据生成过程是随机采样的结构因果模型(SCM),因此成功需要恢复因果图与结构方程而非依赖先验知识。实验揭示了预测与机制恢复之间的持续差距:在纯观测的6节点设置中,GPT-5.2-high达到92%任务准确率,但所有边F1分数仅为0.471。混合观测-干预策略改善了结构保真度,而纯干预即使对强智能体也依然困难。CausaLab因此区分了预测成功与因果理解,暴露了当前LLM智能体作为实验性因果推理者的局限。

Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software

本文通过一项量化案例研究(N=1),探讨AI智能体在科学软件开发中的角色与局限。一位物理学家在12个工作日的57次会话中监督一个AI编码智能体,以构建JAX中的可微单圈微扰论模块CLAX-PT。研究记录了15次监督事件并按其干预级别分类。智能体通过迭代对抗测试自主解决了十个问题,物理学家凭借领域知识解决了两个。其余三个未能解决的问题具有共同点:智能体将症状缓解视为根本原因解决,花费大量会话在无法表征目标物理的代码架构内调整系数,且无法重新评估其分支选择。研究表明,监督设计(如多样化参数点测试、共享变更日志、禁止非物理解释的数值补丁)而非模型能力,决定了智能体输出的可信度。弥合差距需要智能体能够提出架构替代方案并区分预测充分性与解释正确性。

VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models

针对视觉-语言-动作(VLA)模型在需要跨对象、场景和动作模式迁移相关经验的未见任务上泛化困难的问题,本文提出VLA-Pro,一个即插即用框架,旨在通过存储和迁移任务相关的程序性记忆来增强跨任务泛化能力。具体而言,VLA-Pro在训练时将任务特定的LoRA适配器存储为参数化程序性记忆。在推理时,根据当前多模态上下文检索相关记忆,并动态融合以生成当前动作块。在RoboTwin、RLBench和真实世界操作任务上的实验表明,VLA-Pro能持续提升多种骨干网络的跨任务泛化性能,在仿真中实现最高207%的相对提升,并将真实世界成功率从5.8%提升至65.0%。结果表明,程序性记忆检索与适配为向新任务迁移操作经验提供了有效机制。

DOVA: Deliberation-First Multi-Agent Orchestration for Autonomous Research Automation

单智能体系统在处理需要多源合成、对抗验证和个性化交付的复杂研究任务时存在局限。本文提出DOVA多智能体平台,其核心创新包括:(1)“深思优先”编排,在执行前进行显式元推理;(2)混合协作推理管道,统一集成多样性、透明黑板和迭代精炼;(3)自适应多层级思考机制,可将简单任务推理成本降低40-60%同时保持深度推理能力。架构消融实验分析了各组件对答案置信度、