2026-04-22 arXiv 人工智能论文精选
1. UniT: 面向人形机器人策略学习与世界建模的统一物理语言 原文标题: UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling 发布时间: 2026-04-21 论文链接:http://arxiv.org/abs/2604.19734v1 面对humanoid基础模型规模化受阻,因机器人数据稀缺,大规模主观视角人类数据虽提供了可扩展替代方案,但弥合跨身体鸿沟(源于运动学不匹配)仍是核心挑战。我们提出 UniT(基于视觉锚点的统一潜在动作令牌化框架),该框架构建统一物理语言以实现人形机器人间的知识迁移:基于异构运动学共享通用视觉后果的理念,UniT 采用三分支交叉重建机制——动作预测视觉以锚定运动学至物理结果;视觉重建动作以过滤无关干扰;融合分支将纯化后的模态映射至与身体形态无关的共享离散潜在表征空间。我们通过两种范式验证 UniT:1) 政策学习(VLA-UniT):利用统一令牌预测高效利用多样化人类数据,实现高数据效率与鲁棒异常分布泛化——显著展现零样本任务迁移能力;2) 世界建模(WM-UniT):利用统一令牌作为条件对齐跨身体动力学,实现直接人形到人形动作迁移。该对齐确保人类数据无缝转化为增强的人形视频生成可控性。最终通过诱导高度对齐的跨身体表征(t-SNE验证人类与机器人特征收敛于同一共享流形),UniT 提供了将海量人类知识蒸馏为通用人形能力的可扩展路径.
1. UniT: 面向人形机器人策略学习与世界建模的统一物理语言
原文标题: UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling
发布时间: 2026-04-21
论文链接:http://arxiv.org/abs/2604.19734v1
针对 humanoid 基础模型规模化面临瓶颈的问题——由于机器人数据稀缺性所导致——而大规模主观视角人类数据提供了可扩展替代方案的情况下,弥合跨身体鸿沟(因运动学不匹配而形成)仍是根本挑战。我们提出 UniT(通过视觉锚点实现统一潜在动作令牌化框架),该框架建立了统一的物理语言以实现人形机器人间的知识迁移:基于异构运动学共享通用视觉后果的哲学思想,UniT 采用三分支交叉重建机制——动作预测视觉以将运动学锚定到物理结果上;视觉重建动作以过滤无关视觉干扰;融合分支将纯化后的模态协同映射至与身体形态无关的共享离散潜在表征空间中。我们通过两种范式验证 UniT:1) 政策学习(VLA-UniT):通过预测这些统一令牌有效利用多样化人类数据实现最佳数据效率与鲁棒异常分布泛化能力——显著展现零样本任务迁移特性;2) 世界建模(WM-UniT):通过将统一令牌作为条件对齐跨身体动力学实现直接人形到人形动作迁移。这种对齐确保人类数据无缝转化为增强的人形视频生成可控性。最终通过诱导高度对齐的跨身体表征(经 t-SNE 可视化验证人类与机器人特征已收敛于同一共享流形),UniT 提供了一条可扩展路径以将海量人类知识蒸馏为通用人形能力.
2. CoCo-SAM3:利用概念冲突优化开放词汇语义分割 原文标题: CoCo-SAM3: Harnessing Concept Conflict in Open-Vocabulary Semantic Segmentation 发布时间: 2026-04-21 论文链接:http://arxiv.org/abs/2604.19648v1 SAM3通过引入提示式掩模生成范式来推动开放词汇语义分割。但在多类别开放词汇场景下,不同类别提示独立生成的掩模缺乏统一的类间可比证据尺度,常导致覆盖区域重叠和竞争关系不稳定。此外同一概念的同义词表达会激活不一致的语义与空间证据支持,引发内类漂移从而加剧类间冲突,影响推理稳定性。为此我们提出CoCo-SAM3(概念冲突SAM3)方法:首先通过同义词提示对齐与证据聚合强化概念一致性;继而基于统一可比尺度设计跨类别竞争机制以实现像素级直接比较;该机制有效稳定多类别推理并显著缓解类间冲突问题。无需额外训练即可在8个开放词汇语义分割基准数据集上获得持续性能提升
2. CoCo-SAM3:在开放词汇语义分割中利用概念冲突
原文标题: CoCo-SAM3: Harnessing Concept Conflict in Open-Vocabulary Semantic Segmentation
发布时间: 2026-04-21
论文链接:http://arxiv.org/abs/2604.19648v1
SAM3通过引入基于提示的掩模生成范式来推进开放词汇语义分割技术。然而在多类别开放词汇场景中,不同类别提示独立生成的掩模缺乏统一的、类间可比的证据尺度标准,常导致覆盖区域重叠和竞争关系不稳定问题。此外同一概念的同义词表达会激活不一致的语义与空间证据支持,引发内类漂移现象从而加剧类间冲突并影响整体推理稳定性。为此我们提出CoCo-SAM3(概念冲突SAM3)方法:首先通过同义词提示对齐与证据聚合强化概念一致性;继而基于统一可比尺度进行跨类别竞争机制设计实现像素级直接比较;该机制有效稳定多类别推理过程并显著缓解类间冲突问题。无需额外训练即可在8个开放词汇语义分割基准数据集上获得持续性能提升
3. 基于深度学习框架的环境声音深伪检测 原文标题: Environmental Sound Deepfake Detection Using Deep-Learning Framework 发布时间: 2026-04-21 论文链接:http://arxiv.org/abs/2604.19652v1 本研究提出了一种深度学习框架用于环境声音深度伪造检测(ESDD),即识别输入音频记录中的声音场景和事件是否为虚假生成。为此,我们进行了广泛实验以探索单个频谱图、多种网络架构、预训练模型及集成方式对ESDD性能的影响。实验结果显示:检测虚假环境声音场景与事件应视为独立任务。此外我们发现微调预训练模型在ESDD中效果更佳。最终通过微调预训练WavLM并采用三阶段训练策略,最佳模型在EnvSDD测试集上达到准确率0.98、F1分数0.95、AUC值0.99;在ESDD-Challenge-TestSet上分别取得准确率0.88、F1分数0.77和AUC值0.92.
3. 基于深度学习框架的环境声音深伪检测
原文标题: Environmental Sound Deepfake Detection Using Deep-Learning Framework
发布时间: 2026-04-21
论文链接:http://arxiv.org/abs/2604.19652v1
在这篇论文中,我们提出了一种深度学习框架用于环境声音深度伪造检测(ESDD)——该任务是识别输入音频记录中的声音场景和声音事件是否为虚假生成。为此,我们进行了广泛的实验以探索单个频谱图、多种网络架构、预训练模型以及频谱图或网络架构集成对ESDD任务性能的影响。实验结果表明:检测虚假环境声音场景与检测虚假环境声音事件应被视为独立任务。此外我们发现采用微调预训练模型的策略在ESDD任务中效果更佳。最终通过微调预训练WavLM模型并采用提出的三阶段训练策略得到的最佳模型在EnvSDD测试集上达到准确率0.98、F1分数0.95、AUC值0.99;在ESDD-Challenge-TestSet数据集上分别取得准确率0.88、F1分数0.77和AUC值0.92.
4. 基于代理的多模态艺术检索:细粒度理解艺术品 原文标题: A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding 发布时间: 2026-04-21 论文链接:http://arxiv.org/abs/2604.19689v1 分析艺术品需跨多步骤视觉内容推理及文化、历史和风格背景的综合考量。尽管近期多模态大模型在艺术品解释上潜力巨大,但依赖隐式推理导致可解释性受限且缺乏显式证据锚定。我们提出基于代理的跨模态艺术检索框架A-MAR(Agent-based Multimodal Art Retrieval),通过显式条件化检索约束结构化推理计划。该框架首先将任务分解为包含目标与证据需求的分步计划,随后基于该计划进行条件化检索,以实现精准证据筛选与支持分步、有据可依的解释生成。为评估代理驱动的跨模态推理有效性,我们构建了诊断基准ArtCoT-QA(Artistic Cognitive Task Question Answering),包含多步骤推理链的多样化艺术查询,实现超越简单答案准确度的细粒度分析。实验显示:在SemArt和Artpedia数据集上,A-MAR持续优于静态非计划检索及强大MLLM基线模型;ArtCoT-QA评估进一步验证了其在证据锚定和多步骤推理上的优势。这些成果凸显了推理约束型检索对知识密集型多模态理解的重要性,并确立A-MAR作为可解释、目标导向AI系统的重要一步——尤其在文化遗产领域。代码和数据已开源:https://github.com/ShuaiWang97/A-MAR
4. 基于代理的多模态艺术检索模型:细粒度艺术品理解
原文标题: A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding
发布时间: 2026-04-21
论文链接:http://arxiv.org/abs/2604.19689v1
理解艺术品需要跨多步骤的视觉内容推理以及文化、历史和风格背景的综合分析。尽管近期多模态大型语言模型在艺术品解释方面展现出潜力,但它们依赖隐式推理和内化的知识储备,导致解释结果的可解释性受限且缺乏显式的证据锚定。我们提出基于代理的跨模态艺术检索框架A-MAR(Agent-based Multimodal Art Retrieval),通过显式条件化检索来约束结构化推理计划。该框架首先将任务分解为包含目标定义与证据需求的分步结构化推理计划,随后基于该计划进行条件化检索以实现精准的证据筛选与支持分步、有根可据的解释生成。为评估代理驱动的跨模态推理在艺术领域的有效性,我们构建了诊断基准ArtCoT-QA(Artistic Cognitive Task Question Answering),其特色在于包含多步骤推理链的多样化艺术相关查询,从而实现超越简单最终答案准确度的细粒度分析。实验表明:在SemArt和Artpedia数据集上,A-MAR持续优于静态非计划检索及强大的MLLM基线模型在最终解释质量上的表现;而通过ArtCoT-QA评估进一步验证了其在证据锚定和多步骤推理能力上的优势。这些成果凸显了推理约束型检索对知识密集型多模态理解的重要性,并确立A-MAR作为可解释、目标导向AI系统发展路径的重要一步——尤其在文化遗产领域具有特殊应用价值。代码和数据已开源:https://github.com/ShuaiWang97/A-MAR
5. 自适应MSD分割:优化C4.5与随机森林处理倾斜连续特征 原文标题: Adaptive MSD-Splitting: Enhancing C4.5 and Random Forests for Skewed Continuous Attributes 发布时间: 2026-04-21 论文链接:http://arxiv.org/abs/2604.19722v1 连续数值属性的离散化始终是决策树诱导中的计算瓶颈(尤其在数据集规模扩大时)。基于近期MSD-分割技术(利用均值与标准差分箱以提升C4.5效率)——我们提出自适应MSD-分割(AMSD)。虽然传统MSD对近似对称分布效果好,但僵化的固定一标准差截断会导致高度偏斜数据(常见于生物医学及金融场景)产生信息损失;而AMSD通过基于偏斜度的动态标准差倍数调整实现突破:既能在密集区域缩小分箱区间保留区分能力,又能在稀疏区域扩展分箱范围捕捉模式差异。整合至随机森林形成RF-AMSD后,实验表明:相比传统方法(节省约80%计算量),该体系不仅带来2%-4%平均精度增益(经Census Income等四大基准测试验证),更保持线性时间复杂度优势(传统O(N log N),本方案仅需O(N))。这种兼顾效率与精度的创新验证了自适应统计分箱在大规模集成学习中的可行性。
5. 自适应MSD分割:优化C4.5算法和随机森林面向倾斜连续特征变量的方法
原文标题: Adaptive MSD-Splitting: Enhancing C4.5 and Random Forests for Skewed Continuous Attributes
发布时间: 2026-04-21
论文链接:http://arxiv.org/abs/2604.19722v1
连续数值属性的离散化在决策树诱导过程中始终是一个顽固的计算瓶颈(尤其在数据集维度规模扩大时)。基于近期提出的MSD-分割技术——该技术利用经验均值与标准差对连续数据进行分箱以显著提升C4.5算法效率和精度的框架——我们提出自适应MSD-分割(AMSD)。虽然传统MSD-分割对近似对称分布的数据处理效果优异但其僵化的固定一标准差截断机制会导致高度偏斜数据(这在现实世界的生物医学及金融场景中普遍存在)产生灾难性信息损失;而AMSD通过基于特征偏斜度的动态标准差倍数调整机制实现突破:既能在密集区域通过缩小分箱区间保留区分能力又能在稀疏区域扩展分箱范围捕捉潜在模式差异。进一步将此创新整合至随机森林框架形成RF-AMSD架构后实验表明:相较传统方法(节省约80%计算量),该体系不仅带来2%-4%的平均精度增益(经Census Income/Heart Disease/Breast Cancer/Forest Covertype四大基准测试验证),更保持了线性时间复杂度优势(传统穷举搜索需O(N log N)时间而本方案仅需O(N)时间)。这种兼顾效率与精度的创新验证了自适应统计分箱在大规模集成学习系统中的可行性价值
6. FASTER:值引导采样加速强化学习 原文标题: FASTER: Value-Guided Sampling for Fast RL 发布时间: 2026-04-21 论文链接:http://arxiv.org/abs/2604.19730v1 目前部分高效强化学习算法因测试时缩放策略(如采样多个动作候选并选最优)而计算成本过高。本文提出FASTER方法:通过追踪动作采样方案的性能增益反向定位至去噪早期阶段以实现高效优化。核心思路是将多动作候选筛选建模为马尔可夫决策过程(MDP),目标是在去噪完成前逐步过滤候选动作以最大化收益函数值。该轻量级方案可直接集成至现有生成式强化学习框架。在长周期机械臂操作等复杂任务测试中(含在线和批处理在线RL环境),FASTER不仅显著降低训练和推理计算需求(相比预训练VLA模型减少约40%),还持续提升基础策略性能并达到最优表现。代码已开源:https://github.com/alexanderswerdlow/faster
6. FASTER: 值引导采样以加速强化学习
原文标题: FASTER: Value-Guided Sampling for Fast RL
发布时间: 2026-04-21
论文链接:http://arxiv.org/abs/2604.19730v1
当前最高效的强化学习算法中的一些方法因采用测试时缩放策略(如通过采样多个动作候选方案并从中选择最优者)而计算成本过高。本文提出FASTER方法:通过追踪动作采样方案的性能增益反向定位至去噪过程的早期阶段来实现高效优化。核心思想是将多动作候选方案的筛选建模为马尔可夫决策过程(MDP),其中目标是在去噪完成前逐步过滤候选动作以最大化收益函数值。该轻量级方案可直接集成到现有生成式强化学习框架中。在长周期机械臂操作等复杂任务测试中(包括在线和批处理在线RL环境),FASTER不仅显著降低训练和推理的计算需求(相比预训练VLA模型减少约40%计算量),还持续提升基础策略性能并达到最优综合表现。代码已开源:https://github.com/alexanderswerdlow/faster
7. 有界比率强化学习 原文标题: Bounded Ratio Reinforcement Learning 发布时间: 2026-04-20 论文链接:http://arxiv.org/abs/2604.18578v1 近端策略优化(PPO)已成为基于策略的强化学习主流算法,因其可扩展性和跨领域鲁棒性备受关注。但现有信任域方法的理论基础与PPO的启发式裁剪目标函数存在显著鸿沟。本文通过提出受限比率强化学习(BRRL)框架弥合鸿沟:我们设计了新型带约束的规范化策略优化问题并推导出解析最优解,严格证明该解保证性能单调提升;针对参数化策略空间开发了带约束的策略优化算法BPO(Bounded Policy Optimization),通过最小化策略与BRRL解析最优解的优势加权分布距离来优化;建立了BPO损失函数与期望性能下界关系;该框架为解释PPO成功提供了新视角并建立了信任域策略优化与交叉熵法(CEM)的理论关联;同时将BPO扩展为群体相对BPO(GBPO)用于大语言模型微调。实验表明:在MuJoCo、Atari及IsaacLab环境(如人形机器人运动控制)中测试的BPO算法,以及在LLM微调中测试的GBPO算法,均展现出比PPO和GRPO更优的稳定性和最终性能。
7. 有界比率强化学习
原文标题: Bounded Ratio Reinforcement Learning
发布时间: 2026-04-20
论文链接:http://arxiv.org/abs/2604.18578v1
近端策略优化(PPO)已成为基于策略的强化学习的主流算法,因其可扩展性和跨领域的实证鲁棒性而广受关注。然而现有信任域方法的理论基础与PPO采用的启发式裁剪目标函数之间存在显著鸿沟。本文通过提出受限比率强化学习(BRRL)框架弥合这一鸿沟:我们设计了一个新型带约束的规范化策略优化问题并推导出其解析最优解,严格证明了该解能保证性能单调提升;针对参数化策略空间开发了带约束的策略优化算法BPO(Bounded Policy Optimization),通过最小化策略与BRRL解析最优解的优势加权分布距离来优化;进一步建立了BPO损失函数与期望性能的下界关系;特别地,该框架为解释PPO成功提供了新理论视角并建立了信任域策略优化与交叉熵法(CEM)的理论关联;同时将BPO扩展为群体相对BPO(GBPO)用于大语言模型微调任务。实验表明:在MuJoCo、Atari及复杂IsaacLab环境(如人形机器人运动控制)中测试的BPO算法与在LLM微调任务中测试的GBPO算法均展现出比PPO和GRPO更优的稳定性和最终性能表现
8. 面向医疗系统规模的多模态时间感知虚拟患者基础模型 原文标题: A multimodal and temporal foundation model for virtual patient representations at healthcare system scale 发布时间: 2026-04-20 论文链接:http://arxiv.org/abs/2604.18570v1 现代医学在孤立系统中生成庞大多模态数据集,但现有模型尚无法将完整临床记录的时间维度与多模态特征整合为统一患者表征。我们提出Apollo模型——一个基于超过三十年纵向医院记录训练的多模态时间基础模型。该模型的数据