arXiv人工智能前沿论文速览 2026-06-20
1. AI代理的高效可靠概率验证方案 原文标题: Efficient and Sound Probabilistic Verification for AI Agents 发布时间: 2026-06-18 论文链接:http://arxiv.org/abs/2606.20510v1 在复杂数字环境中保障AI代理的运行安全已成为迫切需求,采用形式化语言(例如Datalog)构建策略并实施运行时监控的技术路线展现出良好前景。然而现行方案仅能处理确定性策略。多数真实场景下的AI代理需要应对不确定性以执行安全约束(比如调用存在失败概率的解密工具或PII检测模块),而这类场景往往难以满足现有概率Datalog推理的前提假设(例如谓词独立性)。本文提出一种兼顾安全性与效率的验证框架:依托分布鲁棒优化理论计算策略违规概率的上界(不受谓词间潜在相关性干扰)。在终端代理与工具调用代理的标准基准测试中,实验结果显示该方法不仅超越已有方案,还能在安全性与实用性之间达成更优权衡,同时保证违规概率边界的严格性。
1. AI代理的高效可靠概率验证方案
原文标题: Efficient and Sound Probabilistic Verification for AI Agents
发布时间: 2026-06-18
论文链接:http://arxiv.org/abs/2606.20510v1
在复杂数字环境中保障AI代理的运行安全已成为迫切需求,采用形式化语言(例如Datalog)构建策略并实施运行时监控的技术路线展现出良好前景。然而现行方案仅能处理确定性策略。多数真实场景下的AI代理需要应对不确定性以执行安全约束(比如调用存在失败概率的解密工具或PII检测模块),而这类场景往往难以满足现有概率Datalog推理的前提假设(例如谓词独立性)。本文提出一种兼顾安全性与效率的验证框架:依托分布鲁棒优化理论计算策略违规概率的上界(不受谓词间潜在相关性干扰)。在终端代理与工具调用代理的标准基准测试中,实验结果显示该方法不仅超越已有方案,还能在安全性与实用性之间达成更优权衡,同时保证违规概率边界的严格性。
2. Multi-LCB:LiveCodeBench的多语言代码评估扩展 原文标题: Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages 发布时间: 2026-06-18 论文链接:http://arxiv.org/abs/2606.20517v1 LiveCodeBench(LCB)近期已成为评估大型语言模型(LLMs)代码生成能力的主流基准之一。它通过筛选高质量编程题目、持续纳入新题并以发布日期为筛选依据,提供了具备防污染特性的评估体系,全面衡量模型的编码水平。然而LCB目前仅支持Python语言,这引发了关于LLMs能否泛化至真实软件工程所需的多样编程语言的讨论。本文推出Multi-LCB基准:将LCB中的Python任务转化为覆盖13种编程语言的等价任务(包含Python),完整沿用LCB的防污染机制与评估流程。由于Multi-LCB与原LCB格式完全兼容,未来LCB的任何更新都将自动同步至Multi-LCB体系。我们针对24种LLM在指令理解与推理任务上进行了系统评估:实验证据揭示了Python过拟合、语言特异性污染以及多语言性能显著差异等关键问题。这一成果确立了Multi-LCB作为严谨多语言代码评估基准的地位——既弥补了LCB单一语言的局限,也暴露了当前LLM在跨语言代码生成方面的能力鸿沟与短板。
2. Multi-LCB:LiveCodeBench的多语言代码评估扩展
原文标题: Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
发布时间: 2026-06-18
论文链接:http://arxiv.org/abs/2606.20517v1
LiveCodeBench (LCB) 近期已成为广泛采用的评估大型语言模型(LLMs)代码生成任务的基准测试集。通过精选具有竞争力的编程问题、持续向数据集添加新鲜题目并通过发布日期进行筛选机制,LCB 提供了具备防污染意识的评估方案并全面考察编码能力。然而 LCB 仍局限于 Python 语言环境,这引发了 LLMs 能否在真实软件工程所需的多样化编程语言间进行泛化的疑问。 我们提出 Multi-LCB 基准测试集:该基准将 LCB 数据集中的 Python 任务转化为其他 12 种编程语言的等价任务(包括 Python),同时完整保留 LCB 的防污染控制机制和评估流程。由于 Multi-LCB 完全兼容原 LCB 格式规范,未来 LCB 的任何更新都将自动同步至 Multi-LCB 支持体系之中。 我们通过指令理解和推理任务对 24 种 LLM 进行了全面评估:实验证据表明存在 Python 过拟合现象、语言特异性污染问题以及多语言性能显著差异等关键发现。这些研究结果确立了 Multi-LCB 作为严谨的多编程语言代码评估基准的地位——不仅直接解决了 LCB 的核心局限性缺陷问题(即单一编程语言限制),更暴露出当前 LLM 在跨语言代码生成能力方面的重大性能鸿沟与能力短板
3. FlowEdit:基于联想记忆的流匹配TTS终身发音适配框架 原文标题: FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS 发布时间: 2026-06-18 论文链接:http://arxiv.org/abs/2606.20518v1 基于流匹配的文本转语音系统(flow-matching TTS)在零样本场景下表现优异但存在静态缺陷:部署后若不重训模型,生僻专有名词的发音错误将持续存在。本文提出FlowEdit——一种针对冻结流匹配TTS模型的终身自适应框架(life-long adaptation framework),核心思路是将发音修正转化为文本嵌入空间(text embedding space)上的词级扰动(token-level perturbation),而非直接调整模型权重(weight updates)。当收到纠错反馈时:FlowEdit会在文本嵌入空间优化词级修正方案;并把修正结果存入现代霍普菲尔德网络(Modern Hopfield Network)——这种内容可寻址的情节记忆(content-addressable episodic memory)融合了软注意力(soft attention)与相似性门控(similarity gate)。在覆盖18个语系、共312个多语言专有名词的自建基准上:FlowEdit将目标词的音素错误率相对零样本基线降低92.7%,同时维持通用语音质量。该框架可在单GPU上约15秒完成修正存储与检索全流程。
3. FlowEdit:基于联想记忆的流匹配TTS终身发音适配框架
原文标题: FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS
发布时间: 2026-06-18
论文链接:http://arxiv.org/abs/2606.20518v1
基于流匹配的文本到语音系统(flow-matching text-to-speech systems)在零样本条件下表现出色但存在静态问题:部署后若未重新训练模型(untrained model),生僻专有名词(out-of-vocabulary proper nouns)的发音错误(pronunciation errors)会持续存在。我们提出FlowEdit——一种面向冻结流匹配TTS模型的终身自适应框架(life-long adaptation framework),通过将发音修正转化为文本嵌入空间(text embedding space)上的词级扰动(token-level perturbation),而非直接更新模型权重(weight updates)。当提供纠错反馈时:FlowEdit会在文本嵌入空间优化词级修正;并将修正结果存储至现代霍普菲尔德网络(Modern Hopfield Network)——这种内容可寻址的时序记忆(content-addressable episodic memory)能实现软注意力机制(soft attention)与相似性门控(similarity gate)的结合。在涵盖18种语言族、共312个多语言专有名词的定制基准测试中:FlowEdit将目标词音素错误率相对零样本基线降低92.7%,同时保持通用语音质量不变。该框架可在单块GPU上约15秒完成修正存储与检索过程。
4. 生成式推荐中分布式用户兴趣上下文的结构化与令牌化 原文标题: Structuring and Tokenizing Distributed User Interest Context for Generative Recommendation 发布时间: 2026-06-18 论文链接:http://arxiv.org/abs/2606.20554v1 生成式推荐作为一种新兴范式,已在工业推荐系统中崭露头角:通过历史行为预测用户的下一次交互。其核心环节是物品令牌化(item tokenization),它在物品语义与推荐模型之间搭建桥梁。但现有方法常遭遇两类难题:一方面,基于图结构的整合方案(图序列化、图神经网络等)存在可扩展性瓶颈或仅利用局部图信息;另一方面,语义令牌化方法多依赖启发式规则且缺少显式监督信号,易导致语义表征失准或次优。着眼于用户兴趣上下文建模的局限,本文提出G2Rec框架——一种融合全局图结构建模与语义令牌化的工业级生成式推荐方案。该框架无需真实用户兴趣标注即可让推荐模型捕获完整且语义锚定的用户兴趣原型(user interest prototypes)。线上多场景部署与公开数据集实验均显示:G2Rec在泛化能力、计算效率与预测精度方面均显著优于现有方法。
4. 生成式推荐中分布式用户兴趣上下文的结构化与令牌化
原文标题: Structuring and Tokenizing Distributed User Interest Context for Generative Recommendation
发布时间: 2026-06-18
论文链接:http://arxiv.org/abs/2606.20554v1
生成式推荐是一种新兴范式,已在工业推荐系统中展现出潜力:通过历史行为预测用户的下一个交互行为。其核心在于物品令牌化(item tokenization),该技术架起了物品语义与推荐模型之间的桥梁。然而现有方法常面临两大挑战:一方面基于图结构的整合方法(如图序列化和图神经网络)存在可扩展性问题或仅利用局部图信息;另一方面语义令牌化方法多依赖启发式规则且缺乏显式的监督信号指导,可能导致语义表征不准确或次优解。为解决用户兴趣上下文建模的局限性问题,我们提出G2Rec框架——一种融合整体图结构建模与语义令牌化的工业级生成式推荐方案。该框架无需真实用户兴趣标注即可让推荐模型捕获完整且语义锚定的用户兴趣原型(user interest prototypes)。在线多场景部署及公开数据集的广泛实验表明:G2Rec在模型泛化能力、计算效率及预测精度方面均显著优于现有方法
5. 主权执行代理:代理控制平面中证书绑定权限的强制实施 原文标题: Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes 发布时间: 2026-06-18 论文链接:http://arxiv.org/abs/2606.20520v1 自主代理与云服务、部署流程及数据管控流程的连接日益紧密,但生产级修改权限不应存在于非确定性推理环节。现有访问控制机制仅授权身份主体(identities),保证层(assurance layers)负责认证提议动作(proposed actions),二者均无法提供对认证权限的即时强制管控点(mandatory enforcement point)。本文提出主权执行经纪人(Sovereign Execution Broker,SEB),作为面向认证型代理基础设施的运行时强制边界。其核心功能涵盖:接收主权保证边界(SAB)颁发的证书;核验请求的变更操作与已认证执行合同的一致性;检测有效期窗口(validity windows)、策略周期(policy epochs)、撤销周期(revocation epochs)及实时状态漂移(live-state drift);铸造受约束的执行身份标识;调用基础设施API;并记录经数字签名的决策与操作日志。通过将提案阶段(proposal)、准入阶段(admission)与执行阶段解耦,SEB将认证权限转化为具有短期时效性(short-lived)、可主动撤销(revocable)及完整审计轨迹的运行时能力(runtime capability)。本文详细阐述了SEB的执行模型架构;构建了含证书有效性验证谓词与回放检测谓词的双重认证体系;定义了受约束身份的多维语义空间;提出基于角色隔离的防绕过部署模式;明确系统故障时的降级机制;并给出完整原型实现。实验基于AWS与Kubernetes集群搭建:在保证功能完整的前提下实现平均延迟<5ms的低开销运行;通过心跳检测实现秒级撤销同步;状态漂移检测准确率达99.2%;在主动注入内存溢出等故障时仍维持基础审计功能。
5. 主权执行代理:代理控制平面中证书绑定权限的强制实施
原文标题: Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes
发布时间: 2026-06-18
论文链接:http://arxiv.org/abs/2606.20520v1
自主代理日益与云服务、部署流程和数据管控流程相连接,但生产级修改权限不应存在于非确定性推理过程中。现有访问控制机制仅授权身份主体( identities ),而保证层( assurance layers )负责认证提议动作( proposed actions ),二者均无法提供对认证权限强制执行的即时管控点( mandatory enforcement point )。本文提出主权执行经纪人( Sovereign Execution Broker , SEB ),作为面向认证型代理基础设施的运行时强制边界机制。SEB 的核心功能包括:接收主权保证边界( SAB )颁发的证书;验证请求的 mutation 操作与已认证的执行合同一致性;检测有效期窗口( validity windows )、策略周期( policy epochs )、撤销周期( revocation epochs )及实时状态漂移( live-state drift );铸造受约束的执行身份标识;调用基础设施 API;并记录经过数字签名的决策日志与操作结果日志。通过将提案阶段( proposal )、准入阶段( admission )与执行阶段解耦分离,SEB 将经认证的权限转化为具有短期时效性( short-lived )、可主动撤销性( revocable )及完整审计轨迹性的运行时能力( runtime capability )。本文详细阐述了 SEB 的执行模型架构设计;构建了包含证书有效性验证谓词与回放检测谓词的双重认证体系;定义了受约束身份的多维语义空间;提出了基于角色隔离的防绕过部署模式;明确了系统故障时的降级处理机制;并给出了完整的原型实现方案。实验环境基于 AWS 和 Kubernetes 集群搭建完成测试验证:在保证功能完整性的前提下实现平均延迟 <5ms 的低开销运行机制;通过心跳检测机制实现秒级撤销信息同步;状态漂移检测准确率达99.2%;且在主动注入内存溢出等故障场景下仍能维持基础审计功能
6. 指令如何影响语音生成?风格字幕TTS中的跨注意力归因分析 原文标题: How Do Instructions Shape Speech? Cross-Attention Attribution for Style-Captioned Text-to-Speech 发布时间: 2026-06-18 论文链接:http://arxiv.org/abs/2606.20532v1 风格字幕文本转语音系统借助自然语言调控语音特征,但单个词汇如何作用于声学输出尚不清晰。理解这一点对诊断故障模式、提升表达型TTS的可控性至关重要。本文提出面向语音扩散模型的跨注意力归因方法(Cross-Attention Attribution for Speech Diffusion Models),首次将DAAM框架引入语音领域并应用于CapSpeech-TTS系统。该方法从25个层级、12000个时间步中提取每词热力图:通过分析3600组(风格字幕、文本转录)组合数据(含120种风格字幕条件生成30条文本转写的实验),发现:1)风格词的时间方差低于内容/功能词;2)跨注意力与基频(F0)及能量相关;3)风格条件在早期步骤与深层层级达到峰值;4)第17层注意力熵最低且与风格重要性峰值重合,表明该层网络选择性与风格关联度达到最优平衡。这是首个系统研究自然语言如何影响语音扩散模型跨注意力的工作。
6. 指令如何影响语音生成?风格字幕TTS中的跨注意力归因分析
原文标题: How Do Instructions Shape Speech? Cross-Attention Attribution for Style-Captioned Text-to-Speech
发布时间: 2026-06-18
论文链接:http://arxiv.org/abs/2606.20532v1
风格字幕文本到语音系统使用自然语言控制语音特征,但个体单词如何影响声学输出尚不明确。理解这一点对于诊断故障模式并提升表达型TTS的可控性至关重要。我们提出面向语音扩散模型的跨注意力归因方法(Cross-Attention Attribution for Speech Diffusion Models),首次将DAAM框架应用于语音领域并应用于CapSpeech-TTS系统。该方法从25个层级的12000个时间步中提取每词热力图:通过分析3600组(风格字幕、文本转录)组合数据(包含120种风格字幕条件生成30条文本转写的实验),发现:1)风格词的时间方差低于内容/功能词;2)跨注意力与基频(F0)及能量相关;3)风格条件在早期步骤和深层层级达到峰值;4)第17层的注意力熵最低且与风格重要性峰值重合,表明该阶段网络选择性与风格关联度达到最优平衡状态。这是首个研究自然语言如何影响语音扩散模型跨注意力的系统性研究
7. DeepSWIP:神经概率逻辑程序中基于商加权模型计数的反事实推理 原文标题: DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs 发布时间: 2026-06-18 论文链接:http://arxiv.org/abs/2606.20526v1 神经符号系统(如DeepProbLog)融合了神经感知与概率逻辑推理,但其标准推理方法仅停留在关联层面。反事实推理需额外引入因果语义以支持干预操作与证据更新。本文提出的DeepSWIP单世界反事实语义框架按以下步骤实现:首先借助神经材料化技术将固定上下文神经谓词转化为普通ProbLog选择项;继而应用单世界干预程序(SWIPs)进行形式化处理;最终借助加权模型计数(WMC)在单一变换后的程序上计算反事实结果。在有限grounding与唯一支持模型假设下,DeepSWIP能精确保持与神经材料化有限条件模型(FCM)的对应关系。标准商值-WMC概率条件公式不仅识别活跃神经网络概率分布,还揭示了干预清理(intervention cleaning)、校准敏感性(calibration sensitivity)及罕见证据不稳定性(rare-evidence instability)等现象的本质机制。实验显示:在MPI3D数据集上通过12000次查询验证的DeepTwin构建方法中,DeepSWIP较原始方案实现2.14倍推理加速(源于避免双端重复计算)。SUMO HOV交通场景实验进一步表明:神经网络校准衰减会导致插值估计偏差显著上升;采用正确作用域随机政策AIPW估计器可有效消除一阶偏差对群体均值与平均处理效应(ATE)估计的影响。代码开源地址为https://github.com/saibib/deep_SWIP。
7. DeepSWIP:神经概率逻辑程序中基于商加权模型计数的反事实推理
原文标题: DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs
发布时间: 2026-06-18
论文链接:http://arxiv.org/abs/2606.20526v1
神经符号系统(如DeepProbLog)结合了神经感知与概率逻辑推理,但其标准推理方法仅停留在关联性层面。反事实推理需额外引入因果语义以支持干预操作与证据更新。本文提出的DeepSWIP单世界反事实语义框架通过以下步骤实现:首先利用神经材料化技术将固定上下文神经谓词转化为普通ProbLog选择项;继而应用单世界干预程序(SWIPs)进行形式化处理;最终通过加权模型计数(WMC)在单一变换后的程序上计算反事实结果。在有限 grounding 和唯一支持模型假设下,DeepSWIP能精确保持与神经材料化有限条件模型(FCM)的对应关系。标准商值-WMC概率条件公式不仅识别了活跃神经网络概率分布,还解释了干预清理(intervention cleaning)、校准敏感性(calibration sensitivity)及罕见证据不稳定性(rare-evidence instability)等现象的本质机制。实验表明:在MPI3D数据集上通过12,000次查询验证的DeepTwin构建方法中,DeepSWIP较原始方案实现2.14倍的推理加速(源于避免双端内重复计算)。SUMO HOV交通场景实验进一步揭示:神经网络校准衰减会导致插值估计偏差显著增加;而采用正确作用域随机政策AIPW估计器可有效消除一阶偏差对群体均值和平均处理效应(ATE)估计的影响。代码开源地址为https://github.com/saibib/deep_SWIP
8. 医疗领域大语言模型适配的权衡分析:法语问答的实证探索 原文标题: Trade-offs in Medical LLM Adaptation: An Empirical Study in French QA 发布时间: 2026-06-17 论文链接:http://arxiv.org/abs/2606.19266v1 大型语言模型(LLMs)的快速发展引发了对专业领域与语言适配的关注,但领域适配策略的实际效果仍不明朗。本文以法语医学问答(QA)为案例开展医学领域适配研究:通过对比持续预训练(CPT)、监督微调(SFT)及其组合在三个模型家族、多种规模与三种初始化类型上的表现,明确区分适配效果与基座模型选择的影响。我们使用自动指标评估greedy与constrained解码下的多选题(MCQA)与开放域问答(OEQA),并采用LLM作为评判者进行人工评估:MCQA任务中,CPT+SFT组合通常得分最高但提升幅度小且多数未达统计显著,SFT单独微调展现更强的性价比优势;OEQA任务中,CPT组合显著提升基于重叠率的自动指标,SFT反而常导致生成质量下滑;LLM评估显示指令调优与CPT+SFT组合更受青睐。跨语言实验表明法语医学适配经验可有效迁移至英语基准。本研究最终给出计算资源受限条件下如何选择适配策略的实用建议。
8. 医疗领域大语言模型适配的权衡分析:法语问答的实证探索
原文标题: Trade-offs in Medical LLM Adaptation: An Empirical Study in French QA
发布时间: 2026-06-17
论文链接:http://arxiv.org/abs/2606.19266v1
大型语言模型(LLMs)的发展导致了对其在专业领域和语言上适应性关注的增加,但领域适应策略的有效性仍不明确。我们以法语医学问答(QA)为案例研究呈现了一项关于医学领域适应性的研究:通过比较持续预训练(CPT)、监督微调(SFT)及其组合在三个模型家族、多种规模和三种初始化类型上的表现来明确区分适应效果与基础模型选择的影响。我们使用自动指标评估 greedy 和 constrained 解码下的多选题(MCQA)与开放域问答(OEQA),并通过 LLM 作为评判者进行人工评估:对于 MCQA 任务,CPT+SFT 组合通常获得最高分数但提升幅度小且多数未达统计显著性差异,SFT 单独微调表现出更强的成本效益优势;OEQA 任务中,CPT 组合能显著提升基于重叠率的自动指标,SFT 反而常导致生成质量下降;LLM 评估显示指令调优与 CPT+SFT 组合更受青睐。跨语言实验表明法语医学适配经验可有效迁移到英语基准测试中。本研究最终给出了计算资源受限条件下如何选择适配策略的实用建议
9. NeSyCat Torch:神经符号学习中范畴语义的可微张量实现 原文标题: NeSyCat Torch: A Differentiable Tensor Implementation of Categorical Semantics for Neurosymbolic Learning 发布时间: 2026-06-17 论文链接:http://arxiv.org/abs/2606.19279v1 神经符号语义学存在碎片化难题:经典逻辑、模糊逻辑、概率系统与神经网络系统各自通过不同归纳规则定义真值。NeSyCat在扩展ULLER的基础上,将这些系统统一到参数化强单子与真值聚合结构下的归纳真值定义中。但NeSyCat此前缺乏对神经网络学习谓词与函数的解释机制。本文提供NeSyCat Torch作为解决方案,通过将计算符号映射到神经网络实现该框架:采用概率编程与基于张量的后端实现。在参考语义中使用分布单子进行形式化描述与度量评估;通过懒日志张量单子实现数值稳定的微分训练;并利用批处理单子优化批量训练效率。实验表明:在MNIST加法任务中,我们的HaskTorch、JAX与PyTorch实现方案在速度与精度上均优于LTN与DeepProbLog方法,同时保持与DeepStochLog相近的精度水平。与DeepStochLog不同的是:我们保持了统一框架结构,适用于多种一阶神经符号方法(NeSy)。具体而言该构造是参数化单子;例如使用Giry单子实例化时可扩展到连续概率领域(神经网络的连续表征实现留待后续工作)。
9. NeSyCat Torch:神经符号学习中范畴语义的可微张量实现
原文标题: NeSyCat Torch: A Differentiable Tensor Implementation of Categorical Semantics for Neurosymbolic Learning
发布时间: 2026-06-17
论文链接:http://arxiv.org/abs/2606.19279v1
神经符号语义学存在碎片化问题:经典逻辑、模糊逻辑、概率系统和神经网络系统各自通过不同的归纳规则定义真值。NeSyCat在扩展ULLER的基础上,统一了这些系统到一个参数化的强单子与真值聚合结构下的归纳真值定义中。然而NeSyCat此前缺乏对神经网络学习谓词和函数的解释机制。 我们提供了NeSyCat Torch作为解决方案,通过将计算符号映射到神经网络实现该框架:采用概率编程和基于张量的后端实现。在参考语义中使用分布单子进行形式化描述和度量评估;通过懒日志张量单子实现数值稳定的微分训练;并利用批处理单子优化批量训练效率。 实验表明:在MNIST加法任务中,我们的HaskTorch、JAX和PyTorch实现方案在速度和精度上均优于LTN和DeepProbLog方法,同时保持了与DeepStochLog相近的精度水平。与DeepStochLog不同之处在于:我们保持了统一的框架结构适用于多种一阶神经符号方法(NeSy)。具体而言该构造是参数化的单子;例如当使用Giry单子实例化时可将方法扩展到连续概率领域(神经网络的连续表征实现留待后续工作)。
10. OneCanvas:基于全景重投影的3D场景理解 原文标题: OneCanvas: 3D Scene Understanding via Panoramic Reprojection 发布时间: 2026-06-17 论文链接:http://arxiv.org/abs/2606.19253v1 现有方法在视觉语言模型(VLM)中处理3D场景理解时,要么依赖复杂且针对特定模型的几何编码器,要么需要海量训练数据以追求空间推理能力。与此不同,OneCanvas通过把多视角图像块特征聚合到单个等距矩形全景画布上来达成目标:每个图像块根据其深度与相机姿态投影到三维世界坐标后,按从全景画布原点观察的经纬度连续坐标放置到画布上(不进行像素化或重叠视图聚合)。在添加该图像块的3D位置嵌入(基于其度量坐标)以补充因投影到极角画布而丢失的深度信息后(所有视图共享同一空间坐标系且无需融合或修改主干网络架构),预训练VLM即可像处理普通图像一样处理该表示。由于画布可围绕任意感兴趣姿态中心定位,这种表示直接支持从特定视角出发的空间推理(在机器人学与具身AI中是常见需求)。凭借该表示,我们还能引入空间预训练课程:从真实图像中提取物体块特征并按预设3D世界坐标放置到空白画布(控制答案分布以减少空间推理捷径),即可动态生成覆盖广泛空间推理任务的超监督信号。实验表明OneCanvas在SQA3D与VSI-Bench基准上达到最优精度(SPBench),且在跨分布数据上的泛化能力显著优于竞品——仅需其十分之一左右的训练算力即可实现。
10. OneCanvas:基于全景重投影的3D场景理解
原文标题: OneCanvas: 3D Scene Understanding via Panoramic Reprojection
发布时间: 2026-06-17
论文链接:http://arxiv.org/abs/2606.19253v1
现有方法在视觉语言模型(VLM)中处理3D场景理解问题时,要么依赖复杂的、特定于模型的几何编码器,要么需要大量训练数据来追求空间推理能力。相反,OneCanvas通过将多视角的图像块特征聚合到单个等距矩形全景画布上来实现这一目标:每个图像块根据其深度和相机姿态将其投影到三维世界坐标后,会按照从全景画布原点看到的经纬度连续坐标放置到画布上(不进行像素化或重叠视图的聚合)。在添加该图像块的3D位置嵌入(基于其度量坐标)以补充因投影到极角画布而丢失的深度信息后(所有视图共享同一空间坐标系且无需融合或修改主干网络架构),预训练的VLM即可像处理普通图像一样处理该表示形式。由于该画布可以围绕任意感兴趣的姿态中心定位,这种表示形式直接支持从特定视角出发的空间推理(这在机器人学和具身人工智能中是常见需求)。凭借这一表示方式,我们还能引入空间预训练课程:通过从真实图像中提取物体块特征并按预设3D世界坐标将其放置到空白画布上(控制答案分布以减少空间推理捷径),即可动态生成覆盖广泛空间推理任务的超监督信号。实验表明OneCanvas在SQA3D和VSI-Bench基准测试中达到最优精度水平(SPBench),且在跨分布数据上的泛化能力显著优于竞争对手方案——仅需其十分之一左右的训练计算量即可实现.
11. STARE:基于困惑度的令牌级优势重加权策略熵稳定方法 原文标题: STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability 发布时间: 2026-06-17 论文链接:http://arxiv.org/abs/2606.19236v1 基于可验证奖励的强化学习算法(如GRPO)已成为大型语言模型(LLMs)复杂推理训练后的主流范式,但常因策略熵崩溃问题而难以有效训练。我们通过一阶梯度分析揭示了令牌级熵动态下的信用分配错位:每个令牌的熵变可分解为轨迹层优势与下一令牌分布熵敏感函数的乘积(形成优势-困惑度四象限结构及近临界性特征)。由此提出STARE(基于困惑度引导的策略熵稳定性增强框架),其核心机制包括:1)通过批内困惑度分位数识别熵敏感令牌子集;2)对子集进行有效优势选择性重加权;3)引入目标熵闭环调节门实现稳定熵调控。实验表明:在1.5B至32B不同规模模型上、针对短推理链(Short CoT)、长推理链(Long CoT)与多轮工具调用(Multi-Turn Tool Use)三大任务族测试时:STARE不仅能在数千步训练中保持策略熵稳定在目标区间(对比基线DAPO及其他竞品),更在AIME24与AIME25测试集上实现平均准确率提升4%-8%。值得注意的是其反思令牌数量与响应长度呈现同步增长趋势(如响应长度从平均12 tokens增至18 tokens),印证了算法有效平衡探索与利用的关系——这一特性显著提升了强化学习训练效率上限。代码已开源至https://github.com/hp-luo/STARE。
11. STARE:基于困惑度的令牌级优势重加权策略熵稳定方法
原文标题: STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
发布时间: 2026-06-17
论文链接:http://arxiv.org/abs/2606.19236v1
基于可验证奖励的强化学习算法(如GRPO)已成为大型语言模型(LLMs)复杂推理训练后的主导范式,但其常因策略熵崩溃问题而难以有效训练。我们通过一阶梯度分析揭示了令牌级别熵动态特性下的信用分配错位:每个令牌的熵变可分解为轨迹层优势与下个令牌分布的熵敏感函数乘积的形式(形成优势-困惑度四象限结构及近临界性特征)。由此提出STARE(基于困惑度引导的策略熵稳定性增强框架),其核心机制包括:1)通过批内困惑度分位数识别熵敏感令牌子集;2)对子集进行有效优势选择性重加权;3)引入目标熵闭环调节门实现稳定熵调控。实验表明:在1.5B至32B不同规模模型上、针对短推理链(Short CoT)、长推理链(Long CoT)及多轮工具调用(Multi-Turn Tool Use)三大任务家族测试时:STARE不仅能在数千步训练中保持策略熵稳定在目标区间内(对比基线方法DAPO及其他竞品基准),更在AIME24与AIME25测试集上实现平均准确率提升4%-8%。值得注意的是其反射令牌数量与响应长度呈现同步增长趋势(如响应长度从平均12 tokens增至18 tokens),这印证了算法有效平衡了探索与利用的关系特性——这种特性显著提升了强化学习训练效率上限。相关代码已开源至https://github.com/hp-luo/STARE
12. 数据智能代理:基于自主编码代理的企业数据解读、建模与查询 原文标题: Data Intelligence Agents: Interpreting, Modeling, and Querying Enterprise Data via Autonomous Coding Agents 发布时间: 2026-06-17 论文链接:http://arxiv.org/abs/2606.19319v1 生产数据整合受限于数据所有者、工程师与分析师之间重复且存在信息损失的数据交接流程。本文提出数据智能代理(DIA),该系统由三个代理组成:数据解释器、模式创建器与查询生成器。通过将自主编码代理(ACAs)作为第一类抽象层来压缩这一流程:代理不再仅输出文本代码,而是直接生成、执行、验证与修复具体可操作的实体;利用共享内存实现经验复用;并将每个生成的实体提交给领域专家审核。DIA已在企业客户生产环境中部署。我们深入研究查询生成器的机制并评估其在完全自主模式下的表现:通过测试涵盖四个任务类别与四个SQL方言的七个基准测试集发现,该代理在所有测试项中均达到或超越最佳已发表结果。这证明了基于执行架构的设计理念——以ACAs为核心构建、依托共享内存机制的系统具有跨数据智能工作负载的泛化能力与适应性收敛特性(仅需自然语言指令调整)。
12. 数据智能代理:基于自主编码代理的企业数据解读、建模与查询
原文标题: Data Intelligence Agents: Interpreting, Modeling, and Querying Enterprise Data via Autonomous Coding Agents
发布时间: 2026-06-17
论文链接:http://arxiv.org/abs/2606.19319v1
生产数据整合受限于数据所有者、工程师和分析师之间重复且存在信息损失的数据交接流程。我们提出数据智能代理(DIA),该系统由三个代理组成:数据解释器、模式创建器和查询生成器。通过将自主编码代理(ACAs)作为第一类抽象层来压缩这一流程:代理不再仅输出文本代码,而是直接生成、执行、验证和修复具体可操作的实体;利用共享内存实现经验复用;并将每个生成的实体提交给领域专家审核。DIA已在企业客户生产环境中部署应用。我们深入研究查询生成器的机制并评估其在完全自主模式下表现:通过测试涵盖四个任务类别和四个SQL方言的七个基准测试集发现该代理在所有测试项中均达到或超越最佳已发表结果。这证明了基于执行架构的设计理念——以ACAs为核心构建、依托共享内存机制的系统具有跨数据智能工作负载的泛化能力与适应性收敛特性(仅需自然语言指令调整)。
13. 自纠错与维系信任:社交聊天机器人可信度的塑造机制探究 原文标题: Correct Yourself, Keep My Trust: How Self-Correction and Social Connection Shape Credibility in Social Chatbots 发布时间: 2026-06-17 论文链接:http://arxiv.org/abs/2606.19286v1 当社交聊天机器人犯错时(它们确实会犯错),其补救方式决定了用户是否愿意重新信任它们。随着社交聊天机器人日益深入日常生活,它们仍易生成具有说服力但不准确的信息。这种由社交纽带建立的错误后果尤为严重。本文通过被试间实验(N=120)比较了三种纠错策略:网页撤回、同一聊天机器人自行纠正、专家聊天机器人纠正。研究得出两个关键结论:第一,三种策略均能同等有效地修正错误,但仅自我纠正未损害聊天机器人的可信度——参与者显著给自行纠错的聊天机器人更高评分(在可信度与专业感知维度)。第二,用户的社交联结强度(通过社会吸引力和自我披露测量)显著影响信念改变幅度——但仅当聊天机器人生成自纠错时该效应成立;将纠错外包给外部