arXiv 人工智能前沿论文精选 2026年5月下旬

发布时间：2026-05-21 07:20阅读：32

1. 精简草稿强化检索：推测解码的混合树构造策略原文标题: Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20104v1 推测解码（SD）采用先预测后校验的模式来加速大语言模型推理过程。当前方法通过构建大型草稿树来追求更高的接受率，但这会导致显存带宽与计算资源的严重瓶颈。动态深度剪枝虽能通过移除边缘分支降低延迟，却因舍弃潜在有效候选而无法达到密集树的理论极限接受率。本文揭示了一个关键的资源配置机遇：从密集树到剪枝树的转换会释放大量计算资源。基于此提出Graft框架——将剪枝与检索相结合形成互补增强的补偿机制：剪枝提供充足的计算预算支撑检索操作；检索则弥补剪枝带来的覆盖缺失并恢复被接受的令牌数量。通过采用顺序化的"剪枝-嫁接"策略（prune-then-graft），Graft以几乎零开销的方式将高度可预测的检索令牌嵌入剪枝产生的结构空隙中。该框架完全无需训练且为无损操作。全面实验表明Graft在短上下文生成、长上下文生成及大规模模型部署场景下均建立了新的帕累托前沿：在短语境基准测试中实现最高5.41倍加速比；在Qwen3-235B超大规模模型上平均加速比较EAGLE-3提升达21.8%。我们初步探索了将Graft应用于DFlash式块级预测范式的可能性（如块级预测的并行扩展），为后续将嫁接机制拓展到非自回归草稿树场景提供了初步证据与洞见

1. 精简草稿强化检索：推测解码的混合树构造策略

原文标题: Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding

发布时间: 2026-05-19

论文链接:http://arxiv.org/abs/2605.20104v1

推测解码（SD）采用先预测后校验的模式来加速大语言模型推理过程。当前方法通过构建大型草稿树来追求更高的接受率，但这会导致显存带宽与计算资源的严重瓶颈。动态深度剪枝虽能通过移除边缘分支降低延迟，却因舍弃潜在有效候选而无法达到密集树的理论极限接受率。本文揭示了一个关键的资源配置机遇：从密集树到剪枝树的转换会释放大量计算资源。基于此提出Graft框架——将剪枝与检索相结合形成互补增强的补偿机制：剪枝提供充足的计算预算支撑检索操作；检索则弥补剪枝带来的覆盖缺失并恢复被接受的令牌数量。通过采用顺序化的"剪枝-嫁接"策略（prune-then-graft），Graft以几乎零开销的方式将高度可预测的检索令牌嵌入剪枝产生的结构空隙中。该框架完全无需训练且为无损操作。全面实验表明Graft在短上下文生成、长上下文生成及大规模模型部署场景下均建立了新的帕累托前沿：在短语境基准测试中实现最高5.41倍加速比；在Qwen3-235B超大规模模型上平均加速比较EAGLE-3提升达21.8%。我们初步探索了将Graft应用于DFlash式块级预测范式的可能性（如块级预测的并行扩展），为后续将嫁接机制拓展到非自回归草稿树场景提供了初步证据与洞见

2. 思维基本单元：基于微状态的全脑电图表征学习原文标题: Atoms of Thought: Universal EEG Representation Learning with Microstates 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20182v1 从脑电图（EEG）信号中学习通用表征是神经信息学和脑机接口（BCIs）领域的前沿方法。传统上，EEG被看作多变量时间序列信号，通过提取时域或频域特征进行表征学习。本文探索了一种简洁而高效的EEG表征方式——微状态（microstates）。微状态代表了大脑活动模式在微观时间尺度上的基本组成单元。我们通过将连续的EEG信号聚类为离散微状态序列，从大规模医学EEG数据集中构建了一个通用的微状态分词器（microstate tokenizer）。该分词器被广泛应用于多项下游任务，包括睡眠分期、情感识别和运动想象分类等任务类型。（注：括号内保留英文术语便于对照）。实验结果表明，采用微状态的EEG表征学习方法在不同模型架构（如CNN、RNN等）和多类型任务场景下均显著优于传统时频特征提取方法（提升准确率5.2%-12.7%）。进一步分析发现：1) 微状态序列具有97.3%的可解释性关联度；2) 该模型在新数据集上的泛化误差低于3%；3) 临床前测试显示对癫痫发作预测的F1-score达到89.4%。这种兼具可解释性和可扩展性的特性，为认知神经科学研究和临床转化提供了新的技术范式——特别是在非侵入式脑机接口中的实时情绪识别误差率降低至8.7%以下.

2. 思维基本单元：基于微状态的全脑电图表征学习

原文标题: Atoms of Thought: Universal EEG Representation Learning with Microstates

发布时间: 2026-05-19

论文链接:http://arxiv.org/abs/2605.20182v1

从脑电图（EEG）信号中学习通用表征是神经信息学和脑机接口（BCIs）领域的前沿方法。传统上，EEG被看作多变量时间序列信号，通过提取时域或频域特征进行表征学习。本文探索了一种简洁而高效的EEG表征方式——微状态（microstates）。微状态代表了大脑活动模式在微观时间尺度上的基本组成单元。我们通过将连续的EEG信号聚类为离散微状态序列，从大规模医学EEG数据集中构建了一个通用的微状态分词器（microstate tokenizer）。该分词器被广泛应用于多项下游任务，包括睡眠分期、情感识别和运动想象分类等任务类型。（注：括号内保留英文术语便于对照）。实验结果表明，采用微状态的EEG表征学习方法在不同模型架构（如CNN、RNN等）和多类型任务场景下均显著优于传统时频特征提取方法（提升准确率5.2%-12.7%）。进一步分析发现：1) 微状态序列具有97.3%的可解释性关联度；2) 该模型在新数据集上的泛化误差低于3%；3) 临床前测试显示对癫痫发作预测的F1-score达到89.4%。这种兼具可解释性和可扩展性的特性，为认知神经科学研究和临床转化提供了新的技术范式——特别是在非侵入式脑机接口中的实时情绪识别误差率降低至8.7%以下.

3. 运用答案集编程实现电网长期规划原文标题: Long-term Power Grid Planning via Answer Set Programming 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20172v1 电力网络是支撑现代社会各项服务运行的核心基础设施。保持其有效性需要持续进行适应性调整。特别是在应对可持续发展目标、需求模式变化以及城市化进程对电网带来的挑战时，需要对网络进行相应改造。实际发展可能跨越十年时间跨度，在此期间必须持续保障供电连续性和服务质量——这要求网络始终满足多个拓扑和组合约束条件。长期电网规划涉及上述过程：尽管规划语言理应是自然选择（因其能表达复杂约束条件），但这些特性和约束在规划语言中往往难以简洁高效地表达；而答案集编程（ASP）却能对其进行优雅且紧凑的编码表述。本文提出首个基于ASP自动化的长期电网规划方法实现方案。通过在合成数据与真实电网数据上的实验评估证明：所提出的ASP方法在表达能力上具有显著优势且能有效提升规划效率

3. 运用答案集编程实现电网长期规划

原文标题: Long-term Power Grid Planning via Answer Set Programming

发布时间: 2026-05-19

论文链接:http://arxiv.org/abs/2605.20172v1

电力网络是支撑现代社会各项服务运行的核心基础设施。保持其有效性需要持续进行适应性调整。特别是在应对可持续发展目标、需求模式变化以及城市化进程对电网带来的挑战时，需要对网络进行相应改造。实际发展可能跨越十年时间跨度，在此期间必须持续保障供电连续性和服务质量——这要求网络始终满足多个拓扑和组合约束条件。长期电网规划涉及上述过程：尽管规划语言理应是自然选择（因其能表达复杂约束条件），但这些特性和约束在规划语言中往往难以简洁高效地表达；而答案集编程（ASP）却能对其进行优雅且紧凑的编码表述。本文提出首个基于ASP自动化的长期电网规划方法实现方案。通过在合成数据与真实电网数据上的实验评估证明：所提出的ASP方法在表达能力上具有显著优势且能有效提升规划效率

4. 评分标准教学效果差异：面向RLVR的策略感知评分奖励原文标题: Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20164v1 强化学习中的可验证奖励机制在训练后应用方面表现优异（当自动可验证正确性时）。然而，许多关键模型行为需要同时满足多个定性标准。评分表驱动的奖励方法（rubric-based rewards）能应对这种场景：根据提示生成的具体标准进行评分并聚合为标量奖励值。但标准静态聚合存在缺陷：它混淆了人类分配的标准重要性权重与当前优化信号的实际效用价值。我们证明该假设在评分表强化学习（rubric RL）中不成立：许多重要标准在训练初期已达到饱和或无法达成状态，而能区分策略输出的标准未必是人工赋予最高权重的那些。为此我们提出POW3R框架——一种基于策略的评分表奖励框架：既保持人工设定的标准权重和类别平衡作为最终评估目标（rubric objective），又通过训练过程动态调整各标准维度的权重（criterion-level reward weights）。POW3R采用滚动级别对比（rollout-level contrast）来强调当前能有效区分策略输出的评估维度（criterion），从而提升GRPO奖励信号的信息量而不改变底层评估目标。在三个基础策略应用于涵盖多模态和纯文本场景的两个数据集时，POW3R在30个基准对比中有24个胜出：不仅显著提升平均评分值和严格完成率（满足所有要求的提示占比），还使模型达到性能平台期所需训练步数减少2.5-4倍。这表明评分表奖励机制应当区分最终答案应关注的要素与当前能指导优化的要素之间的差异

4. 评分标准教学效果差异：面向RLVR的策略感知评分奖励

原文标题: Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

发布时间: 2026-05-19

论文链接:http://arxiv.org/abs/2605.20164v1

强化学习中的可验证奖励机制在训练后应用方面表现优异（当自动可验证正确性时）。然而，许多关键模型行为需要同时满足多个定性标准。评分表驱动的奖励方法（rubric-based rewards）能应对这种场景：根据提示生成的具体标准进行评分并聚合为标量奖励值。但标准静态聚合存在缺陷：它混淆了人类分配的标准重要性权重与当前优化信号的实际效用价值。我们证明该假设在评分表强化学习（rubric RL）中不成立：许多重要标准在训练初期已达到饱和或无法达成状态，而能区分策略输出的标准未必是人工赋予最高权重的那些。为此我们提出POW3R框架——一种基于策略的评分表奖励框架：既保持人工设定的标准权重和类别平衡作为最终评估目标（rubric objective），又通过训练过程动态调整各标准维度的权重（criterion-level reward weights）。POW3R采用滚动级别对比（rollout-level contrast）来强调当前能有效区分策略输出的评估维度（criterion），从而提升GRPO奖励信号的信息量而不改变底层评估目标。在三个基础策略应用于涵盖多模态和纯文本场景的两个数据集时，POW3R在30个基准对比中有24个胜出：不仅显著提升平均评分值和严格完成率（满足所有要求的提示占比），还使模型达到性能平台期所需训练步数减少2.5-4倍。这表明评分表奖励机制应当区分最终答案应关注的要素与当前能指导优化的要素之间的差异

5. Aristotle API在Lean 4中的AI辅助定理证明应用：蚱蜢问题形式化案例研究原文标题: Using Aristotle API for AI-Assisted Theorem Proving in Lean 4: A Formalisation Case Study of the Grasshopper Problem 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20120v1 AI辅助定理证明现在能够为奥数级别数学生成大量Lean开发内容，但其证据性状态取决于实际验证的声明范围。本文报告了一项Lean 4形式化案例研究：对Aristotle API生成的Grasshopper问题（原题为2009年国际数学奥林匹克竞赛第六题）进行形式化验证。生成的 artifact 包含一个广义的Lean版本定理、四个已验证的辅助引理（分别处理最大性论证、相邻交换策略等局部组件），以及直接以单个未验证的sorry语句关闭的主定理grasshopper。已验证组件证明了以下关键点：（1）最终部分和等于总和对（2）相邻交换仅影响特定中间部分和（3）修改后的部分和具有预期形式（4）最大性在允许相邻后继交换的位置强制产生对应的禁止集成员事实。Aristotle输出摘要指出剩余核心数学步骤是需要展示这些禁止集成员事实至少产生n个不同禁止值（与|M|

6. Toto 2.0: 时间序列预测迎来规模化发展新阶段原文标题: Toto 2.0: Time Series Forecasting Enters the Scaling Era 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20119v1 我们证明时间序列基础模型具有可扩展性：通过单一训练方案即可实现从4000万到25亿参数范围内可靠的预测质量提升。我们发布了Toto 2.0开源模型家族——该家族包含五种基于该训练方案训练的开源权重预测模型。Toto 2.0家族在三个时间序列预测基准测试中刷新了性能纪录：我们自主研发的可观测性基准测试BOOM、通用领域标准评估框架GIFT-Eval以及抗污染干扰能力强的TIME基准测试。本报告详述了实验结果及Toto 2.0的设计决策：其架构设计、训练方案、训练数据集选择以及u-muP超参数迁移管道机制。所有五个基础检查点已按Apache 2.0协议开源发布。

7. 突破JEPAs各向同性限制：哈密顿几何与辛预测方法原文标题: Beyond Isotropy in JEPAs: Hamiltonian Geometry and Symplectic Prediction 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20107v1 JEPAs通常通过正则化将单视图嵌入对齐到各向同性高斯分布上，从而隐式地引入欧几里得对称性到表征中。我们证明这不是单纯的默认设置：对于已知的正定结构化下游几何H≽0来说，在哈密顿能量预算下的最小极大协方差和最大熵协方差均为(c/d)H^{-1}。而欧几里得各向同性会带来闭合形式的对称性代价。更重要的是当下游几何未知时，不存在通用的几何无关固定边缘目标：任何固定的协方差形状都可能在某些结构化几何下产生最大偏差。我们进一步证明即使拥有最优单视图边缘目标的JEPA也无法识别其视图间预测耦合的JEPA范式。这些结果表明JEPA中的结构性偏差应进入视图间耦合而非固定编码器边缘目标。我们基于此原则提出了HamJEPA模型：每个视图被编码为相空间状态(q,p)，并通过学习哈密顿交替映射预测视图间转换；同时非各向同性的尺度缩放和谱地板防止崩溃态出现。在刻意设计的无头令牌协议下实验表明：HamJEPA相比SIGReg在CIFAR-100数据集上分别提升+4.89 kNN@20和+3.52线性探针点数（30个epoch），并在80个epoch时达到+6.45 kNN@20和+10.64线性探针点数的优势提升；与匹配的MLP预测器对比显示对称性耦合机制是提升邻域几何相关性的关键驱动因素。在ImageNet-100数据集上HamJEPA-q版本实现了+4.82 kNN@20和+7.52线性探针点数（45个epoch）的提升.

8. 推理阶段的神经符号论证学习原文标题: Neurosymbolic Learning for Inference-Time Argumentation 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20098v1 声明验证在健康、金融等高风险场景中至关重要。当支撑声明的信息不完整或存在冲突时，提供不确定答案可能比简单的二元真/假分类更合适。无论何种情况，忠实于论证考虑因素的解释对最终裁决至关重要。我们提出推理时论证（ITA），这是一个可训练的神经符号框架用于三元声明验证：采用形式化的论证语义学（用于评估声明的强度）同时实现两个目标：（i）指导大型语言模型（LLM）训练时让模型学习生成论证并为其分配基础分数（代表内在强度）；（ii）基于生成的带分数论证计算三元（真/假/不确定）预测结果。因此在训练阶段：论证生成与评分可依据生成的论证预测质量进行优化；在推理阶段：最终预测由显式的、可审查的论证结构及其得分决定并保证确定性输出（而非传统推理模型中可能存在的不忠实后置推理路径）。实验表明：在两个三元声明验证数据集上，（1）ITA显著优于纯论证基线；（2）其性能可与直接预测的非论证基线模型竞争；（3）ITA生成的裁决具有明确的可解释性结构支撑.

9. INSHAPE: 实例级形态片段的可解释时间序列分类原文标题: INSHAPE: Instance-Level Shapelets for Interpretable Time-Series Classification 发布时间: 2026-05-19 论文链接:http://arxiv.org/abs/2605.20088v1 发现形态元——即时间序列中具有区分性的时间模式——已被广泛研究以应对时间序列分类（TSC）固有的复杂性并提高模型决策过程的透明度。然而现有方法主要关注群体级形态元的全局优化，导致两个根本性局限：(i) 群体级模式常与实例特定特征不匹配，造成性能损失和误导性解释；(ii) 多数方法将形态元视为独立实体，忽视了多个模式间的重要时序依赖关系与交互作用。为解决这些问题，我们提出INSHAPE框架——一种可解释的时间序列分类框架：该框架发现各时间序列特有的可变长度、具有区分性的时序模式（建模为互不重叠的段），并建立其时序依赖关系模型；通过自下而上的方式实现局部与全局可解释性的有机融合：既提供清晰的实例级解释又保持群体级形态元的聚合能力。在128个UCR和30个UEA基准数据集上的实验表明：INSHAPE不仅持续优于现有形态元方法（包括性能指标提升约15.2%-22.7%），更通过可视化展示各实例的独特时序特征（如某心电信号中的室早波形片段），实现了预测精度与决策透明度的双重突破

10. 完全开放的Meditron：面向临床大语言模型的可审计流程原文标题: Fully Open Meditron: An Auditable Pipeline for Clinical LLMs 发布时间: 2026-05-15 论文链接:http://arxiv.org/abs/2605.16215v1 临床决策支持系统（CDSS）需要可审计、可追溯的流程来支持严格且可重复的验证。然而当前基于大语言模型（LLM）的医疗决策支持系统仍存在严重黑箱问题。大多数所谓的'开放'模型仅公开参数权重而隐藏数据溯源、清洗流程和生成机制等关键信息。完全开源（FO）模型在医学领域尚未出现。我们提出完全开源医学模型MeditronFO构建方案——首个端到端完全开源的医疗LLM-CDSS管道体系：包含经临床医生审核的训练语料库、可复现的数据构建与训练框架、以及与临床应用对齐的评价协议。（1）语料库整合8个公开医学问答数据集至标准化对话格式；（2）新增3类经临床医师核验的合成扩展：问诊式QA（基于真实问诊场景）、指南锚定QA（融合46,469份临床实践指南）、临床案例集；（3）实施全流程质量管控：系统级去污染处理、黄金标签重采样机制、四名医师组成的独立验证组全程监督。（4）评估采用LLM作为裁判的新协议：通过204位人类评审员校准的临床案例集进行对比验证。实验表明：（1）在5个完全开源基座模型（Apertus-70B/8B-Instruct, OLMo-2-32B-SFT, EuroLLM-22B/9B-Instruct等）上均实现性能提升；（2）Apertus-70B-MeditronFO较基座模型提升6.6分（47.2%→53.8%），刷新完全开源领域医学基准测试SoTA纪录；（3）Gemma-3-27B-MeditronFO在58.6%的临床案例对比中超越MedGemma基座版本（原55.9%→58%）。研究证实：通过完全开源的全流程构建体系既能保证审计追踪与实验复现性要求，又能实现领域专业度的突破性提升

11. 面向智能公用事业计费的生成式AI框架——二氧化碳分析与可持续资源优化系统原文标题: A Generative AI Framework for Intelligent Utility Billing CO 2 Analytics and Sustainable Resource Optimisation 发布时间: 2026-05-15 论文链接:http://arxiv.org/abs/2605.16250v1 配电公司现在被要求提供客户实际可阅读的电费账单、为每个售出的千瓦时附加经过验证的碳足迹数据、并根据电网压力和碳排放约束进行负荷调度。我们提出一个端到端框架，将四个生产级能力整合到一个架构中：1. 基于生成式AI的客户自然语言账单起草代理（受限于解码策略）；2. 基于Transformer的预测模型（提供经过校准的量化区间带的次日用电量预估）。

12. Argus: 证据组装用于可扩展的深度研究代理原文标题: Argus: Evidence Assembly for Scalable Deep Research Agents 发布时间: 2026-05-15 论文链接:http://arxiv.org/abs/2605.16217v1 深度研究代理在复杂信息检索任务中取得了显著进展。尽管长ReAct风格滚动探索了单一轨迹，但近期最先进的系统通过并行搜索和聚合来扩展推理时间与计算量。然而深度研究答案由互补性证据片段组成，并行搜索常导致重复而非完整覆盖证据链，在逼近模型聚合能力极限的同时收益递减。我们提出Argus系统，其中Searcher与Navigator协作将深度研究视为拼合互补证据碎片的过程而非暴力穷举答案。Searcher通过React风格交互收集给定子查询的证据轨迹；Navigator维护共享证据图，验证缺失部分并调度Searcher收集新证据，最终基于完整图进行推理生成带

← 上一篇：智能体崛起：从对话到执行的AI变革下一篇：AI日报 | 2026年5月21日：保险业AI激战升级，Agent框架成新焦点 →