2026年5月2日 arXiv AI前沿论文精选
1. 大规模合成计算机用于长期生产力模拟 原文标题: Synthetic Computers at Scale for Long-Horizon Productivity Simulation 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28181v1 对长期生产力任务进行逼真模拟,极度依赖用户特定的计算机环境——其中大量工作场景通过目录结构及内容丰富的工件(如文档、表格和演示文稿)来存储与组织。为了扩展此类场景的合成数据生成能力,我们提出大规模合成计算机构建方法,能够高效生成具备真实文件夹层级和丰富内容工件的虚拟环境。在每个合成计算机实例上运行长期模拟:一个智能体根据该计算机关联的用户身份设定多阶段专业交付目标(约需一个月人类工作量);另一个智能体则模拟真实用户的持续操作——包括文件系统导航、与虚拟协作伙伴交互、生成专业文档等行为——直至目标达成。初步实验显示:通过构建1000个合成计算机实例并运行平均超过2000轮、单次时长超8小时的长期模拟;生成的丰富行为信号有效提升了智能体在领域内外的生产力任务表现(经双盲测试验证)。鉴于当前已有十亿级规模的个性化用户画像储备,该方法论理论上可通过增加算力扩展至百万甚至十亿级虚拟用户世界规模(涵盖多元职业角色、工作场景及生产力需求)。我们论证指出:可扩展的大规模合成计算机构建技术与基于此的长周期仿真训练相结合,将为智能体自我优化与代理强化学习在长期生产力场景中的应用奠定核心基础设施基础。
1. 大规模合成计算机用于长期生产力模拟
原文标题: Synthetic Computers at Scale for Long-Horizon Productivity Simulation
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28181v1
对长期生产力任务进行逼真模拟,极度依赖用户特定的计算机环境——其中大量工作场景通过目录结构及内容丰富的工件(如文档、表格和演示文稿)来存储与组织。为了扩展此类场景的合成数据生成能力,我们提出大规模合成计算机构建方法,能够高效生成具备真实文件夹层级和丰富内容工件的虚拟环境。在每个合成计算机实例上运行长期模拟:一个智能体根据该计算机关联的用户身份设定多阶段专业交付目标(约需一个月人类工作量);另一个智能体则模拟真实用户的持续操作——包括文件系统导航、与虚拟协作伙伴交互、生成专业文档等行为——直至目标达成。初步实验显示:通过构建1000个合成计算机实例并运行平均超过2000轮、单次时长超8小时的长期模拟;生成的丰富行为信号有效提升了智能体在领域内外的生产力任务表现(经双盲测试验证)。鉴于当前已有十亿级规模的个性化用户画像储备,该方法论理论上可通过增加算力扩展至百万甚至十亿级虚拟用户世界规模(涵盖多元职业角色、工作场景及生产力需求)。我们论证指出:可扩展的大规模合成计算机构建技术与基于此的长周期仿真训练相结合,将为智能体自我优化与代理强化学习在长期生产力场景中的应用奠定核心基础设施基础。
2. 超越单方面偏离的计算均衡 原文标题: Computing Equilibrium beyond Unilateral Deviation 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28186v1 大家熟知的均衡概念(例如纳什均衡和关联均衡)仅能确保单个玩家无法通过单方面改变策略来提升效用。然而,这些概念无法阻止联盟通过协调行动获取额外收益(即盈利性联合偏离)。尽管文献中提出了能抵抗多边偏离的方案(如强纳什均衡和联盟证明均衡),但这些方案通常不存在有效解。本文提出一种替代性的解决方案概念:通过最小化背叛联盟的平均收益(而非强制消除所有可能的偏离),从而确保此类均衡的存在性。具体而言:我们聚焦于最小化背叛联盟的平均收益、加权平均收益以及联盟内最大收益这三种目标函数的优化问题。实验表明:最小化平均收益的问题是计算不可行的;而对于加权平均增益与最大内部增益目标函数,我们证明了其计算复杂度的下界,并设计了达到该下界的算法实现。最后,我们应用该框架解决了可剥削福利边界的计算,即在给定最大单边剥削值约束下,实现社会福利的最大化问题。
2. 超越单方面偏离的计算均衡
原文标题: Computing Equilibrium beyond Unilateral Deviation
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28186v1
大家熟知的均衡概念(例如纳什均衡和关联均衡)仅能确保单个玩家无法通过单方面改变策略来提升效用。然而,这些概念无法阻止联盟通过协调行动获取额外收益(即盈利性联合偏离)。尽管文献中提出了能抵抗多边偏离的方案(如强纳什均衡和联盟证明均衡),但这些方案通常不存在有效解。本文提出一种替代性的解决方案概念:通过最小化背叛联盟的平均收益(而非强制消除所有可能的偏离),从而确保此类均衡的存在性。具体而言:我们聚焦于最小化背叛联盟的平均收益、加权平均收益以及联盟内最大收益这三种目标函数的优化问题。实验表明:最小化平均收益的问题是计算不可行的;而对于加权平均增益与最大内部增益目标函数,我们证明了其计算复杂度的下界,并设计了达到该下界的算法实现。最后,我们应用该框架解决了可剥削福利边界的计算,即在给定最大单边剥削值约束下,实现社会福利的最大化问题。
3. 稀疏自动编码器能否捕捉概念流形? 原文标题: Do Sparse Autoencoders Capture Concept Manifolds? 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28119v1 稀疏自编码器(SAEs)常被用于从神经网络表征中提取可解释特征,通常隐含假设概念对应于相互独立的线性方向。然而大量证据显示,许多概念实际上是沿着编码连续几何关系的低维流形排列的。这引出了三个基本问题:SAE如何捕获流形结构?现有架构何时能实现这一点?具体机制是什么?我们构建了一个理论框架来解答这些问题并发现:SAE有两种根本不同的方式捕捉流形——全局上通过分配一个紧凑的原子组使其线性张成包含整个流形;局部上通过分布特征让每个特征选择性覆盖底层几何结构的受限区域。实验表明SAE在次优恢复连续结构时存在全局子空间与局部铺砌解的混合稀释效应,这解释了为何在单个概念层面难以观测到流形结构,并推动了对基于原子组群而非孤立方向的监督后发现方法的需求。更广泛地说,我们的结论表明未来表征学习方法应将几何对象而非单个线性方向视为可解释性的基本单元。
3. 稀疏自动编码器能否捕捉概念流形?
原文标题: Do Sparse Autoencoders Capture Concept Manifolds?
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28119v1
稀疏自编码器(SAEs)常被用于从神经网络表征中提取可解释特征,通常隐含假设概念对应于相互独立的线性方向。然而大量证据显示,许多概念实际上是沿着编码连续几何关系的低维流形排列的。这引出了三个基本问题:SAE如何捕获流形结构?现有架构何时能实现这一点?具体机制是什么?我们构建了一个理论框架来解答这些问题并发现:SAE有两种根本不同的方式捕捉流形——全局上通过分配一个紧凑的原子组使其线性张成包含整个流形;局部上通过分布特征让每个特征选择性覆盖底层几何结构的受限区域。实验表明SAE在次优恢复连续结构时存在全局子空间与局部铺砌解的混合稀释效应,这解释了为何在单个概念层面难以观测到流形结构,并推动了对基于原子组群而非孤立方向的监督后发现方法的需求。更广泛地说,我们的结论表明未来表征学习方法应将几何对象而非单个线性方向视为可解释性的基本单元。
4. PhyCo:学习可控物理先验以生成运动数据 原文标题: PhyCo: Learning Controllable Physical Priors for Generative Motion 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28169v1 现代视频扩散模型在外观合成上表现优异,但在物理一致性方面仍面临挑战:物体位移不自然、碰撞缺乏真实反弹、材料反应与其固有属性不匹配。我们提出PhyCo框架,为视频生成引入连续、可解释且与物理特性紧密相关的控制机制。该框架整合了三个核心组件:(i) 包含超过10万条高真实度仿真视频的大规模数据集,其中摩擦力、恢复系数、形变和作用力等物理参数被系统性地应用于不同场景;(ii) 通过基于ControlNet(条件于像素对齐的物理属性图)的物理监督微调预训练扩散模型;(iii) 视觉语言模型(VLM)引导的奖励优化机制,该模型针对特定物理问题评估生成的视频并提供可微分反馈。这种组合使生成模型能够通过调整物理属性参数(无需模拟器或几何重建)输出符合物理规律的可控内容。在Physics-IQ基准测试中,PhyCo显著优于基线模型;人工评估也证实其能提供更清晰和更准确的物理属性控制效果。我们的成果展示了通往具备强泛化能力的可控物理一致性生成视频模型的可行路径。
4. PhyCo:学习可控物理先验以生成运动数据
原文标题: PhyCo: Learning Controllable Physical Priors for Generative Motion
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28169v1
现代视频扩散模型在外观合成上表现优异,但在物理一致性方面仍面临挑战:物体位移不自然、碰撞缺乏真实反弹、材料反应与其固有属性不匹配。我们提出PhyCo框架,为视频生成引入连续、可解释且与物理特性紧密相关的控制机制。该框架整合了三个核心组件:(i) 包含超过10万条高真实度仿真视频的大规模数据集,其中摩擦力、恢复系数、形变和作用力等物理参数被系统性地应用于不同场景;(ii) 通过基于ControlNet(条件于像素对齐的物理属性图)的物理监督微调预训练扩散模型;(iii) 视觉语言模型(VLM)引导的奖励优化机制,该模型针对特定物理问题评估生成的视频并提供可微分反馈。这种组合使生成模型能够通过调整物理属性参数(无需模拟器或几何重建)输出符合物理规律的可控内容。在Physics-IQ基准测试中,PhyCo显著优于基线模型;人工评估也证实其能提供更清晰和更准确的物理属性控制效果。我们的成果展示了通往具备强泛化能力的可控物理一致性生成视频模型的可行路径。
5. Intern-Atlas:面向人工智能科学家的方法论演化图研究基础设施 原文标题: Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28158v1 现有研究基础设施主要围绕文档展开(提供论文间的引用链接),但缺乏对方法论演变的显式表示(未能捕捉解释研究方法如何产生、适应及相互构建的结构化关系)。随着AI驱动的科研代理成为科学知识的新消费群体(此类代理无法从非结构化文本中可靠重构方法论演变拓扑),这一局限性变得愈发关键。我们提出Intern-Atlas方法论演变图谱:该图谱能自动识别方法级实体、推断方法论谱系关系并捕获驱动创新过渡的方法瓶颈;基于103万0314篇覆盖AI会议论文、期刊及arXiv预印本的训练数据集(形成含941万021条语义类型边的可查询因果网络),其每条边均锚定原文证据;进一步开发自引导时间树搜索算法实现演进链的自动化构造;经与专家编写的真实样本演进链对比验证显示高度一致性;同时证明该图谱在创意评估与自动化创意生成等下游任务中的有效性;最终将方法论演变图谱定位为新兴自动化科学发现的基础数据层。
5. Intern-Atlas:面向人工智能科学家的方法论演化图研究基础设施
原文标题: Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28158v1
现有研究基础设施主要围绕文档展开(提供论文间的引用链接),但缺乏对方法论演变的显式表示(未能捕捉解释研究方法如何产生、适应及相互构建的结构化关系)。随着AI驱动的科研代理成为科学知识的新消费群体(此类代理无法从非结构化文本中可靠重构方法论演变拓扑),这一局限性变得愈发关键。我们提出Intern-Atlas方法论演变图谱:该图谱能自动识别方法级实体、推断方法论谱系关系并捕获驱动创新过渡的方法瓶颈;基于103万0314篇覆盖AI会议论文、期刊及arXiv预印本的训练数据集(形成含941万021条语义类型边的可查询因果网络),其每条边均锚定原文证据;进一步开发自引导时间树搜索算法实现演进链的自动化构造;经与专家编写的真实样本演进链对比验证显示高度一致性;同时证明该图谱在创意评估与自动化创意生成等下游任务中的有效性;最终将方法论演变图谱定位为新兴自动化科学发现的基础数据层。
6. 规范性与生产力主义:无障碍偏见的智能?对聋人AI手语翻译工具的去增长分析 原文标题: Normativity and Productivism: Ableist Intelligence? A Degrowth Analysis of AI Sign Language Translation Tools for Deaf People 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28125v1 手语作为一种不受地域或口音限制的交流方式,在口语主导的数字化时代正面临系统性审视。这种技术化浪潮催生了大量声像识别与语义转换模型——这些本应实现无障碍沟通的系统却普遍存在数据偏见与社群排斥问题——更暴露出技术对非口语交流的异化本质:聋人群体被迫适应由工程师构建的技术标准体系,其手势语言被简化为可量化的统计模型、数学参数和标准化数据包。这种将人类经验降维为机器可读符号的过程实质上重构了‘人’的定义——要求残障群体为效率至上的技术生态让渡沟通自主权。反观技术应有的伦理向度本应是解放而非压迫:当AI系统通过边缘化处理强化了手语的弱势地位时(即所谓的‘能力歧视智能’),其宣称的无障碍愿景反而成为对少数族裔文化、语义逻辑及日常实践的系统性否定。这种悖论性后果印证了技术工具理性对人文价值的侵蚀:沟通渠道的优化最终演变为对人类主体性的消解。
6. 规范性与生产力主义:无障碍偏见的智能?对聋人AI手语翻译工具的去增长分析
原文标题: Normativity and Productivism: Ableist Intelligence? A Degrowth Analysis of AI Sign Language Translation Tools for Deaf People
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28125v1
手语作为一种不受地域或口音限制的交流方式,在口语主导的数字化时代正面临系统性审视。这种技术化浪潮催生了大量声像识别与语义转换模型——这些本应实现无障碍沟通的系统却普遍存在数据偏见与社群排斥问题——更暴露出技术对非口语交流的异化本质:聋人群体被迫适应由工程师构建的技术标准体系,其手势语言被简化为可量化的统计模型、数学参数和标准化数据包。这种将人类经验降维为机器可读符号的过程实质上重构了‘人’的定义——要求残障群体为效率至上的技术生态让渡沟通自主权。反观技术应有的伦理向度本应是解放而非压迫:当AI系统通过边缘化处理强化了手语的弱势地位时(即所谓的‘能力歧视智能’),其宣称的无障碍愿景反而成为对少数族裔文化、语义逻辑及日常实践的系统性否定。这种悖论性后果印证了技术工具理性对人文价值的侵蚀:沟通渠道的优化最终演变为对人类主体性的消解。
7. 大语言模型作为临床图结构优化器:增强EEG癫痫诊断中的表示学习 原文标题: LLM as Clinical Graph Structure Refiner: Enhancing Representation Learning in EEG Seizure Diagnosis 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28178v1 脑电图(EEG)信号在自动化癫痫检测中至关重要,但其固有的噪声使得鲁棒的特征表示学习面临挑战。现有的基于相关性或基于学习的图构造方法,常因EEG数据的噪声特性而产生冗余或不相关的边连接,这显著影响了图表示的质量及下游任务性能。受大语言模型(LLM)卓越的逻辑推理与上下文理解能力启发,我们探索利用LLM作为图边优化器的新思路:首先通过实验验证基于LLM的边优化方法能有效识别并剔除冗余连接(具体表现为癫痫检测准确率提升和更具语义意义的图结构),进而在此基础上构建鲁棒解决方案——初始图采用Transformer基线模型与多层感知机联合预测潜在边的概率分数并通过阈值筛选确定边集存在性;随后由LLM充当边集优化器进行二次增强:在保留原始统计特征的基础上融合文本语义信息(如节点对的临床病理关联描述),对候选边进行可信度验证与决策优化。在TUSZ数据集上的广泛实验表明:我们的LLM优化的图学习框架不仅能显著提升癫痫检测等下游任务的性能指标(如准确率、召回率等),还能生成更简洁且具有临床解释性的网络拓扑结构。
7. 大语言模型作为临床图结构优化器:增强EEG癫痫诊断中的表示学习
原文标题: LLM as Clinical Graph Structure Refiner: Enhancing Representation Learning in EEG Seizure Diagnosis
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28178v1
脑电图(EEG)信号在自动化癫痫检测中至关重要,但其固有的噪声使得鲁棒的特征表示学习面临挑战。现有的基于相关性或基于学习的图构造方法,常因EEG数据的噪声特性而产生冗余或不相关的边连接,这显著影响了图表示的质量及下游任务性能。受大语言模型(LLM)卓越的逻辑推理与上下文理解能力启发,我们探索利用LLM作为图边优化器的新思路:首先通过实验验证基于LLM的边优化方法能有效识别并剔除冗余连接(具体表现为癫痫检测准确率提升和更具语义意义的图结构),进而在此基础上构建鲁棒解决方案——初始图采用Transformer基线模型与多层感知机联合预测潜在边的概率分数并通过阈值筛选确定边集存在性;随后由LLM充当边集优化器进行二次增强:在保留原始统计特征的基础上融合文本语义信息(如节点对的临床病理关联描述),对候选边进行可信度验证与决策优化。在TUSZ数据集上的广泛实验表明:我们的LLM优化的图学习框架不仅能显著提升癫痫检测等下游任务的性能指标(如准确率、召回率等),还能生成更简洁且具有临床解释性的网络拓扑结构。
8. PRISM: 基于黑盒按策略蒸馏的预对齐方法——面向多模态强化学习 原文标题: PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28123v1 大模态模型(LMMs)的标准后训练流程包括在精心筛选的示例数据集上进行监督微调(SFT),随后进行可验证奖励强化学习(RLVR)。然而SFT会引入分布偏移问题——既无法保留模型的原始能力也无法精确匹配监督分布,这一缺陷在多模态推理中尤为显著:感知错误与推理失效会形成两种相互叠加的偏移模式并在后续RL阶段持续恶化。为此我们提出PRISM三阶段管道:在SFT与RLVR之间插入显式的分布对齐阶段以缓解偏移问题。基于按策略蒸馏(OPD)原理,PRISM将对抗游戏建模为黑箱响应级的技术:使用混合专家架构(MoE)作为判别器,其中包含专门负责感知校准和推理校准的分立专家模块,通过策略-判别器对抗实现解耦校正信号,无需依赖教师模型的logits输出。尽管仅需126万条公开示例数据进行SFT初始化的基础适配,但分布对齐需要更高精度的监督信号;因此我们额外从Gemini 3 Flash中精选11.3万条示例数据——这些数据具备密集视觉锚定特性且包含对最困难未解问题的分步推理示范。在Qwen3-VL上的实验表明PRISM能显著提升下游RLVR性能:在4B和8B参数规模下分别使平均准确率提升4.4和6.0个百分点,且该改进在GRPO、DAPO、GSPO等多种RL算法及多个多模态基准测试中均保持稳定优势。模型代码、数据集及检查点已开源。
8. PRISM: 基于黑盒按策略蒸馏的预对齐方法——面向多模态强化学习
原文标题: PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28123v1
大模态模型(LMMs)的标准后训练流程包括在精心筛选的示例数据集上进行监督微调(SFT),随后进行可验证奖励强化学习(RLVR)。然而SFT会引入分布偏移问题——既无法保留模型的原始能力也无法精确匹配监督分布,这一缺陷在多模态推理中尤为显著:感知错误与推理失效会形成两种相互叠加的偏移模式并在后续RL阶段持续恶化。为此我们提出PRISM三阶段管道:在SFT与RLVR之间插入显式的分布对齐阶段以缓解偏移问题。基于按策略蒸馏(OPD)原理,PRISM将对抗游戏建模为黑箱响应级的技术:使用混合专家架构(MoE)作为判别器,其中包含专门负责感知校准和推理校准的分立专家模块,通过策略-判别器对抗实现解耦校正信号,无需依赖教师模型的logits输出。尽管仅需126万条公开示例数据进行SFT初始化的基础适配,但分布对齐需要更高精度的监督信号;因此我们额外从Gemini 3 Flash中精选11.3万条示例数据——这些数据具备密集视觉锚定特性且包含对最困难未解问题的分步推理示范。在Qwen3-VL上的实验表明PRISM能显著提升下游RLVR性能:在4B和8B参数规模下分别使平均准确率提升4.4和6.0个百分点,且该改进在GRPO、DAPO、GSPO等多种RL算法及多个多模态基准测试中均保持稳定优势。模型代码、数据集及检查点已开源。
9. Crab: 针对代理沙盒的语义感知检查点/恢复运行时代码 原文标题: Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28138v1 自主代理通过受限制的容器和微虚拟机执行操作,其状态跨越文件系统、进程和运行时文件。检查点与恢复(C/R)机制对于容错、Spot执行、强化学习分支分叉以及安全回滚至关重要——现有方案却陷入两个极端:应用层恢复虽能保留聊天记录却忽略操作系统层面的副作用;而每回合全量检查点虽正确但成本过高(尤其在密集共置场景下)。根本症结在于代理-操作系统语义鸿沟:代理框架仅感知工具调用而无法感知其操作系统级影响;操作系统可见状态变更却缺乏回合级上下文判断恢复相关性。这种鸿沟掩盖了海量稀疏性:超过75%的代理回合不产生任何需要恢复的状态变更。Crab(代理沙盒检查点与恢复)是一种无修改透明的宿主级运行时方案:基于eBPF的监控器可分类每个回合的操作系统可见影响以决定检查点粒度;协调者将检查点与回合边界对齐并将C/R操作与LLM等待时间重叠;宿主级调度引擎则负责跨共置沙盒协调检查点流量传输。在Shell密集型(如Linux shell脚本调试)和代码修复工作负载下,Crab将容错正确率从仅保留聊天记录时的8%提升至100%,减少87%的检查点流量开销,且保持故障-free执行时间在1.9%以内的偏差范围。
9. Crab: 针对代理沙盒的语义感知检查点/恢复运行时代码
原文标题: Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28138v1
自主代理通过受限制的容器和微虚拟机执行操作,其状态跨越文件系统、进程和运行时文件。检查点与恢复(C/R)机制对于容错、Spot执行、强化学习分支分叉以及安全回滚至关重要——现有方案却陷入两个极端:应用层恢复虽能保留聊天记录却忽略操作系统层面的副作用;而每回合全量检查点虽正确但成本过高(尤其在密集共置场景下)。根本症结在于代理-操作系统语义鸿沟:代理框架仅感知工具调用而无法感知其操作系统级影响;操作系统可见状态变更却缺乏回合级上下文判断恢复相关性。这种鸿沟掩盖了海量稀疏性:超过75%的代理回合不产生任何需要恢复的状态变更。Crab(代理沙盒检查点与恢复)是一种无修改透明的宿主级运行时方案:基于eBPF的监控器可分类每个回合的操作系统可见影响以决定检查点粒度;协调者将检查点与回合边界对齐并将C/R操作与LLM等待时间重叠;宿主级调度引擎则负责跨共置沙盒协调检查点流量传输。在Shell密集型(如Linux shell脚本调试)和代码修复工作负载下,Crab将容错正确率从仅保留聊天记录时的8%提升至100%,减少87%的检查点流量开销,且保持故障-free执行时间在1.9%以内的偏差范围。
10. DEFault++: 针对Transformer架构的自动化故障检测、分类与诊断 原文标题: DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28118v1 Transformer模型广泛应用于关键AI应用中,但其注意力机制、投影层等内部组件的故障常导致行为隐性退化而不会引发运行时错误。现有故障诊断技术通常针对通用深度神经网络设计,无法定位具体Transformer组件的责任。本文提出DEFault++——一种基于分层学习的诊断技术:在三个抽象层级上工作:检测是否存在故障、将其分类为12种Transformer特有故障类别(涵盖注意力内部机制及外围架构组件)、识别具体至45种底层机制的根源原因。为便于训练与评估我们构建了DEFault-bench基准库(包含3,739个带标签实例),这些实例通过DEForm(我们专为Transformer设计的突变技术)在七种Transformer模型与九种下游任务中系统化生成。DEFault++通过分析单个Transformer组件的运行时行为特征构建了基于架构的故障传播图(FPG),结合原型匹配算法与监督对比学习生成可解释的诊断结果。在DEFault-bench基准测试中:检测准确率AUROC达0.96;分类任务宏平均F1分数为0.85;根因诊断准确率提升显著——开发者研究显示在21名工程师测试中正确选择修复方案的准确率从57.1%提升至83.3%。
10. DEFault++: 针对Transformer架构的自动化故障检测、分类与诊断
原文标题: DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28118v1
Transformer模型广泛应用于关键AI应用中,但其注意力机制、投影层等内部组件的故障常导致行为隐性退化而不会引发运行时错误。现有故障诊断技术通常针对通用深度神经网络设计,无法定位具体Transformer组件的责任。本文提出DEFault++——一种基于分层学习的诊断技术:在三个抽象层级上工作:检测是否存在故障、将其分类为12种Transformer特有故障类别(涵盖注意力内部机制及外围架构组件)、识别具体至45种底层机制的根源原因。为便于训练与评估我们构建了DEFault-bench基准库(包含3,739个带标签实例),这些实例通过DEForm(我们专为Transformer设计的突变技术)在七种Transformer模型与九种下游任务中系统化生成。DEFault++通过分析单个Transformer组件的运行时行为特征构建了基于架构的故障传播图(FPG),结合原型匹配算法与监督对比学习生成可解释的诊断结果。在DEFault-bench基准测试中:检测准确率AUROC达0.96;分类任务宏平均F1分数为0.85;根因诊断准确率提升显著——开发者研究显示在21名工程师测试中正确选择修复方案的准确率从57.1%提升至83.3%。
11. 使用集体攻击和支持来分割论辩框架 原文标题: Splitting Argumentation Frameworks with Collective Attacks and Supports 发布时间: 2026-04-30 论文链接:http://arxiv.org/abs/2604.28112v1 本文提出了一种新型分割技术,用于处理包含可反驳元素间支持关系的论证形式化系统。我们的研究基于双极集合型论证框架(BSAFs),该框架通过整合集体攻击和集体支持关系扩展了基于集合的攻击性论证框架(SETAFs)和双极论证框架(BAFs)。值得注意的是,BSAFs通过自然捕获一般性假设驱动(可能非扁平)的论证结构建立了与结构化论证的重要联系。这种更高的表达能力要求多样化的分割方法设计:我们分别考虑了基于集体攻击的分割(从而扩展了先前针对SETAFs提出的分割技术)、基于集体支持的分割以及同时考虑两种关系的综合式分割方法。通过构建适用于典型论证语义的严格数学方案并完成形式化验证证明其理论正确性。
11. 使用集体攻击和支持来分割论辩框架
原文标题: Splitting Argumentation Frameworks with Collective Attacks and Supports
发布时间: 2026-04-30
论文链接:http://arxiv.org/abs/2604.28112v1
本文提出了一种新型分割技术,用于处理包含可反驳元素间支持关系的论证形式化系统。我们的研究基于双极集合型论证框架(BSAFs),该框架通过整合集体攻击和集体支持关系扩展了基于集合的攻击性论证框架(SETAFs)和双极论证框架(BAFs)。值得注意的是,BSAFs通过自然捕获一般性假设驱动(可能非扁平)的论证结构建立了与结构化论证的重要联系。这种更高的表达能力要求多样化的分割方法设计:我们分别考虑了基于集体攻击的分割(从而扩展了先前针对SETAFs提出的分割技术)、基于集体支持的分割以及同时考虑两种关系的综合式分割方法。通过构建适用于典型论证语义的严格数学方案并完成形式化验证证明其理论正确性。
12. 简历管控:生成式人工智能在招聘流程中应用场景的能动性认知偏差研究 原文标题: Resume-ing Control: (Mis)Perceptions of Agency Around GenAI Use in Recruiting Workflows 发布时间: 2026-04-29 论文链接:http://arxiv.org/abs/2604.26851v1 当生成式人工智能系统应用于高赌注决策时,其推荐角色是辅助而非替代人类决策。然而目前缺乏对职业人士(如招聘人员)在使用genAI系统进行高赌注决策时(如雇佣相关决策)如何感知自身代理权和控制权的研究探索。通过采访22名招聘专业人士发现:genAI系统已潜移默化地影响日常工作流的控制权甚至个体雇佣决策的形成机制。研究发现凸显了紧迫的矛盾:尽管招聘人员自认拥有全流程最终决策权,但genAI已演变为塑造评估基础信息的隐形架构师——从定义岗位到判定面试表现均受其影响;而是否采用genAI系统往往超出招聘人员的控制范围:迫于高层推动整合AI、应对应聘者使用AI工具以及个人提升效率的需求等多重因素驱动下不得不采用;尽管看似引发了招聘模式的革命性转变且存在显著效率提升预期(实际仅获得有限效率增益),但参与者普遍反映这导致了招聘人员技能退化现象——这种能力退化严重威胁到决策过程的实质性监督职责履行。本研究最终就如何在雇佣场景中负责任且可感知地应用genAI系统提出政策建议与实施路径探讨。
12. 简历管控:生成式人工智能在招聘流程中应用场景的能动性认知偏差研究
原文标题: Resume-ing Control: (Mis)Perceptions of Agency Around GenAI Use in Recruiting Workflows
发布时间: 2026-04-29
论文链接:http://arxiv.org/abs/2604.26851v1
当生成式人工智能系统应用于高赌注决策时,其推荐角色是辅助而非替代人类决策。然而目前缺乏对职业人士(如招聘人员)在使用genAI系统进行高赌注决策时(如雇佣相关决策)如何感知自身代理权和控制权的研究探索。通过采访22名招聘专业人士发现:genAI系统已潜移默化地影响日常工作流的控制权甚至个体雇佣决策的形成机制。研究发现凸显了紧迫的矛盾:尽管招聘人员自认拥有全流程最终决策权,但genAI已演变为塑造评估基础信息的隐形架构师——从定义岗位到判定面试表现均受其影响;而是否采用genAI系统往往超出招聘人员的控制范围:迫于高层推动整合AI、应对应聘者使用AI工具以及个人提升效率的需求等多重因素驱动下不得不采用;尽管看似引发了招聘模式的革命性转变且存在显著效率提升预期(实际仅获得有限效率增益),但参与者普遍反映这导致了招聘人员技能退化现象——这种能力退化严重威胁到决策过程的实质性监督职责履行。本研究最终就如何在雇佣场景中负责任且可感知地应用genAI系统提出政策建议与实施路径探讨。
13. 未来世界:一个用于训练具有真实世界结果奖励机制的预测型代理程序的实时环境 原文标题: FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards 发布时间: 2026-04-29 论文链接:http://arxiv.org/abs/2604.26733v1 实时未来预测是指在不发生实际事件的情况下对现实世界事件进行预测的任务。当前该任务的研究日益增多地依赖于基于大型语言模型的代理系统构建,这对开发能够持续从真实世界中学习的代理至关重要。正如交互式环境常推动代理能力提升一样,推进实时未来预测自然促使人们将其视为学习环境。现有研究虽从不同角度探索了未来预测方法,但普遍未将其置于统一的学习框架之下。该任务具有独特的吸引力:既能通过多样化的现实事件生成大量可用于训练的预测问题集(有效防止答案泄露),又能为持续学习提供结构化场景支持。为此我们提出FutureWorld环境——这是一个闭环的实时强化学习平台(包含预测-结果实现-参数更新机制)。实验采用三个开源基座模型进行为期多日的连续训练验证:1)模型在连续7天训练中性能稳步提升;2)构建首个每日更新的基准测试集;3)对比评估多个前沿代理系统的基准线性能达SOTA水平。
13. 未来世界:一个用于训练具有真实世界结果奖励机制的预测型代理程序的实时环境
原文标题: FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards
发布时间: 2026-04-29
论文链接:http://arxiv.org/abs/2604.26733v1
实时未来预测是指在不发生实际事件的情况下对现实世界事件进行预测的任务。当前该任务的研究日益增多地依赖于基于大型语言模型的代理系统构建,这对开发能够持续从真实世界中学习的代理至关重要。正如交互式环境常推动代理能力提升一样,推进实时未来预测自然促使人们将其视为学习环境。现有研究虽从不同角度探索了未来预测方法,但普遍未将其置于统一的学习框架之下。该任务具有独特的吸引力:既能通过多样化的现实事件生成大量可用于训练的预测问题集(有效防止答案泄露),又能为持续学习提供结构化场景支持。为此我们提出FutureWorld环境——这是一个闭环的实时强化学习平台(包含预测-结果实现-参数更新机制)。实验采用三个开源基座模型进行为期多日的连续训练验证:1)模型在连续7天训练中性能稳步提升;2)构建首个每日更新的基准测试集;3)对比评估多个前沿代理系统的基准线性能达SOTA水平。
14. 探索概率变换器在时间序列建模中的潜力:关于ST-PT框架的报告 原文标题: Exploring the Potential of Probabilistic Transformer for Time Series Modeling: A Report on the ST-PT Framework 发布时间: 2026-04-29 论文链接:http://arxiv.org/abs/2604.26762v1 概率变换器(PT)证明Transformer的自注意力机制与前馈模块的结合在数学上等价于条件随机场(CRF)上的均值场变分推断(MFVI)。在此等价下Transformer不再是黑箱神经网络而成为可编程因子图:图的拓扑结构、因子势能以及消息传递调度均为显式且可审计的基础组件以便工程化改造。本报告探讨PT在时间序列领域的潜力。我们首先通过引入空间-时间维度修复了PT缺失通道轴和弱单步语义的问题(ST-PT),并采用其为共享的核心基础架构。随后基于PT/ST-PT作为因子图模型的三项特性提炼出三个研究问题:1. RQ1: 图结构及势能作为直接可编程原语的能力如何用于数据稀缺和噪声环境下注入符号化时间序列先验知识?2. RQ2: CRF因子矩阵作为算子势能的特性能否实现基于样本的外部条件编程以将条件生成转化为结构化而非特征级调制固定模型的能力?3. RQ3: MFVI迭代本质上是因子图上的贝叶斯后验更新过程能否将潜在空间自回归模型(AR)的隐式转移从黑箱MLP转化为有理化的后验更新机制?同时能否通过CRF教师对AR学生的潜在蒸馏来抵消累积误差?每个问题均配备对应的实证研究案例。三者的协同论证确立了ST-PT作为时间序列建模的可编程框架地位。
14. 探索概率变换器在时间序列建模中的潜力:关于ST-PT框架的报告
原文标题: Exploring the Potential of Probabilistic Transformer for Time Series Modeling: A Report on the ST-PT Framework
发布时间: 2026-04-29
论文链接:http://arxiv.org/abs/2604.26762v1
概率变换器(PT)证明Transformer的自注意力机制与前馈模块的结合在数学上等价于条件随机场(CRF)上的均值场变分推断(MFVI)。在此等价下Transformer不再是黑箱神经网络而成为可编程因子图:图的拓扑结构、因子势能以及消息传递调度均为显式且可审计的基础组件以便工程化改造。本报告探讨PT在时间序列领域的潜力。我们首先通过引入空间-时间维度修复了PT缺失通道轴和弱单步语义的问题(ST-PT),并采用其为共享的核心基础架构。随后基于PT/ST-PT作为因子图模型的三项特性提炼出三个研究问题:1. RQ1: 图结构及势能作为直接可编程原语的能力如何用于数据稀缺和噪声环境下注入符号化时间序列先验知识?2. RQ2: CRF因子矩阵作为算子势能的特性能否实现基于样本的外部条件编程以将条件生成转化为结构化而非特征级调制固定模型的能力?3. RQ3: MFVI迭代本质上是因子图上的贝叶斯后验更新过程能否将潜在空间自回归模型(AR)的隐式转移从黑箱MLP转化为有理化的后验更新机制?同时能否通过CRF教师对AR学生的潜在蒸馏来抵消累积误差?每个问题均配备对应的实证研究案例。三者的协同论证确立了ST-PT作为时间序列建模的可编程框架地位。
15. MemOVCD: 无需训练开放词典变化检测通过跨时记忆推理和全局局部自适应矫正 原文标题: MemOVCD: Training-Free Open-Vocabulary Change Detection via Cross-Temporal Memory Reasoning and Global-Local Adaptive Rectification 发布时间: 2026-04-29 论文链接:http://arxiv.org/abs/2604.26774v1 开放词汇库变化检测旨在在不预先定义类别的情况下识别双时相遥感图像中的语义变化。近期方法结合了基础模型如SAM、DINO和CLIP,但通常独立处理每个时间戳或仅在最终比较阶段交互。这种范式由于在语义推理过程中缺乏足够的时序耦合性而存在缺陷——无法有效区分真实的语义变化与非语义的视觉差异变化。此外基于小块的推理在高分辨率图像中常削弱全局语义连续性并产生碎片化的变化区域。为此我们提出MemOVCD框架——一种无需训练的开放词汇库变化检测方法,基于跨时序记忆推理与全局-局部自适应校正机制。具体而言我们将双时相变化检测建模为两帧跟踪问题并引入加权双向传播机制聚合双向时间维度的语义证据以增强时序关联性。通过构建直方图对齐的过渡帧来平滑跨越长时段的突发视觉变化以稳定记忆传播过程。同时设计全局-局部自适应校正策略动态融合两种视角预测结果从而在提升空间一致性的同时保持细粒度特征表达能力。实验表明在五个基准数据集上MemOVCD在两个开放词汇变化检测任务中均获得优越性能验证了其在多样化开放词汇场景下的有效性及泛化能力。
15. MemOVCD: 无需训练开放词典变化检测通过跨时记忆推理和全局局部自适应矫正
原文标题: MemOVCD: Training-Free Open-Vocabulary Change Detection via Cross-Temporal Memory Reasoning and Global-Local Adaptive Rectification
发布时间: 2026-04-29
论文链接:http://arxiv.org/abs/2604.26774v1
开放词汇库变化检测旨在在不预先定义类别的情况下识别双时相遥感图像中的语义变化。近期方法结合了基础模型如SAM、DINO和CLIP,但通常独立处理每个时间戳或仅在最终比较阶段交互。这种范式由于在语义推理过程中缺乏足够的时序耦合性而存在缺陷——无法有效区分真实的语义变化与非语义的视觉差异变化。此外基于小块的推理在高分辨率图像中常削弱全局语义连续性并产生碎片化的变化区域。为此我们提出MemOVCD框架——一种无需训练的开放词汇库变化检测方法,基于跨时序记忆推理与全局-局部自适应校正机制。具体而言我们将双时相变化检测建模为两帧跟踪问题并引入加权双向传播机制聚合双向时间维度的语义证据以增强时序关联性。通过构建直方图对齐的过渡帧来平滑跨越长时段的突发视觉变化以稳定记忆传播过程。同时设计全局-局部自适应校正策略动态融合两种视角预测结果从而在提升空间一致性的同时保持细粒度特征表达能力。实验表明在五个基准数据集上MemOVCD在两个开放词汇变化检测任务中均获得优越性能验证了其在多样化开放词汇场景下的有效性及泛化能力。
16. HalluCiteChecker: 一个轻量级工具包用于AI科学家时代的幻觉引用检测与验证 原文标题: HalluCiteChecker: A Lightweight Toolkit for Hallucinated Citation Detection and Verification in the Era of AI Scientists 发布时间: 2026-04-29 论文链接:http://arxiv.org/abs/2604.26835v1 我们介绍了HalluCiteChecker工具集,用于检测和验证科学论文中的幻觉引用(即不真实存在的文献引用)。尽管AI辅助技术已革新学术写作流程(包括文献推荐功能),但也催生了这类虚假引用问题。此类引用不仅损害学术论文的可信度,还增加了审稿人和作者手动核验文献真实性的负担。本研究将幻觉文献检测形式化为自然语言处理任务并提供相应工具包作为解决方案基础:1) 工具轻量化设计可在标准笔记本电脑上以秒级速度完成验证;2) 完全支持离线运行且仅使用CPU即可高效执行;3) 代码已通过Apache 2.0协议发布于GitHub;4) 提供PyPI安装包分发渠道;5) 配套YouTube演示视频。该工具有望降低审稿工作量并支持出版机构进行系统性预审与出版核查工作。
16. HalluCiteChecker: 一个轻量级工具包用于AI科学家时代的幻觉引用检测与验证
原文标题: HalluCiteChecker: A Lightweight Toolkit for Hallucinated Citation Detection and Verification in the Era of AI Scientists
发布时间: 2026-04-29
论文链接:http://arxiv.org/abs/2604.26835v1
我们介绍了HalluCiteChecker工具集,用于检测和验证科学论文中的幻觉引用(即不真实存在的文献引用)。尽管AI辅助技术已革新学术写作流程(包括文献推荐功能),但也催生了这类虚假引用问题。此类引用不仅损害学术论文的可信度,还增加了审稿人和作者手动核验文献真实性的负担。本研究将幻觉文献检测形式化为自然语言处理任务并提供相应工具包作为解决方案基础:1) 工具轻量化设计可在标准笔记本电脑上以秒级速度完成验证;2) 完全支持离线运行且仅使用CPU即可高效执行;3) 代码已通过Apache 2.0协议发布于GitHub;4) 提供PyPI安装包分发渠道;5) 配套YouTube演示视频。该工具有望降低审稿工作量并支持出版机构进行系统性预审与出版核查工作。
17. 驾驭浪潮:跨架构蒸馏扩散大语言模型 原文标题: Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models 发布时间: 2026-04-29 论文链接:http://arxiv.org/abs/2604.26951v1 扩散大语言模型支持并行解码和双向上下文处理能力,但当前顶尖的dLLMs需要数十亿参数才能达到竞争力。现有蒸馏方法主要针对单架构优化推理步骤的减少(如同一架构内的蒸馏),而未解决跨架构知识迁移问题(即教师和学生模型在架构、注意力机制、分词器等方面存在差异)。我们提出TIDE框架作为首个跨架构dLLM蒸馏方案:包含三个模块化组件:(1) TIDAL模块联合调节训练阶段与扩散步长的蒸馏强度以适应教师模型的噪声依赖可靠性;(2) CompDemo模块通过互补掩码分割增强教师上下文以改善重掩码条件下的预测;(3) Reverse CALM模块设计跨分词器的反向对比学习目标(通过chunk级似然匹配反转实现),该目标具有梯度约束特性且支持双向噪声过滤。实验表明:通过两个异构流水线将8B密集型教师和16B专家混合模型教师蒸馏至0.6B学生模型时(教师与学生架构差异显著),相比基线平均提升1.53个基准点分数(八项评估指标)。特别是在代码生成任务中取得显著进步——HumanEval得分达48.78(较AR基线32.3分有近50%提升)。
17. 驾驭浪潮:跨架构蒸馏扩散大语言模型
原文标题: Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models
发布时间: 2026-04-29
论文链接:http://arxiv.org/abs/2604.26951v1
扩散大语言模型支持并行解码和双向上下文处理能力,但当前顶尖的dLLMs需要数十亿参数才能达到竞争力。现有蒸馏方法主要针对单架构优化推理步骤的减少(如同一架构内的蒸馏),而未解决跨架构知识迁移问题(即教师和学生模型在架构、注意力机制、分词器等方面存在差异)。我们提出TIDE框架作为首个跨架构dLLM蒸馏方案:包含三个模块化组件:(1) TIDAL模块联合调节训练阶段与扩散步长的蒸馏强度以适应教师模型的噪声依赖可靠性;(2) CompDemo模块通过互补掩码分割增强教师上下文以改善重掩码条件下的预测;(3) Reverse CALM模块设计跨分词器的反向对比学习目标(通过chunk级似然匹配反转实现),该目标具有梯度约束特性且支持双向噪声过滤。实验表明:通过两个异构流水线将8B密集型教师和16B专家混合模型教师蒸馏至0.6B学生模型时(教师与学生架构差异显著),相比基线平均提升1.53个基准点分数(八项评估指标)。特别是在代码生成任务中取得显著进步——HumanEval得分达48.78(较AR基线32.3分有近50%提升)。
18. 从多元思维者中学习思考 原文标题: Learning to Think from Multiple Thinkers 发布时间: 2026-04-27 论文链接:http://arxiv.org/abs/2604.24737v1 我们研究从多个思考者处进行思维链监督的学习问题。这些思考者均能提供正确的解决方案(可能存在系统性差异),例如不同思考者撰写的数学问题分步解答方案,或不同程序解决同一问题的执行轨迹分步记录。我们关注一类任务:通过单个思考者的CoT监督可实现计算上高效的学习(即该任务易学),但仅通过结果监督(无CoT)则难以学习。在密码学术假设下证明:当由两个或少数不同思考者提供CoT监督时,学习任务在被动数据收集场景下仍具有困难性。另一方面,我们提出一种通用且计算高效的主动学习算法:该算法仅需每个思考者提供少量独立于目标准确度ε的CoT数据;所需思考者的数量按log(1/ε)·log log(1/ε)增长;同时需要足够量的被动结果数据(规模为(1/ε)·polylog(1/ε))。
18. 从多元思维者中学习思考
原文标题: Learning to Think from Multiple Thinkers
发布时间: 2026-04-27
论文链接:http://arxiv.org/abs/2604.24737v1
我们研究从多个思考者处进行思维链监督的学习问题。这些思考者均能提供正确的解决方案(可能存在系统性差异),例如不同思考者撰写的数学问题分步解答方案,或不同程序解决同一问题的执行轨迹分步记录。我们关注一类任务:通过单个思考者的CoT监督可实现计算上高效的学习(即该任务易学),但仅通过结果监督(无CoT)则难以学习。在密码学术假设下证明:当由两个或少数不同思考者提供CoT监督时,学习任务在被动数据收集场景下仍具有困难性。另一方面,我们提出一种通用且计算高效的主动学习算法:该算法仅需每个思考者提供少量独立于目标准确度ε的CoT数据;所需思考者的数量按log(1/ε)·log log(1/ε)增长;同时需要足够量的被动结果数据(规模为(1/ε)·polylog(1/ε))。
19. 基于模式化知识组件的学生代码提交个性化解题示例生成 原文标题: Personalized Worked Example Generation from Student Code Submissions using Pattern-based Knowledge Components 发布时间: 2026-04-27 论文链接:http://arxiv.org/abs/2604.24758v1 自适应编程实践通常依赖于固定的示例库和实践问题集,这些资源需要大量编写作业且可能无法很好地与学生在编写代码时产生的逻辑错误和中间解决方案相匹配。因此,学生可能接触到与其正在努力理解的概念不直接相关的学习内容,而教师则需投入额外精力扩展资源库或接受较低程度的个性化教学。我们提出了一种基于知识组件(KC)的教学习内容生成方法,该方法通过抽象语法树(AST)分析从学生代码中提取重复出现的结构化KC模式,并将这些模式作为生成模型的条件输入。在本研究中,我们将该方法应用于工作示例生成领域,并通过专家评估对比基线方法和KC条件化生成的效果。实验结果表明:KC条件化生成的输出在主题聚焦性和与学习者底层逻辑错误的关联性上均有显著提升,证明了基于知识组件引导生成模型能够有效支持大规模个性化学习。
19. 基于模式化知识组件的学生代码提交个性化解题示例生成
原文标题: Personalized Worked Example Generation from Student Code Submissions using Pattern-based Knowledge Components
发布时间: 2026-04-27
论文链接:http://arxiv.org/abs/2604.24758v1
自适应编程实践通常依赖于固定的示例库和实践问题集,这些资源需要大量编写作业且可能无法很好地与学生在编写代码时产生的逻辑错误和中间解决方案相匹配。因此,学生可能接触到与其正在努力理解的概念不直接相关的学习内容,而教师则需投入额外精力扩展资源库或接受较低程度的个性化教学。我们提出了一种基于知识组件(KC)的教学习内容生成方法,该方法通过抽象语法树(AST)分析从学生代码中提取重复出现的结构化KC模式,并将这些模式作为生成模型的条件输入。在本研究中,我们将该方法应用于工作示例生成领域,并通过专家评估对比基线方法和KC条件化生成的效果。实验结果表明:KC条件化生成的输出在主题聚焦性和与学习者底层逻辑错误的关联性上均有显著提升,证明了基于知识组件引导生成模型能够有效支持大规模个性化学习。
20. 学习旋转:面向序列建模的时序与语义旋转编码 原文标题: Learning to Rotate: Temporal and Semantic Rotary Encoding for Sequential Modeling 发布时间: 2026-04-27 论文链接:http://arxiv.org/abs/2604.24717v1 每个Transformer架构都会将巨大的计算能力投入到学习语义嵌入空间中的丰富表示中——然而由RoPE作用所改变的旋转流形却被视为一个固定的、手工设计的结构,仅由离散的序号索引填充。我们主张旋转流形是一个被广泛忽视的注意力机制中的第二维度表达空间,对其系统性探索可能为基于注意力的架构开启新的大门。以复数平面为例:引入虚数轴这一与实轴正交且独立的维度解锁了曾被认为不可能实现的代数结构。将旋转流形视为可学习的、信号条件化的空间时,同样能为其赋予正交的扩展维度:在注意力机制中,令令牌嵌入编码语义(实部)——即令牌所代表的概念意义;而旋转编码动态(虚部)——即令牌与其他令牌在时间、位置和上下文中的关联关系。我们提出SIREN-RoPE这一具体实现方案:通过双分支正弦表示网络将异构信号(连续时间戳、周期性时间模式、类别元数据)注入旋转维度。在验证阶段使用某大型社交平台生产级新闻流数据集(基于生成式推荐器进行排名模型评估),发现激活这一隐藏维度可在校准和排序目标上实现持续性能提升且计算开销极低。我们呼吁学界重新审视旋转空间:不应将其视为已解决的定位编码技术细节问题,而应视作亟待探索的扩展维度——其丰富的结构可能对注意力机制产生如同虚数单位对代数那样的革命性影响。
20. 学习旋转:面向序列建模的时序与语义旋转编码
原文标题: Learning to Rotate: Temporal and Semantic Rotary Encoding for Sequential Modeling
发布时间: 2026-04-27
论文链接:http://arxiv.org/abs/2604.24717v1
每个Transformer架构都会将巨大的计算能力投入到学习语义嵌入空间中的丰富表示中——然而由RoPE作用所改变的旋转流形却被视为一个固定的、手工设计的结构,仅由离散的序号索引填充。我们主张旋转流形是一个被广泛忽视的注意力机制中的第二维度表达空间,对其系统性探索可能为基于注意力的架构开启新的大门。以复数平面为例:引入虚数轴这一与实轴正交且独立的维度解锁了曾被认为不可能实现的代数结构。将旋转流形视为可学习的、信号条件化的空间时,同样能为其赋予正交的扩展维度:在注意力机制中,令令牌嵌入编码语义(实部)——即令牌所代表的概念意义;而旋转编码动态(虚部)——即令牌与其他令牌在时间、位置和上下文中的关联关系。我们提出SIREN-RoPE这一具体实现方案:通过双分支正弦表示网络将异构信号(连续时间戳、周期性时间模式、类别元数据)注入旋转维度。在验证阶段使用某大型社交平台生产级新闻流数据集(基于生成式推荐器进行排名模型评估),发现激活这一隐藏维度可在校准和排序目标上实现持续性能提升且计算开销极低。我们呼吁学界重新审视旋转空间:不应将其视为已解决的定位编码技术细节问题,而应视作亟待探索的扩展维度——其丰富的结构可能对注意力机制产生如同虚数单位对代数那样的革命性影响。