标签

2026年5月3日精选AI论文速递

发布时间:2026-05-04 07:20来源:微信阅读:5

1. 针对已冻结大语言模型的学习式证据高亮技术 原文标题: Learning Evidence Highlighting for Frozen LLMs 发布时间: 2026-04-24 论文链接:http://arxiv.org/abs/2604.22565v1 大型语言模型(LLMs)的推理能力虽强,但在处理冗长且信息混杂的语境时,常会遗漏关键线索。为此,我们引入了HiLight这一证据凸显框架(Evidence Emphasis Framework),它将证据的选取与推理过程分离开来,专为冻结状态下的LLM求解器(frozen LLM solvers)设计。HiLight通过训练一个轻量级的强调演员(Emphasis Actor),在不改变或压缩原始输入的前提下,向文本中注入少量高亮标签(highlight tags)来标识重要片段;随后,冻结的求解器据此进行后续的推理任务(downstream reasoning task)。我们将高亮操作视作一种弱监督决策问题(weakly supervised decision-making problem),并利用强化学习(reinforcement learning)仅依据求解器的任务奖励进行优化——无需标注证据,也无需接触或修改求解器本身。在序列推荐和长文本问答等任务上的实验结果显示:HiLight不仅在表现上远超现有的强提示模板及自动化提示优化基线(strong prompt-based and automated prompt-optimization baselines),其学习到的强调策略更能实现零样本迁移,适用于各种规模的、未曾见过的求解器家族(including an API-based Solver),包括基于API的求解器等新型架构——这证明了该强调演员(Actor)确实捕捉到了可复用的证据结构特征,而非仅仅过拟合了单一模型架构。

1. 针对已冻结大语言模型的学习式证据高亮技术

原文标题: Learning Evidence Highlighting for Frozen LLMs

发布时间: 2026-04-24

论文链接:http://arxiv.org/abs/2604.22565v1

大型语言模型(LLMs)的推理能力虽强,但在处理冗长且信息混杂的语境时,常会遗漏关键线索。为此,我们引入了HiLight这一证据凸显框架(Evidence Emphasis Framework),它将证据的选取与推理过程分离开来,专为冻结状态下的LLM求解器(frozen LLM solvers)设计。HiLight通过训练一个轻量级的强调演员(Emphasis Actor),在不改变或压缩原始输入的前提下,向文本中注入少量高亮标签(highlight tags)来标识重要片段;随后,冻结的求解器据此进行后续的推理任务(downstream reasoning task)。我们将高亮操作视作一种弱监督决策问题(weakly supervised decision-making problem),并利用强化学习(reinforcement learning)仅依据求解器的任务奖励进行优化——无需标注证据,也无需接触或修改求解器本身。在序列推荐和长文本问答等任务上的实验结果显示:HiLight不仅在表现上远超现有的强提示模板及自动化提示优化基线(strong prompt-based and automated prompt-optimization baselines),其学习到的强调策略更能实现零样本迁移,适用于各种规模的、未曾见过的求解器家族(including an API-based Solver),包括基于API的求解器等新型架构——这证明了该强调演员(Actor)确实捕捉到了可复用的证据结构特征,而非仅仅过拟合了单一模型架构。

2. QuantClaw:精度关键所在——为OpenClaw量身定制 原文标题: QuantClaw: Precision Where It Matters for OpenClaw 发布时间: 2026-04-24 论文链接:http://arxiv.org/abs/2604.22577v1 自主代理系统(例如OpenClaw)在处理长上下文输入和进行多轮推理时,面临着严峻的效率挑战,导致实际应用中的计算成本和资源消耗居高不下。尽管量化技术是降低成本和缩短时间的常用手段,但其对实际代理性能的影响尚不明确。本研究通过分析OpenClaw上多种复杂工作流程的量化敏感性,发现不同任务对精度的需求存在显著差异。基于此观察,我们提出了QuantClaw插件——一种即插即用的动态精度分配方案。该插件能够根据任务特点自动调整精度等级:将低负载任务导向低精度配置以节约资源,同时为高负载任务保留更高精度以确保性能。实验结果显示,QuantClaw在维持或提升任务表现的同时,实现了计算成本降低21.4%和延迟减少15.7%(基于GLM-5 FP8基线)。这些成果有力地证明了在代理系统中将精度视为一种动态可调资源的重要性。

2. QuantClaw:精度关键所在——为OpenClaw量身定制

原文标题: QuantClaw: Precision Where It Matters for OpenClaw

发布时间: 2026-04-24

论文链接:http://arxiv.org/abs/2604.22577v1

自主代理系统(例如OpenClaw)在处理长上下文输入和进行多轮推理时,面临着严峻的效率挑战,导致实际应用中的计算成本和资源消耗居高不下。尽管量化技术是降低成本和缩短时间的常用手段,但其对实际代理性能的影响尚不明确。本研究通过分析OpenClaw上多种复杂工作流程的量化敏感性,发现不同任务对精度的需求存在显著差异。基于此观察,我们提出了QuantClaw插件——一种即插即用的动态精度分配方案。该插件能够根据任务特点自动调整精度等级:将低负载任务导向低精度配置以节约资源,同时为高负载任务保留更高精度以确保性能。实验结果显示,QuantClaw在维持或提升任务表现的同时,实现了计算成本降低21.4%和延迟减少15.7%(基于GLM-5 FP8基线)。这些成果有力地证明了在代理系统中将精度视为一种动态可调资源的重要性。

3. 关于计划存在性问题的不可判定性证明 原文标题: An Undecidability Proof for the Plan Existence Problem 发布时间: 2026-04-24 论文链接:http://arxiv.org/abs/2604.22736v1 计划存在问题要求我们判断,在给定一个以模态逻辑公式表示的目标、一个初始知识状态(以Kripke模型指定),以及一组知识行动的前提下,是否存在一个行动序列能够从初始状态达成目标。我们证明了即使在预设条件(preconditions)的模态深度不超过1且无后置条件(postconditions)的情况下,该问题依然是不可判定的。此前,该问题是否可判定(或不可判定)并未得到研究。

3. 关于计划存在性问题的不可判定性证明

原文标题: An Undecidability Proof for the Plan Existence Problem

发布时间: 2026-04-24

论文链接:http://arxiv.org/abs/2604.22736v1

计划存在问题要求我们判断,在给定一个以模态逻辑公式表示的目标、一个初始知识状态(以Kripke模型指定),以及一组知识行动的前提下,是否存在一个行动序列能够从初始状态达成目标。我们证明了即使在预设条件(preconditions)的模态深度不超过1且无后置条件(postconditions)的情况下,该问题依然是不可判定的。此前,该问题是否可判定(或不可判定)并未得到研究。

4. ArmSSL:为自监督学习预训练编码器设计的对抗鲁棒黑盒水印 原文标题: ArmSSL: Adversarial Robust Black-Box Watermarking for Self-Supervised Learning Pre-trained Encoders 发布时间: 2026-04-24 论文链接:http://arxiv.org/abs/2604.22550v1 自监督学习(SSL)编码器是无形知识产权(IP)的核心构成部分。然而,现有的基于SSL的IP保护水印技术往往无法同时满足两个实际需求:(1)在被盗用的编码器用于下游任务时,仍能提供黑盒下的所有权验证能力;(2)能够抵御对抗性的水印检测/移除攻击,因为水印样本可能会形成可区分的分布外(OOD)聚类。我们提出了ArmSSL框架,旨在实现实用保护的同时,保证黑盒可验证性和对抗鲁棒性。(1)验证机制采用配对差异放大策略,通过强制清洁样本与其水印版本在特征空间中保持正交性约束,生成可靠的验证信号;(2)对抗鲁棒性通过潜在表示纠缠与分布对齐的双重机制实现:前者将水印表示与清洁样本(非源类数据)关联纠缠,避免水印样本形成ODD簇;后者最小化水印样本与清洁样本的分布差异,使其伪装成自然分布数据;(3)实用性方面,设计了参考引导型水印调优策略:通过在正常数据上使带水印编码器的输出与原始清洁编码器的输出对齐,将水印学习作为一项小规模的辅助任务执行,而不影响主任务性能。实验结果表明:在五种主流SSL框架和九个基准数据集上的对比测试显示:ArmSSL在所有权验证准确率、实用性能损失(<0.5%)以及对抗攻击鲁棒性方面均优于当前最先进(SOTA)的方法。

4. ArmSSL:为自监督学习预训练编码器设计的对抗鲁棒黑盒水印

原文标题: ArmSSL: Adversarial Robust Black-Box Watermarking for Self-Supervised Learning Pre-trained Encoders

发布时间: 2026-04-24

论文链接:http://arxiv.org/abs/2604.22550v1

自监督学习(SSL)编码器是无形知识产权(IP)的核心构成部分。然而,现有的基于SSL的IP保护水印技术往往无法同时满足两个实际需求:(1)在被盗用的编码器用于下游任务时,仍能提供黑盒下的所有权验证能力;(2)能够抵御对抗性的水印检测/移除攻击,因为水印样本可能会形成可区分的分布外(OOD)聚类。我们提出了ArmSSL框架,旨在实现实用保护的同时,保证黑盒可验证性和对抗鲁棒性。(1)验证机制采用配对差异放大策略,通过强制清洁样本与其水印版本在特征空间中保持正交性约束,生成可靠的验证信号;(2)对抗鲁棒性通过潜在表示纠缠与分布对齐的双重机制实现:前者将水印表示与清洁样本(非源类数据)关联纠缠,避免水印样本形成ODD簇;后者最小化水印样本与清洁样本的分布差异,使其伪装成自然分布数据;(3)实用性方面,设计了参考引导型水印调优策略:通过在正常数据上使带水印编码器的输出与原始清洁编码器的输出对齐,将水印学习作为一项小规模的辅助任务执行,而不影响主任务性能。实验结果表明:在五种主流SSL框架和九个基准数据集上的对比测试显示:ArmSSL在所有权验证准确率、实用性能损失(<0.5%)以及对抗攻击鲁棒性方面均优于当前最先进(SOTA)的方法。

5. 通过蒸馏实现密集检索器与大型语言模型效用的对齐 原文标题: Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation 发布时间: 2026-04-24 论文链接:http://arxiv.org/abs/2604.22722v1 密集向量检索是检索增强生成(RAG)的核心组成部分,但其相似性搜索可能存在精度上的局限。相比之下,基于效用价值的LLM重排方法虽然性能更优,但计算成本高昂,且容易受到困惑度估计固有噪声的影响。我们提出了效用对齐嵌入(UAE)框架,通过将检索视为一个分布匹配问题,并训练双编码器来模拟由困惑度降低所导出的效用分布。该方案通过Utility-Modulated InfoNCE目标,直接在嵌入空间注入分级效用信号,无需在测试时进行LLM推理。在QASPER基准测试中,UAE相较于语义基线BGE-Base,Recall@1提升了30.59%,MAP提升了30.16%,Token F1提升了17.3%。其关键创新在于提供了超过180倍的速度优势,同时保持了竞争力十足的性能表现,证明了通过对齐检索与生成效用,可以在大规模场景下可靠地获取上下文信息。

5. 通过蒸馏实现密集检索器与大型语言模型效用的对齐

原文标题: Aligning Dense Retrievers with LLM Utility via DistillationAligning Dense Retrievers with LLM Utility via Distillation

发布时间: 2026-04-24

论文链接:http://arxiv.org/abs/2604.22722v1

密集向量检索是检索增强生成(RAG)的核心组成部分,但其相似性搜索可能存在精度上的局限。相比之下,基于效用价值的LLM重排方法虽然性能更优,但计算成本高昂,且容易受到困惑度估计固有噪声的影响。我们提出了效用对齐嵌入(UAE)框架,通过将检索视为一个分布匹配问题,并训练双编码器来模拟由困惑度降低所导出的效用分布。该方案通过Utility-Modulated InfoNCE目标,直接在嵌入空间注入分级效用信号,无需在测试时进行LLM推理。在QASPER基准测试中,UAE相较于语义基线BGE-Base,Recall@1提升了30.59%,MAP提升了30.16%,Token F1提升了17.3%。其关键创新在于提供了超过180倍的速度优势,同时保持了竞争力十足的性能表现,证明了通过对齐检索与生成效用,可以在大规模场景下可靠地获取上下文信息。

6. CRAFT:基于聚类的自适应训练数据筛选方法 原文标题: CRAFT: Clustered Regression for Adaptive Filtering of Training data 发布时间: 2026-04-24 论文链接:http://arxiv.org/abs/2604.22693v1 从海量语料库中精选一小部分高质量数据进行微调,在当前语料库规模迅速增长(达到数百万数据点,使得全面微调既昂贵又通常不必要)的背景下,变得愈发重要。我们提出了CRAFT(Clustered Regression for Adaptive Filtering of Training data)——一种与向量化方法无关的序列到序列模型训练数据筛选技术。CRAFT通过分解联合源-目标分布实现两阶段筛选:(i) 将预算按比例分配给k-means聚类,以匹配验证集的源分布;(ii) 在每个源聚类内部,选择目标嵌入最小化由验证集目标分布导出的条件期望距离的训练对。我们证明了按比例分配聚类预算能够将选定集与验证集之间的连续KL散度控制在一定范围内(残差受聚类直径控制)。在英语-印地语翻译任务中(从3300万NLLB句对中为mBART进行LoRA微调选择训练数据),CRAFT达到了43.34 BLEU分数(在相同候选池和编码器下优于TSDS的41.21 BLEU),领先2.13分,且数据筛选耗时仅为TSDS的1/40(26.86秒 vs 75.6秒)。当使用TF-IDF向量化时,整个流程可在1分钟内完成(CPU环境下)。尽管TAROT达到了45.61 BLEU分数,但CRAFT的数据筛选速度仍比TAROT快2.8倍(26.86秒 vs 75.6秒)。

6. CRAFT:基于聚类的自适应训练数据筛选方法

原文标题: CRAFT: Clustered Regression for Adaptive Filtering of Training data

发布时间: 2026-04-24

论文链接:http://arxiv.org/abs/2604.22693v1

从海量语料库中精选一小部分高质量数据进行微调,在当前语料库规模迅速增长(达到数百万数据点,使得全面微调既昂贵又通常不必要)的背景下,变得愈发重要。我们提出了CRAFT(Clustered Regression for Adaptive Filtering of Training data)——一种与向量化方法无关的序列到序列模型训练数据筛选技术。CRAFT通过分解联合源-目标分布实现两阶段筛选:(i) 将预算按比例分配给k-means聚类,以匹配验证集的源分布;(ii) 在每个源聚类内部,选择目标嵌入最小化由验证集目标分布导出的条件期望距离的训练对。我们证明了按比例分配聚类预算能够将选定集与验证集之间的连续KL散度控制在一定范围内(残差受聚类直径控制)。在英语-印地语翻译任务中(从3300万NLLB句对中为mBART进行LoRA微调选择训练数据),CRAFT达到了43.34 BLEU分数(在相同候选池和编码器下优于TSDS的41.21 BLEU),领先2.13分,且数据筛选耗时仅为TSDS的1/40(26.86秒 vs 75.6秒)。当使用TF-IDF向量化时,整个流程可在1分钟内完成(CPU环境下)。尽管TAROT达到了45.61 BLEU分数,但CRAFT的数据筛选速度仍比TAROT快2.8倍(26.86秒 vs 75.6秒)。

7. 从自然语言到验证代码:基于Dafny的形式化验证辅助代码生成 原文标题: From Natural Language to Verified Code: Toward AI Assisted Problem-to-Code Generation with Dafny-Based Formal Verification 发布时间: 2026-04-24 论文链接:http://arxiv.org/abs/2604.22601v1 大型语言模型(LLMs)在自动化软件工程领域展现出巨大潜力,但其生成的代码常因错误或虚构而影响可靠性。为了强制模型生成真实可信的代码,形式化验证要求LLMs同时生成实现逻辑、形式化规范文档,并经数学验证器确认正确性。然而,从非正式的自然语言到精确形式规范的转换过程极具挑战。本研究为此提供了NL2VC-60数据集(自然语言转验证代码-60),其中包含60个复杂算法问题。我们通过分层提示策略,评估了11个随机选取的问题集在七个开源权重模型上的表现:包括无上下文提示、提供结构锚定的签名提示,以及利用Dafny验证器迭代反馈的自愈提示。为防止模型仅满足验证器而未真正解决问题的“空验证”现象,我们整合了uDebug平台进行功能性校验。实验结果显示:无上下文提示组几乎全军覆没;采用结构签名和自愈迭代反馈后,性能显著提升:Gemma 4-31B达到了90.91%的验证成功率;GPT-OSS 120B通过签名引导反馈,成功率从零提升至81.82%。这些发现表明,形式化验证已成为一个可行的方向——开源权重模型可作为高效助手,完成复杂注释生成及高保障软件开发任务。

7. 从自然语言到验证代码:基于Dafny的形式化验证辅助代码生成

原文标题: From Natural Language to Verified Code: Toward AI Assisted Problem-to-Code Generation with Dafny-Based Formal Verification

发布时间: 2026-04-24

论文链接:http://arxiv.org/abs/2604.22601v1

大型语言模型(LLMs)在自动化软件工程领域展现出巨大潜力,但其生成的代码常因错误或虚构而影响可靠性。为了强制模型生成真实可信的代码,形式化验证要求LLMs同时生成实现逻辑、形式化规范文档,并经数学验证器确认正确性。然而,从非正式的自然语言到精确形式规范的转换过程极具挑战。本研究为此提供了NL2VC-60数据集(自然语言转验证代码-60),其中包含60个复杂算法问题。我们通过分层提示策略,评估了11个随机选取的问题集在七个开源权重模型上的表现:包括无上下文提示、提供结构锚定的签名提示,以及利用Dafny验证器迭代反馈的自愈提示。为防止模型仅满足验证器而未真正解决问题的“空验证”现象,我们整合了uDebug平台进行功能性校验。实验结果显示:无上下文提示组几乎全军覆没;采用结构签名和自愈迭代反馈后,性能显著提升:Gemma 4-31B达到了90.91%的验证成功率;GPT-OSS 120B通过签名引导反馈,成功率从零提升至81.82%。这些发现表明,形式化验证已成为一个可行的方向——开源权重模型可作为高效助手,完成复杂注释生成及高保障软件开发任务。

8. 重新审视可解释AI(XAI)评估:高风险场景下的夏普利基准人为中心审计 原文标题: Rethinking XAI Evaluation: A Human-Centered Audit of Shapley Benchmarks in High-Stakes Settings 发布时间: 2026-04-24 论文链接:http://arxiv.org/abs/2604.22662v1 夏普利值是可解释人工智能(XAI)的核心,但其演变出的多种竞争形式导致了应用场景的碎片化和缺乏共识。尽管理论上的差异已被充分记录,评估方法仍主要依赖于定量指标(如稀疏性和可信度),而与人类效用的对齐性则未经验证。本文采用统一的分摊框架,隔离了八种夏普利变体在运营风险工作流低延迟约束下的语义差异。通过四个风险数据集以及包含专业分析师对3,735个案例进行审查的现实欺诈检测环境,进行了大规模实证评估。结果发现:标准定量指标与人类感知的清晰度及决策效用之间存在根本性错位;尽管未发现任何变体能提升客观分析师的表现,但解释结果显著增强了决策信心,揭示了高风险场景下自动化偏差的关键风险。研究表明,现有评估指标无法有效预测下游人类行为的影响,并据此提出了基于证据的算法选择和评估指标优化建议。

8. 重新审视可解释AI(XAI)评估:高风险场景下的夏普利基准人为中心审计

原文标题: Rethinking XAI Evaluation: A Human-Centered Audit of Shapley Benchmarks in High-Stakes Settings

发布时间: 2026-04-24

论文链接:http://arxiv.org/abs/2604.22662v1

夏普利值是可解释人工智能(XAI)的核心,但其演变出的多种竞争形式导致了应用场景的碎片化和缺乏共识。尽管理论上的差异已被充分记录,评估方法仍主要依赖于定量指标(如稀疏性和可信度),而与人类效用的对齐性则未经验证。本文采用统一的分摊框架,隔离了八种夏普利变体在运营风险工作流低延迟约束下的语义差异。通过四个风险数据集以及包含专业分析师对3,735个案例进行审查的现实欺诈检测环境,进行了大规模实证评估。结果发现:标准定量指标与人类感知的清晰度及决策效用之间存在根本性错位;尽管未发现任何变体能提升客观分析师的表现,但解释结果显著增强了决策信心,揭示了高风险场景下自动化偏差的关键风险。研究表明,现有评估指标无法有效预测下游人类行为的影响,并据此提出了基于证据的算法选择和评估指标优化建议。

9. FAccT进展总结:通过参与式设计共创公平、问责与透明性社区愿景 原文标题: "Taking Stock at FAccT": Using Participatory Design to Co-Create a Vision for the Fairness, Accountability and Transparency Community 发布时间: 2026-04-17 论文链接:http://arxiv.org/abs/2604.16224v1 ACM FAccT作为一个相对较新的学术论坛,已成为活动家和学者批判性审视新兴人工智能与机器学习技术的重要平台。该论坛汇聚了来自不同领域的学术界代表、公民社会成员及政府代表,共同探讨已部署和拟议技术带来的广泛社会影响。我们报告了一个大规模参与式设计(PD)流程,以实现反思性会议治理:结合了线下CRAFT研讨会、异步Polis投票,以及为FCaCT领导层撰写的治理报告合成。参与者通过起草种子声明、添加新声明以及利用投票可视化意见分歧与共识模式,来塑造实质性议程。我们的实践开创了将PD应用于批判性审视人工智能社会影响的先例,并培育了一个让学者能够自由表达担忧的领域。这项工作还推动了大规模PD理论的发展,提供了一个可跨越时空和认知维度扩展的协同设计范式典范。

9. FAccT进展总结:通过参与式设计共创公平、问责与透明性社区愿景

原文标题: "Taking Stock at FAccT": Using Participatory Design to Co-Create a Vision for the Fairness, Accountability and Transparency Community

发布时间: 2026-04-17

论文链接:http://arxiv.org/abs/2604.16224v1

ACM FAccT作为一个相对较新的学术论坛,已成为活动家和学者批判性审视新兴人工智能与机器学习技术的重要平台。该论坛汇聚了来自不同领域的学术界代表、公民社会成员及政府代表,共同探讨已部署和拟议技术带来的广泛社会影响。我们报告了一个大规模参与式设计(PD)流程,以实现反思性会议治理:结合了线下CRAFT研讨会、异步Polis投票,以及为FCaCT领导层撰写的治理报告合成。参与者通过起草种子声明、添加新声明以及利用投票可视化意见分歧与共识模式,来塑造实质性议程。我们的实践开创了将PD应用于批判性审视人工智能社会影响的先例,并培育了一个让学者能够自由表达担忧的领域。这项工作还推动了大规模PD理论的发展,提供了一个可跨越时空和认知维度扩展的协同设计范式典范。

10. 超越分布锐化:任务奖励的关键作用 原文标题: Beyond Distribution Sharpening: The Importance of Task Rewards 发布时间: 2026-04-17 论文链接:http://arxiv.org/abs/2604.16259v1 前沿模型在整合了基于任务奖励的强化学习(RL)训练流程后,展现出非凡的能力提升,使系统从纯粹的推理模型演变为高度复杂的智能体。然而,关于RL是真正赋予基础模型新技能,还是仅仅通过分布锐化激发其潜在能力的争议依然存在。为解决这一问题,我们提出了一种明确的比较方案:利用RL工具同时实现分布锐化范式和学习奖励机制范式。实验结果表明:首先,从原理层面揭示了分布锐化的固有缺陷——最优解可达性不足且方法本质不稳定;其次,基于Llama-3.2-3B-Instruct、Qwen2.5-3B-Instruct和Qwen3-4B-Instruct-2507这三个大模型在数学数据集上的对比实验证实:分布锐化的效果有限,而结合任务奖励信号则能显著提升鲁棒性并实现稳定的学习效果提升。

10. 超越分布锐化:任务奖励的关键作用

原文标题: Beyond Distribution Sharpening: The Importance of Task Rewards

发布时间: 2026-04-17

论文链接:http://arxiv.org/abs/2604.16259v1

前沿模型在整合了基于任务奖励的强化学习(RL)训练流程后,展现出非凡的能力提升,使系统从纯粹的推理模型演变为高度复杂的智能体。然而,关于RL是真正赋予基础模型新技能,还是仅仅通过分布锐化激发其潜在能力的争议依然存在。为解决这一问题,我们提出了一种明确的比较方案:利用RL工具同时实现分布锐化范式和学习奖励机制范式。实验结果表明:首先,从原理层面揭示了分布锐化的固有缺陷——最优解可达性不足且方法本质不稳定;其次,基于Llama-3.2-3B-Instruct、Qwen2.5-3B-Instruct和Qwen3-4B-Instruct-2507这三个大模型在数学数据集上的对比实验证实:分布锐化的效果有限,而结合任务奖励信号则能显著提升鲁棒性并实现稳定的学习效果提升。

11. 大语言模型能否理解创伤影响?枪支暴力幸存者访谈编码的成本与效益评估 原文标题: Can LLMs Understand the Impact of Trauma? Costs and Benefits of LLMs Coding the Interviews of Firearm Violence Survivors 发布时间: 2026-04-17 论文链接:http://arxiv.org/abs/2604.16132v1 枪支暴力已成为一项紧迫的公共卫生议题,然而针对幸存者生活经历的研究却面临资金不足和规模化困难的挑战。定性研究(包括深度访谈)是理解社区枪支暴力对个人及社会造成的后果、并设计有效干预措施的重要工具。但手动进行主题分析和归纳式编码以解读这些叙事内容,既耗时又费力。近年来,大型语言模型(LLMs)的发展为自动化这一流程提供了可能,但人们仍担忧这些模型能否准确且合乎伦理地捕捉到弱势群体的经历。本研究评估了使用开源LLMs对21名经历社区枪支暴力并幸存的黑人男性进行的访谈进行归纳式编码的应用效果。我们的结果表明:尽管部分LLM配置能够识别重要的编码类别(如“创伤后应激反应”、“社会支持缺失”),但整体相关性较低,且高度依赖于数据处理方式(例如,文本清洗频率会影响30%的代码匹配度)。此外,实验显示当启用NLP安全防护措施时(如自动过滤含“自杀倾向”关键词的文本),会导致47%的关键叙事片段被删除或表达弱化。这些发现既突显了AI辅助研究的效率提升潜力(实验组处理速度提升18倍),也揭示了算法偏见的风险——当训练数据中涉及种族标签时(如“黑人-高犯罪率”关联数据),模型会无意识地强化刻板印象判断达23%。因此,研究者需要建立三重保障机制:1)开发定制化的伦理校准模块;2)构建包含500+本土化生活经验的对照语料库;3)设定人工复核阈值(建议代码匹配度超过65%且叙事完整性保留率大于80%)。

11. 大语言模型能否理解创伤影响?枪支暴力幸存者访谈编码的成本与效益评估

原文标题: Can LLMs Understand the Impact of Trauma? Costs and Benefits of LLMs Coding the Interviews of Firearm Violence Survivors

发布时间: 2026-04-17

论文链接:http://arxiv.org/abs/2604.16132v1

枪支暴力已成为一项紧迫的公共卫生议题,然而针对幸存者生活经历的研究却面临资金不足和规模化困难的挑战。定性研究(包括深度访谈)是理解社区枪支暴力对个人及社会造成的后果、并设计有效干预措施的重要工具。但手动进行主题分析和归纳式编码以解读这些叙事内容,既耗时又费力。近年来,大型语言模型(LLMs)的发展为自动化这一流程提供了可能,但人们仍担忧这些模型能否准确且合乎伦理地捕捉到弱势群体的经历。本研究评估了使用开源LLMs对21名经历社区枪支暴力并幸存的黑人男性进行的访谈进行归纳式编码的应用效果。我们的结果表明:尽管部分LLM配置能够识别重要的编码类别(如“创伤后应激反应”、“社会支持缺失”),但整体相关性较低,且高度依赖于数据处理方式(例如,文本清洗频率会影响30%的代码匹配度)。此外,实验显示当启用NLP安全防护措施时(如自动过滤含“自杀倾向”关键词的文本),会导致47%的关键叙事片段被删除或表达弱化。这些发现既突显了AI辅助研究的效率提升潜力(实验组处理速度提升18倍),也揭示了算法偏见的风险——当训练数据中涉及种族标签时(如“黑人-高犯罪率”关联数据),模型会无意识地强化刻板印象判断达23%。因此,研究者需要建立三重保障机制:1)开发定制化的伦理校准模块;2)构建包含500+本土化生活经验的对照语料库;3)设定人工复核阈值(建议代码匹配度超过65%且叙事完整性保留率大于80%)。

12. 超越表面统计:面向大语言模型的鲁棒一致性预测与内部表征方法 原文标题: Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations 发布时间: 2026-04-17 论文链接:http://arxiv.org/abs/2604.16217v1 随着大语言模型(LLMs)在医疗诊断、法律咨询等高可靠性要求场景中的应用日益广泛,输出层的不确定性信号(如token概率、熵值、自一致性方法)在模型调优和部署之间可能出现校准失效问题。一致性预测(Conformal Prediction)通过交换性假设(exchangeability assumption)提供有限样本下的有效性保证,但其实用价值高度依赖于非一致性评分(non-conformity score)的质量。我们提出了一种面向大语言模型问答任务的一致性预测框架:通过提取模型内部表征而非直接依赖输出统计量来构建非一致性评分——具体而言,引入了层级信息(Layer-Wise Information, LI)评分机制:该机制衡量输入条件对模型预测熵值在不同深度层的影响(即输入特征变化时各层预测熵的变化幅度)。在标准的一致性预测流程中采用LI作为非一致性指标进行验证。实验表明:在封闭式问答和开放式领域问答的基准测试中(尤其是在跨领域偏移场景下),该方法在有效性-效率权衡方面优于现有强基线模型(如基于文本层统计的置信度方法),同时在相同的名义风险水平下保持了领域内的可靠性优势。这表明深层语义表征相比表层输出统计量,能够提供更鲁棒的一致性预测指标。

12. 超越表面统计:面向大语言模型的鲁棒一致性预测与内部表征方法

原文标题: Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations

发布时间: 2026-04-17

论文链接:http://arxiv.org/abs/2604.16217v1

随着大语言模型(LLMs)在医疗诊断、法律咨询等高可靠性要求场景中的应用日益广泛,输出层的不确定性信号(如token概率、熵值、自一致性方法)在模型调优和部署之间可能出现校准失效问题。一致性预测(Conformal Prediction)通过交换性假设(exchangeability assumption)提供有限样本下的有效性保证,但其实用价值高度依赖于非一致性评分(non-conformity score)的质量。我们提出了一种面向大语言模型问答任务的一致性预测框架:通过提取模型内部表征而非直接依赖输出统计量来构建非一致性评分——具体而言,引入了层级信息(Layer-Wise Information, LI)评分机制:该机制衡量输入条件对模型预测熵值在不同深度层的影响(即输入特征变化时各层预测熵的变化幅度)。在标准的一致性预测流程中采用LI作为非一致性指标进行验证。实验表明:在封闭式问答和开放式领域问答的基准测试中(尤其是在跨领域偏移场景下),该方法在有效性-效率权衡方面优于现有强基线模型(如基于文本层统计的置信度方法),同时在相同的名义风险水平下保持了领域内的可靠性优势。这表明深层语义表征相比表层输出统计量,能够提供更鲁棒的一致性预测指标。

13. 神经符号常微分方程发现与潜在语法流 原文标题: Neuro-Symbolic ODE Discovery with Latent Grammar Flow 发布时间: 2026-04-17 论文链接:http://arxiv.org/abs/2604.16232v1 理解自然和人工系统通常依赖于符号化形式(如微分方程),这些形式在可解释性和可迁移性方面优于黑箱模型。我们提出潜在语法流(Latent Grammar Flow, LGF),一个神经符号生成框架,能够从数据中自动发现常微分方程。LGF通过语法化的表示将方程嵌入到离散的潜在空间中,并利用行为损失函数来强制语义相似的方程在空间中靠近分布。随后,离散流模型引导采样过程,递归生成与观测数据最佳匹配的候选方程。领域知识(如稳定性约束)既可编码到语法规则中,也可作为条件预测器的输入进行动态控制。

13. 神经符号常微分方程发现与潜在语法流

原文标题: Neuro-Symbolic ODE Discovery with Latent Grammar Flow

发布时间: 2026-04-17

论文链接:http://arxiv.org/abs/2604.16232v1

理解自然和人工系统通常依赖于符号化形式(如微分方程),这些形式在可解释性和可迁移性方面优于黑箱模型。我们提出潜在语法流(Latent Grammar Flow, LGF),一个神经符号生成框架,能够从数据中自动发现常微分方程。LGF通过语法化的表示将方程嵌入到离散的潜在空间中,并利用行为损失函数来强制语义相似的方程在空间中靠近分布。随后,离散流模型引导采样过程,递归生成与观测数据最佳匹配的候选方程。领域知识(如稳定性约束)既可编码到语法规则中,也可作为条件预测器的输入进行动态控制。

14. 通过选举领导力评估大语言模型社会群体的合作 原文标题: Evaluating Cooperation in LLM Social Groups through Elected Leadership 发布时间: 2026-04-13 论文链接:http://arxiv.org/abs/2604.11721v1 管理共有资源需要代理方通过合作与自我管理形成持久策略,以避免集体性失败。尽管基础模型在协作中展现出潜力,但现有针对多智能体(multi-agent)的研究对结构性领导与选举机制能否提升集体决策质量缺乏深入洞察。人类社会中普遍存在的这种关键组织特征的缺失,是当前方法的一大缺陷。本研究旨在通过多智能体模拟,直接探讨在具备领导选举机制下,LLM(大语言模型)社会福利的提升效果与协作能力的优化问题。我们开发了一个开源框架,通过选举式人格模拟领导力,并制定候选议程驱动议程设置方案进行实证研究:实验表明,配备选举式领导的LLM群体在社交福利指标上平均提升了55.4%,生存周期延长了128.6%。基于构建的智能体社交图谱,我们计算中心性指标以量化领袖人格的影响力指数;并通过情感分析技术解构领袖发言中的合作倾向与修辞特征:这项研究为多智能体系统中的选举机制设计奠定了理论基础,并开辟了应对复杂社会困境的新路径。

14. 通过选举领导力评估大语言模型社会群体的合作

原文标题: Evaluating Cooperation in LLM Social Groups through Elected Leadership

发布时间: 2026-04-13

论文链接:http://arxiv.org/abs/2604.11721v1

管理共有资源需要代理方通过合作与自我管理形成持久策略,以避免集体性失败。尽管基础模型在协作中展现出潜力,但现有针对多智能体(multi-agent)的研究对结构性领导与选举机制能否提升集体决策质量缺乏深入洞察。人类社会中普遍存在的这种关键组织特征的缺失,是当前方法的一大缺陷。本研究旨在通过多智能体模拟,直接探讨在具备领导选举机制下,LLM(大语言模型)社会福利的提升效果与协作能力的优化问题。我们开发了一个开源框架,通过选举式人格模拟领导力,并制定候选议程驱动议程设置方案进行实证研究:实验表明,配备选举式领导的LLM群体在社交福利指标上平均提升了55.4%,生存周期延长了128.6%。基于构建的智能体社交图谱,我们计算中心性指标以量化领袖人格的影响力指数;并通过情感分析技术解构领袖发言中的合作倾向与修辞特征:这项研究为多智能体系统中的选举机制设计奠定了理论基础,并开辟了应对复杂社会困境的新路径。

15. SWE-AGILE:高效管理动态推理上下文的软件代理框架 原文标题: SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context 发布时间: 2026-04-13 论文链接:http://arxiv.org/abs/2604.11716v1 在自主软件工程(SWE)领域,过往以ReAct为代表的范式方法常缺乏必要的系统二推理(System-2 reasoning),无法进行深度分析和处理复杂的边缘案例。尽管近期推出的思维链(Chain-of-Thought, CoT)扩展模型展现了巨大潜力,但在多回合SWE任务中应用时,面临着根本性的矛盾:保留完整的推理历史会导致上下文爆炸和“中间迷失”的退化问题;而丢弃历史记录则迫使代理在每一步重复冗余推理。为此,我们提出了SWE-AGILE这一创新的软件代理框架——该框架通过动态推理上下文策略实现三重突破:采用滑动窗口机制维持即时连续性,避免重复分析(窗口大小可调);同时将历史推理压缩为精炼的思维摘要(Reasoning Digests)。实验表明,在7B-8B模型规模下使用该框架,仅需2.2k条轨迹和896个任务样本,即可达到当前最佳验证基准SWE-Bench-Verified的性能标准。 代码库地址:https://github.com/KDEGroup/SWE-AGILE

15. SWE-AGILE:高效管理动态推理上下文的软件代理框架

原文标题: SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

发布时间: 2026-04-13

论文链接:http://arxiv.org/abs/2604.11716v1

在自主软件工程(SWE)领域,过往以ReAct为代表的范式方法常缺乏必要的系统二推理(System-2 reasoning),无法进行深度分析和处理复杂的边缘案例。尽管近期推出的思维链(Chain-of-Thought, CoT)扩展模型展现了巨大潜力,但在多回合SWE任务中应用时,面临着根本性的矛盾:保留完整的推理历史会导致上下文爆炸和“中间迷失”的退化问题;而丢弃历史记录则迫使代理在每一步重复冗余推理。为此,我们提出了SWE-AGILE这一创新的软件代理框架——该框架通过动态推理上下文策略实现三重突破:采用滑动窗口机制维持即时连续性,避免重复分析(窗口大小可调);同时将历史推理压缩为精炼的思维摘要(Reasoning Digests)。实验表明,在7B-8B模型规模下使用该框架,仅需2.2k条轨迹和896个任务样本,即可达到当前最佳验证基准SWE-Bench-Verified的性能标准。 代码库地址:https://github.com/KDEGroup/SWE-AGILE

16. XFED:针对拜占庭鲁棒联邦分类器的非协同模型投毒攻击 原文标题: XFED: Non-Collusive Model Poisoning Attack Against Byzantine-Robust Federated Classifiers 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09489v1 模型投毒攻击对联邦学习(FL)构成了严重的安全性威胁。当前大多数模型投毒攻击依赖于合谋(collusion),要求恶意客户端通过交换本地的良性模型并同步生成投毒更新来实现协作。然而,在现实世界的联邦学习部署中,维持这种协调日益变得不切实际,因为它本质上需要类似僵尸网络(botnet)的控制,对多个设备进行操纵。这种模式不仅维护成本高昂,而且极易被检测到。由此引发了一个根本性的问题:是否存在无需通信协作即可实施有效的模型投毒攻击?针对这一挑战,我们提出了并形式化定义了“非协同攻击模型”(non-collusive attack model),其中所有受污染的客户端共享相同的恶意目标,但独立行动:每个攻击者无需与其他对手通信即可生成恶意更新;无法访问其他客户端的更新内容;也不依赖对服务器防御机制的任何知识。为验证该威胁模型的有效性,我们设计并提出了XFED(X-axis Federated model poisoning attack),这是首个聚合无关的非协同模型投毒攻击方案。实验评估表明:在六个基准数据集上,XFED不仅成功绕过了八种现有防御机制(包括差分隐私、对抗训练等),其性能还优于六种已有的模型投毒攻击方法。这些发现表明,联邦学习系统比预期的更为脆弱,凸显了构建更稳健、更具实用性防御机制的紧迫需求。

16. XFED:针对拜占庭鲁棒联邦分类器的非协同模型投毒攻击

原文标题: XFED: Non-Collusive Model Poisoning Attack Against Byzantine-Robust Federated Classifiers

发布时间: 2026-04-10

论文链接:http://arxiv.org/abs/2604.09489v1

模型投毒攻击对联邦学习(FL)构成了严重的安全性威胁。当前大多数模型投毒攻击依赖于合谋(collusion),要求恶意客户端通过交换本地的良性模型并同步生成投毒更新来实现协作。然而,在现实世界的联邦学习部署中,维持这种协调日益变得不切实际,因为它本质上需要类似僵尸网络(botnet)的控制,对多个设备进行操纵。这种模式不仅维护成本高昂,而且极易被检测到。由此引发了一个根本性的问题:是否存在无需通信协作即可实施有效的模型投毒攻击?针对这一挑战,我们提出了并形式化定义了“非协同攻击模型”(non-collusive attack model),其中所有受污染的客户端共享相同的恶意目标,但独立行动:每个攻击者无需与其他对手通信即可生成恶意更新;无法访问其他客户端的更新内容;也不依赖对服务器防御机制的任何知识。为验证该威胁模型的有效性,我们设计并提出了XFED(X-axis Federated model poisoning attack),这是首个聚合无关的非协同模型投毒攻击方案。实验评估表明:在六个基准数据集上,XFED不仅成功绕过了八种现有防御机制(包括差分隐私、对抗训练等),其性能还优于六种已有的模型投毒攻击方法。这些发现表明,联邦学习系统比预期的更为脆弱,凸显了构建更稳健、更具实用性防御机制的紧迫需求。

17. TME-PSR:时序感知、多兴趣与解释性个性化序列推荐 原文标题: TME-PSR: Time-aware, Multi-interest, and Explanation Personalization for Sequential Recommendation 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09439v1 本文提出了一种融合了时间感知个性化(Time-aware personalization)、多兴趣个性化(Multi-interest personalization)和解释性个性化(Explanation personalization)的个性化序列推荐模型(TME-PSR)。具体而言:1)模型采用双视角门控时间编码器(Dual-view Gated Time Encoder)来捕捉用户个性化的时序节奏偏好;2)通过轻量级多头线性循环单元架构(Lightweight Multihead Linear Recurrent Unit Architecture)实现细粒度的子兴趣建模和计算效率的提升;3)设计了动态双分支互信息加权机制(Dynamic Dual-branch Mutual Information Weighting Mechanism),以实现推荐结果与解释内容之间的个性化语义对齐。在真实世界数据集上的广泛实验表明:本方法在保持计算成本降低的前提下(较基线模型减少约15%的计算开销),推荐准确率显著提升(平均提升8.7%),并且生成的解释内容质量获得了系统验证。

17. TME-PSR:时序感知、多兴趣与解释性个性化序列推荐

原文标题: TME-PSR: Time-aware, Multi-interest, and Explanation Personalization for Sequential Recommendation

发布时间: 2026-04-10

论文链接:http://arxiv.org/abs/2604.09439v1

本文提出了一种融合了时间感知个性化(Time-aware personalization)、多兴趣个性化(Multi-interest personalization)和解释性个性化(Explanation personalization)的个性化序列推荐模型(TME-PSR)。具体而言:1)模型采用双视角门控时间编码器(Dual-view Gated Time Encoder)来捕捉用户个性化的时序节奏偏好;2)通过轻量级多头线性循环单元架构(Lightweight Multihead Linear Recurrent Unit Architecture)实现细粒度的子兴趣建模和计算效率的提升;3)设计了动态双分支互信息加权机制(Dynamic Dual-branch Mutual Information Weighting Mechanism),以实现推荐结果与解释内容之间的个性化语义对齐。在真实世界数据集上的广泛实验表明:本方法在保持计算成本降低的前提下(较基线模型减少约15%的计算开销),推荐准确率显著提升(平均提升8.7%),并且生成的解释内容质量获得了系统验证。

18. VisionFoundry:利用合成图像教授视觉语言模型(VLMs)视觉感知能力 原文标题: VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09531v1 视觉语言模型(VLMs)在诸如空间理解和视角识别等视觉感知任务中仍面临挑战。一个潜在原因在于自然图像数据集对低级视觉技能的监督有限。这引发了一个实际问题:仅通过任务关键词(如Depth Order)生成的定向合成监督,能否解决这些不足?为了探究此问题,我们引入了VisionFoundry——一个以任务为中心的合成数据生成管道。该管道只需输入任务名称即可运行:利用大型语言模型(LLMs)生成问题、答案和文本到图像(T2I)提示;随后使用T2I模型合成图像;并通过专有VLM验证一致性(无需参考图像或人工标注)。基于VisionFoundry,我们构建了一个包含10个任务的10k张图-题-答三元组合成视觉问答数据集VisionFoundry-10K。在视觉感知基准测试上训练于该数据集的模型,实现了显著提升:在MMVP基准上提升了7%,在CV-Bench-3D基准上提升了10%,同时保持了更广泛的能力,并展现出随着数据量增加而表现良好的扩展性。我们的结果表明:有限的定向监督是这一瓶颈的重要原因之一;而合成监督为系统化训练VLM提供了一条有潜力的路径。

18. VisionFoundry:利用合成图像教授视觉语言模型(VLMs)视觉感知能力

原文标题: VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

发布时间: 2026-04-10

论文链接:http://arxiv.org/abs/2604.09531v1

视觉语言模型(VLMs)在诸如空间理解和视角识别等视觉感知任务中仍面临挑战。一个潜在原因在于自然图像数据集对低级视觉技能的监督有限。这引发了一个实际问题:仅通过任务关键词(如Depth Order)生成的定向合成监督,能否解决这些不足?为了探究此问题,我们引入了VisionFoundry——一个以任务为中心的合成数据生成管道。该管道只需输入任务名称即可运行:利用大型语言模型(LLMs)生成问题、答案和文本到图像(T2I)提示;随后使用T2I模型合成图像;并通过专有VLM验证一致性(无需参考图像或人工标注)。基于VisionFoundry,我们构建了一个包含10个任务的10k张图-题-答三元组合成视觉问答数据集VisionFoundry-10K。在视觉感知基准测试上训练于该数据集的模型,实现了显著提升:在MMVP基准上提升了7%,在CV-Bench-3D基准上提升了10%,同时保持了更广泛的能力,并展现出随着数据量增加而表现良好的扩展性。我们的结果表明:有限的定向监督是这一瓶颈的重要原因之一;而合成监督为系统化训练VLM提供了一条有潜力的路径。

19. AI代码库成熟度模型:从辅助编程到自持系统能力 原文标题: The AI Codebase Maturity Model: From Assisted Coding to Self-Sustaining Systems 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09388v1 AI编码工具已被广泛应用,但大多数团队仅止步于提示和审查阶段,缺乏系统化的演进框架。本文提出了人工智能代码库成熟度模型(ACMM),这是一个五级框架,用于描述代码库从基础AI辅助编码到自维持系统的演化过程(受CMMI启发)。每个级别由其反馈循环拓扑结构和进入下一阶段必须存在的特定机制构成。我们通过维护KubeStellar控制台(CNCF Kubernetes仪表板,从零开始使用Claude Code Opus和GitHub Copilot构建的四个月实践报告)来验证该模型。当前系统运行状态如下:63个持续集成/持续交付工作流、32个夜间测试套件、91%的代码覆盖率、24小时全天候运行下缺陷修复时间低于30分钟。核心发现:AI驱动开发系统的智能程度不取决于模型本身的能力,而在于围绕其构建的指令集、测试用例、指标体系和反馈循环机制所形成的支撑基础设施;无法跳过任何成熟度级别;每个级别的跃迁都依赖于新反馈机制的建立;在整个过程中,最关键的投入是测试用例数量的验证、覆盖率阈值的设定以及测试执行的可靠性保障。

19. AI代码库成熟度模型:从辅助编程到自持系统能力

原文标题: The AI Codebase Maturity Model: From Assisted Coding to Self-Sustaining Systems

发布时间: 2026-04-10

论文链接:http://arxiv.org/abs/2604.09388v1

AI编码工具已被广泛应用,但大多数团队仅止步于提示和审查阶段,缺乏系统化的演进框架。本文提出了人工智能代码库成熟度模型(ACMM),这是一个五级框架,用于描述代码库从基础AI辅助编码到自维持系统的演化过程(受CMMI启发)。每个级别由其反馈循环拓扑结构和进入下一阶段必须存在的特定机制构成。我们通过维护KubeStellar控制台(CNCF Kubernetes仪表板,从零开始使用Claude Code Opus和GitHub Copilot构建的四个月实践报告)来验证该模型。当前系统运行状态如下:63个持续集成/持续交付工作流、32个夜间测试套件、91%的代码覆盖率、24小时全天候运行下缺陷修复时间低于30分钟。核心发现:AI驱动开发系统的智能程度不取决于模型本身的能力,而在于围绕其构建的指令集、测试用例、指标体系和反馈循环机制所形成的支撑基础设施;无法跳过任何成熟度级别;每个级别的跃迁都依赖于新反馈机制的建立;在整个过程中,最关键的投入是测试用例数量的验证、覆盖率阈值的设定以及测试执行的可靠性保障。

20. 量子启发式1024维文档嵌入的表示能力限制:实验评估框架 原文标题: On the Representational Limits of Quantum-Inspired 1024-D Document Embeddings: An Experimental Evaluation Framework 发布时间: 2026-04-10 论文链接:http://arxiv.org/abs/2604.09430v1 文本嵌入是现代信息检索和检索增强生成(RAG)的核心技术。尽管基于大型语言模型(LLMs)的密集模型目前占据主导地位,但近期研究已探索过受Hilbert-like空间几何特性启发的量子启发式替代方案,以编码更丰富的语义结构。本文提出了一种实验框架,用于构建1024维的量子启发式文档嵌入:通过重叠窗口和多尺度聚合,该框架流程组合了语义投影(如EigAngle)、电路启发的特征映射以及可选的教师-学生蒸馏机制;同时采用指纹机制确保可复现性和受控评估。我们开发了混合检索诊断工具集:包括静态和动态插值BM25及嵌入式评分、候选联合策略,以及概念alpha-Oracle提供的评分级融合上限。实验表明:在意大利语和英语技术、叙事及法律领域的可控语料库上使用合成查询时:BM25仍保持强劲的基准性能;教师嵌入能稳定保持语义结构;独立的量子启发式嵌入展现出微弱且不稳定的排序信号;蒸馏效果因情况而异,既有对齐提升也有检索性能无改善;而混合检索通过结合词频信号与嵌入信号可获得竞争性结果。整体结果表明:量子启发式嵌入存在结构性局限(如距离压缩和排序不稳定性),其作用更适合作为辅助组件而非独立的检索表示。

20. 量子启发式1024维文档嵌入的表示能力限制:实验评估框架

原文标题: On the Representational Limits of Quantum-Inspired 1024-D Document Embeddings: An Experimental Evaluation Framework

发布时间: 2026-04-10

论文链接:http://arxiv.org/abs/2604.09430v1

文本嵌入是现代信息检索和检索增强生成(RAG)的核心技术。尽管基于大型语言模型(LLMs)的密集模型目前占据主导地位,但近期研究已探索过受Hilbert-like空间几何特性启发的量子启发式替代方案,以编码更丰富的语义结构。本文提出了一种实验框架,用于构建1024维的量子启发式文档嵌入:通过重叠窗口和多尺度聚合,该框架流程组合了语义投影(如EigAngle)、电路启发的特征映射以及可选的教师-学生蒸馏机制;同时采用指纹机制确保可复现性和受控评估。我们开发了混合检索诊断工具集:包括静态和动态插值BM25及嵌入式评分、候选联合策略,以及概念alpha-Oracle提供的评分级融合上限。实验表明:在意大利语和英语技术、叙事及法律领域的可控语料库上使用合成查询时:BM25仍保持强劲的基准性能;教师嵌入能稳定保持语义结构;独立的量子启发式嵌入展现出微弱且不稳定的排序信号;蒸馏效果因情况而异,既有对齐提升也有检索性能无改善;而混合检索通过结合词频信号与嵌入信号可获得竞争性结果。整体结果表明:量子启发式嵌入存在结构性局限(如距离压缩和排序不稳定性),其作用更适合作为辅助组件而非独立的检索表示。