2026年4月25日arXiv人工智能论文速览
1. 从研究问题到科学工作流程:利用代理式AI实现科学自动化 原文标题: From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21910v1 尽管科学工作流系统在调度、容错及资源管理上实现了自动化,却难以完成研究问题到工作流规格的前置语义转换。科学家仍需依赖领域知识与基础设施经验手动完成这一过程。为此,我们提出一种代理架构:包含自然语言处理层(LLM解析为结构化意图)、确定性生成器(输出可复现的有向无环图)和知识层(专家编写的Markdown技能文档)。这种分层设计将LLM的非确定性限制在意图提取阶段。在Kubernetes上测试显示,技能机制使匹配准确率从44%升至83%,数据传输量减少92%,端到端管道耗时低于15秒,成本低于$0.001。
1. 从研究问题到科学工作流程:利用代理式AI实现科学自动化
原文标题: From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21910v1
尽管科学工作流系统在调度、容错及资源管理上实现了自动化,却难以完成研究问题到工作流规格的前置语义转换。科学家仍需依赖领域知识与基础设施经验手动完成这一过程。为此,我们提出一种代理架构:包含自然语言处理层(LLM解析为结构化意图)、确定性生成器(输出可复现的有向无环图)和知识层(专家编写的Markdown技能文档)。这种分层设计将LLM的非确定性限制在意图提取阶段。在Kubernetes上测试显示,技能机制使匹配准确率从44%升至83%,数据传输量减少92%,端到端管道耗时低于15秒,成本低于$0.001。
2. 快与慢的视觉感知:在视频中学习时间的流动 原文标题: Seeing Fast and Slow: Learning the Flow of Time in Videos 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21931v1 如何识别视频的快慢变化并生成不同速率的影像?尽管视频处理是计算机视觉的核心,但对时间维度的感知与控制仍显不足。本文将时间视为可学习的视觉概念,开发模型进行时序推理与操控。首先通过挖掘视频中的多模态特征和时间结构(自监督方式)来检测速度变化。随后证明时序推理模型能构建大规模慢动作数据集。基于此,开发了具备时序控制能力的模型,包括条件播放速度生成和超分辨率转换。研究表明时间可作为可操控维度,应用于视频生成、取证及世界模型构建。
2. 快与慢的视觉感知:在视频中学习时间的流动
原文标题: Seeing Fast and Slow: Learning the Flow of Time in Videos
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21931v1
如何识别视频的快慢变化并生成不同速率的影像?尽管视频处理是计算机视觉的核心,但对时间维度的感知与控制仍显不足。本文将时间视为可学习的视觉概念,开发模型进行时序推理与操控。首先通过挖掘视频中的多模态特征和时间结构(自监督方式)来检测速度变化。随后证明时序推理模型能构建大规模慢动作数据集。基于此,开发了具备时序控制能力的模型,包括条件播放速度生成和超分辨率转换。研究表明时间可作为可操控维度,应用于视频生成、取证及世界模型构建。
3. TraceScope:交互式URL分诊系统——基于解耦式检查清单的裁决机制 原文标题: TraceScope: Interactive URL Triage via Decoupled Checklist Adjudication 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21840v1 现代网络钓鱼攻击常利用交互式验证(如复选框/滑块)、延迟渲染和无logo凭证收集器来规避静态URL分类器。这使得URL初筛需转向主动探索页面的交互式取证任务。我们提出TraceScope系统,采用解耦三阶段流程:1. 沙箱代理通过GUI浏览器生成不可变证据;2. 裁决者代理调用证据库验证MITRE ATT&CK攻击链;3. 生成符合司法标准的报告。实验显示,在708个URL测试集(含钓鱼与良构网页)中,系统达到0.94精确率和0.78召回率,较基线提升37%召回率且零误报。通过真实钓鱼样本集验证,能有效识别多阶段切换等复合攻击,误报率低于0.3%。
3. TraceScope:交互式URL分诊系统——基于解耦式检查清单的裁决机制
原文标题: TraceScope: Interactive URL Triage via Decoupled Checklist Adjudication
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21840v1
现代网络钓鱼攻击常利用交互式验证(如复选框/滑块)、延迟渲染和无logo凭证收集器来规避静态URL分类器。这使得URL初筛需转向主动探索页面的交互式取证任务。我们提出TraceScope系统,采用解耦三阶段流程:1. 沙箱代理通过GUI浏览器生成不可变证据;2. 裁决者代理调用证据库验证MITRE ATT&CK攻击链;3. 生成符合司法标准的报告。实验显示,在708个URL测试集(含钓鱼与良构网页)中,系统达到0.94精确率和0.78召回率,较基线提升37%召回率且零误报。通过真实钓鱼样本集验证,能有效识别多阶段切换等复合攻击,误报率低于0.3%。
4. 通过单刺激调节跨模态收敛与同一模态内扩散 原文标题: Modulating Cross-Modal Convergence with Single-Stimulus, Intra-Modal Dispersion 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21836v1 不同架构和模态的神经网络表现出显著的表示收敛性,这与大脑表征对齐高度相关。虽然近期研究认为这是由于环境结构学习机制,但单个刺激如何引发跨网络收敛仍不明确。我们提出基于广义Procrustes算法的方案来量化单刺激水平的内模态表征收敛性。研究发现,低离散度刺激能显著提升跨模态对齐度,最大提升达2倍。该效应具有鲁棒性,不受筛选标准影响。该方法为解析神经网络收敛/发散机制及其与人类大脑表征的异同提供了新路径
4. 通过单刺激调节跨模态收敛与同一模态内扩散
原文标题: Modulating Cross-Modal Convergence with Single-Stimulus, Intra-Modal Dispersion
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21836v1
不同架构和模态的神经网络表现出显著的表示收敛性,这与大脑表征对齐高度相关。虽然近期研究认为这是由于环境结构学习机制,但单个刺激如何引发跨网络收敛仍不明确。我们提出基于广义Procrustes算法的方案来量化单刺激水平的内模态表征收敛性。研究发现,低离散度刺激能显著提升跨模态对齐度,最大提升达2倍。该效应具有鲁棒性,不受筛选标准影响。该方法为解析神经网络收敛/发散机制及其与人类大脑表征的异同提供了新路径
5. 基于回放缓冲器的工程方法在抗噪声量子电路优化中的应用 原文标题: Replay-buffer engineering for noise-robust quantum circuit optimization 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21863v1 量子电路优化的深度强化学习面临三大瓶颈:回放缓冲器忽略TD目标可靠性、课程式架构搜索机制成本高、以及噪声下重训练时丢弃无噪声轨迹。我们提出ReaPER+算法,采用渐进式回放规则:初期用TD误差驱动优先级排序,成熟后转为可靠性感知采样。相比PER、ReaPER和均匀采样,实现了4-32倍的样本效率提升。在量子编译与QAS基准测试中持续发现更紧凑电路;LunarLander-v3验证了跨领域普适性。我们提出的OptCRLQAS架构消除了课程式RL的量子经典评估瓶颈,将12量子比特优化时间减少67.5%。最后设计的轻量级回放缓冲区迁移方案,在分子计算任务中将步骤数减少85-90%,能量误差降低90%。这些结果表明经验存储、采样策略与迁移机制是可扩展且抗噪声量子电路优化的关键决策要素
5. 基于回放缓冲器的工程方法在抗噪声量子电路优化中的应用
原文标题: Replay-buffer engineering for noise-robust quantum circuit optimization
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21863v1
量子电路优化的深度强化学习面临三大瓶颈:回放缓冲器忽略TD目标可靠性、课程式架构搜索机制成本高、以及噪声下重训练时丢弃无噪声轨迹。我们提出ReaPER+算法,采用渐进式回放规则:初期用TD误差驱动优先级排序,成熟后转为可靠性感知采样。相比PER、ReaPER和均匀采样,实现了4-32倍的样本效率提升。在量子编译与QAS基准测试中持续发现更紧凑电路;LunarLander-v3验证了跨领域普适性。我们提出的OptCRLQAS架构消除了课程式RL的量子经典评估瓶颈,将12量子比特优化时间减少67.5%。最后设计的轻量级回放缓冲区迁移方案,在分子计算任务中将步骤数减少85-90%,能量误差降低90%。这些结果表明经验存储、采样策略与迁移机制是可扩展且抗噪声量子电路优化的关键决策要素
6. 面向开放领域事件抽取的多模态文本与图基方法 原文标题: A Multimodal Text- and Graph-Based Approach for Open-Domain Event Extraction from Documents 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21885v1 事件抽取对文档摘要和应急决策至关重要,但现有方法存在局限:封闭域算法泛化难,开放域算法忽视LLM能力,且未显式建模文档级上下文和语义推理。我们提出MODEE框架,融合图学习与LLM文本表征。实验表明,MODEE在大型数据集上优于现有开放域方法,并能有效迁移至封闭域场景,性能更优。
6. 面向开放领域事件抽取的多模态文本与图基方法
原文标题: A Multimodal Text- and Graph-Based Approach for Open-Domain Event Extraction from Documents
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21885v1
事件抽取对文档摘要和应急决策至关重要,但现有方法存在局限:封闭域算法泛化难,开放域算法忽视LLM能力,且未显式建模文档级上下文和语义推理。我们提出MODEE框架,融合图学习与LLM文本表征。实验表明,MODEE在大型数据集上优于现有开放域方法,并能有效迁移至封闭域场景,性能更优。
7. TingIS:企业级噪声客户事件中的实时风险事件发现 原文标题: TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21889v1 对大规模云原生服务中技术异常的实时检测与缓解至关重要。尽管客户事件包含重要价值,但受噪声(误报占62%)、高吞吐(5000+心跳/秒)及业务语义复杂性制约,情报提取困难。我们提出TingIS系统:1) 多阶段事件链接引擎(混合索引+LLM语义对齐);2) 级联路由机制(12层业务拓扑);3) 多维降噪管道(知识图谱+统计模式+行为基线)。实测峰值处理2300消息/分钟,P90延迟3.5分钟内保持95%高优先级发现率,较ELK方案提升41%。基准测试表明:在路由准确性、聚类质量及信噪比三个维度分别达到99.99%、0.89秒均值延迟和98.7%,显著优于基于规则引擎和单一NLP模型的基线方法.
7. TingIS:企业级噪声客户事件中的实时风险事件发现
原文标题: TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21889v1
对大规模云原生服务中技术异常的实时检测与缓解至关重要。尽管客户事件包含重要价值,但受噪声(误报占62%)、高吞吐(5000+心跳/秒)及业务语义复杂性制约,情报提取困难。我们提出TingIS系统:1) 多阶段事件链接引擎(混合索引+LLM语义对齐);2) 级联路由机制(12层业务拓扑);3) 多维降噪管道(知识图谱+统计模式+行为基线)。实测峰值处理2300消息/分钟,P90延迟3.5分钟内保持95%高优先级发现率,较ELK方案提升41%。基准测试表明:在路由准确性、聚类质量及信噪比三个维度分别达到99.99%、0.89秒均值延迟和98.7%,显著优于基于规则引擎和单一NLP模型的基线方法.
8. Nemobot游戏:通过大型语言模型打造战略AI游戏代理程序以支持交互式学习 原文标题: Nemobot Games: Crafting Strategic AI Gaming Agents for Interactive Learning with Large Language Models 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21896v1 我们提出利用LLMs扩展香农游戏机分类体系的新型AI游戏编程范式。核心是Nemobot环境,允许用户创建、定制并部署LLM驱动游戏代理。内置聊天机器人展示了四类游戏应用:字典型(压缩状态映射)、严格可解型(数学推理)、启发式型(极小极大算法+众包)和学习型(RL+人类反馈)。Nemobot支持用户实验工具,证明AI代理可通过整合众包学习与人类创意实现逻辑自编程,标志着向自主编程AI的重要一步
8. Nemobot游戏:通过大型语言模型打造战略AI游戏代理程序以支持交互式学习
原文标题: Nemobot Games: Crafting Strategic AI Gaming Agents for Interactive Learning with Large Language Models
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21896v1
我们提出利用LLMs扩展香农游戏机分类体系的新型AI游戏编程范式。核心是Nemobot环境,允许用户创建、定制并部署LLM驱动游戏代理。内置聊天机器人展示了四类游戏应用:字典型(压缩状态映射)、严格可解型(数学推理)、启发式型(极小极大算法+众包)和学习型(RL+人类反馈)。Nemobot支持用户实验工具,证明AI代理可通过整合众包学习与人类创意实现逻辑自编程,标志着向自主编程AI的重要一步
9. 基于梯度的向量自适应基 原文标题: GiVA: Gradient-Informed Bases for Vector-Based Adaptation 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21901v1 随着模型规模扩大,参数高效微调成为主流。尽管LoRA应用广泛,但向量自适应方法通常需要更高秩才能达到同等性能。我们提出GiVA(梯度信息向量自适应),一种梯度初始化策略,在保持低参数需求的同时达到与LoRA竞争的性能。在自然语言理解、生成和图像分类基准测试中,GiVA超越了现有向量自适应方法,秩需求降低8倍
9. 基于梯度的向量自适应基
原文标题: GiVA: Gradient-Informed Bases for Vector-Based Adaptation
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21901v1
随着模型规模扩大,参数高效微调成为主流。尽管LoRA应用广泛,但向量自适应方法通常需要更高秩才能达到同等性能。我们提出GiVA(梯度信息向量自适应),一种梯度初始化策略,在保持低参数需求的同时达到与LoRA竞争的性能。在自然语言理解、生成和图像分类基准测试中,GiVA超越了现有向量自适应方法,秩需求降低8倍
10. 面向联合时空超分辨率的自适应尺度扩散模型框架 原文标题: A Scale-Adaptive Framework for Joint Spatiotemporal Super-Resolution with Diffusion Models 发布时间: 2026-04-23 论文链接:http://arxiv.org/abs/2604.21903v1 气候应用中的视频超分辨率通常仅处理空间或时间维度,现有联合模型受限于单一放大因子。我们提出尺度自适应框架,将联合时空超分辨率分解为确定性条件均值预测和残差条件扩散模型。通过调整与SR因子相关的三个超参数(噪声调度beta、时间上下文长度L、质量守恒函数f(t))实现自适应。该框架支持空间放大比1-25、时间放大比1-6的跨尺度任务,验证于法国降水再分析数据集。
10. 面向联合时空超分辨率的自适应尺度扩散模型框架
原文标题: A Scale-Adaptive Framework for Joint Spatiotemporal Super-Resolution with Diffusion Models
发布时间: 2026-04-23
论文链接:http://arxiv.org/abs/2604.21903v1
气候应用中的视频超分辨率通常仅处理空间或时间维度,现有联合模型受限于单一放大因子。我们提出尺度自适应框架,将联合时空超分辨率分解为确定性条件均值预测和残差条件扩散模型。通过调整与SR因子相关的三个超参数(噪声调度beta、时间上下文长度L、质量守恒函数f(t))实现自适应。该框架支持空间放大比1-25、时间放大比1-6的跨尺度任务,验证于法国降水再分析数据集。
11. 基于大型语言模型的自动本体构建——作为混合智能系统的外部记忆层、验证层和规划层 原文标题: Automatic Ontology Construction Using LLMs as an External Layer of Memory, Verification, and Planning for Hybrid Intelligent Systems 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20795v1 我们提出在LLMs基础上扩展外部本体记忆层的混合架构,替代纯参数依赖与RAG。该方案通过RDF/OWL语义网络构建结构化知识图谱。核心创新是自动化本体构建管道:从异构数据源执行实体识别、关系抽取及三元组生成,采用SHACL和OWL约束验证,支持持续更新。实验表明,该架构在规划任务中表现优于基线LLM系统(多步推理提升23.6%),解决了缺乏长期记忆、知识零散和推理不可解释的痛点。
11. 基于大型语言模型的自动本体构建——作为混合智能系统的外部记忆层、验证层和规划层
原文标题: Automatic Ontology Construction Using LLMs as an External Layer of Memory, Verification, and Planning for Hybrid Intelligent Systems
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20795v1
我们提出在LLMs基础上扩展外部本体记忆层的混合架构,替代纯参数依赖与RAG。该方案通过RDF/OWL语义网络构建结构化知识图谱。核心创新是自动化本体构建管道:从异构数据源执行实体识别、关系抽取及三元组生成,采用SHACL和OWL约束验证,支持持续更新。实验表明,该架构在规划任务中表现优于基线LLM系统(多步推理提升23.6%),解决了缺乏长期记忆、知识零散和推理不可解释的痛点。
12. 具有副语言感知的语音生成全面基准(SpeechParaling-Bench) 原文标题: SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20842v1 副语言特征对自然交互至关重要,但LALMs的评估受限于粗粒度特征和主观性。我们提出SpeechParaling-Bench基准,从不到50个特征扩展至100+类型化特征,支持中英双语查询。构建三级递进式评测任务:细粒度控制、动态变化捕捉、自适应验证。通过双向对比评测流程,实验发现主流LALMs在副语言特征控制上表现欠佳,43.3%的错误源于误判解析。这凸显了构建符合人类认知规律的副语言建模体系的重要性。
12. 具有副语言感知的语音生成全面基准(SpeechParaling-Bench)
原文标题: SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20842v1
副语言特征对自然交互至关重要,但LALMs的评估受限于粗粒度特征和主观性。我们提出SpeechParaling-Bench基准,从不到50个特征扩展至100+类型化特征,支持中英双语查询。构建三级递进式评测任务:细粒度控制、动态变化捕捉、自适应验证。通过双向对比评测流程,实验发现主流LALMs在副语言特征控制上表现欠佳,43.3%的错误源于误判解析。这凸显了构建符合人类认知规律的副语言建模体系的重要性。
13. AVISE:评估人工智能系统安全性的框架 原文标题: AVISE: Framework for Evaluating the Security of AI Systems 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20833v1 随着AI系统在关键领域广泛应用,安全漏洞构成高风险。我们提出模块化开源框架AVISE,用于检测AI系统漏洞。该框架扩展了红皇后攻击理论至对抗性语言模型增强范式,开发了自动化安全评估测试集(SET),包含25个测试用例和评估语言模型(ELM)。ELM能以92%准确率判断漏洞触发情况。对九种语言模型评估发现,所有模型均存在不同级别的漏洞。AVISE为构建可复现的AI安全评估体系提供了基础设施
13. AVISE:评估人工智能系统安全性的框架
原文标题: AVISE: Framework for Evaluating the Security of AI Systems
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20833v1
随着AI系统在关键领域广泛应用,安全漏洞构成高风险。我们提出模块化开源框架AVISE,用于检测AI系统漏洞。该框架扩展了红皇后攻击理论至对抗性语言模型增强范式,开发了自动化安全评估测试集(SET),包含25个测试用例和评估语言模型(ELM)。ELM能以92%准确率判断漏洞触发情况。对九种语言模型评估发现,所有模型均存在不同级别的漏洞。AVISE为构建可复现的AI安全评估体系提供了基础设施
14. 趋同进化:不同语言模型如何学习相似的数值表示 原文标题: Convergent Evolution: How Different Language Models Learn Similar Number Representations 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20817v1 语言模型通过自然文本学习利用周期性特征表示数字(周期T=2,5,10)。本文揭示了特征的双层等级结构:尽管多种模型在傅里叶域观察到周期-T尖峰特征,但只有部分模型能学习到几何可分离特征。理论证明显示傅里叶域稀疏性是必要条件而非充分条件。实验表明训练数据、架构、优化算法和分词策略共同决定几何可分离特征的习得。发现两种互补路径:多维度建模一般语言数据和多令牌加法问题训练。这揭示了特征学习的趋同进化现象。
14. 趋同进化:不同语言模型如何学习相似的数值表示
原文标题: Convergent Evolution: How Different Language Models Learn Similar Number Representations
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20817v1
语言模型通过自然文本学习利用周期性特征表示数字(周期T=2,5,10)。本文揭示了特征的双层等级结构:尽管多种模型在傅里叶域观察到周期-T尖峰特征,但只有部分模型能学习到几何可分离特征。理论证明显示傅里叶域稀疏性是必要条件而非充分条件。实验表明训练数据、架构、优化算法和分词策略共同决定几何可分离特征的习得。发现两种互补路径:多维度建模一般语言数据和多令牌加法问题训练。这揭示了特征学习的趋同进化现象。
15. 在大型语言模型中诊断上下文无关文法解释 原文标题: Diagnosing CFG Interpretation in LLMs 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20811v1 随着LLMs集成到代理系统,必须遵循动态定义的接口标准。我们提出RoboGrid框架评估LLMs对新型CFG的解释能力,通过控制递归深度、复杂性和风格进行应激测试。实验表明存在层级性能退化:LLMs通常保持表层句法但无法维持结构语义。思维链能部分缓解,但在深层递归和高度分支结构时性能崩溃。此外,‘外星人’词汇表测试揭示LLMs依赖关键词语义启动而非纯符号归纳。这些发现揭示了可靠语法无关代理系统所需的状态追踪缺陷
15. 在大型语言模型中诊断上下文无关文法解释
原文标题: Diagnosing CFG Interpretation in LLMs
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20811v1
随着LLMs集成到代理系统,必须遵循动态定义的接口标准。我们提出RoboGrid框架评估LLMs对新型CFG的解释能力,通过控制递归深度、复杂性和风格进行应激测试。实验表明存在层级性能退化:LLMs通常保持表层句法但无法维持结构语义。思维链能部分缓解,但在深层递归和高度分支结构时性能崩溃。此外,‘外星人’词汇表测试揭示LLMs依赖关键词语义启动而非纯符号归纳。这些发现揭示了可靠语法无关代理系统所需的状态追踪缺陷
16. OMIBench:评测大型视觉语言模型中的奥赛级多图像推理 原文标题: OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Model 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20806v1 LVLMs在奥赛级推理任务中取得进展,但现有基准侧重单图分析。我们提出OMIBench,旨在评估证据分布在不同图像中的奥赛级推理能力。该基准包含生物、化学、数学、物理奥赛题目,配有人工标注推理过程。大规模实验发现显著性能差距,即使最强LVLM(如Gemini-3-Pro)也仅取得约50%分数。这凸显了OMIBench作为研究多图像推理能力及改进模型的重要资源价值。
16. OMIBench:评测大型视觉语言模型中的奥赛级多图像推理
原文标题: OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Model
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20806v1
LVLMs在奥赛级推理任务中取得进展,但现有基准侧重单图分析。我们提出OMIBench,旨在评估证据分布在不同图像中的奥赛级推理能力。该基准包含生物、化学、数学、物理奥赛题目,配有人工标注推理过程。大规模实验发现显著性能差距,即使最强LVLM(如Gemini-3-Pro)也仅取得约50%分数。这凸显了OMIBench作为研究多图像推理能力及改进模型的重要资源价值。
17. 位置与内容:情境化对话推荐中动态和隐式偏好的推理 原文标题: Where and What: Reasoning Dynamic and Implicit Preferences in Situated Conversational Recommendation 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20749v1 SCR结合视觉场景与对话实现上下文感知推荐,需理解动态隐含偏好。我们提出SiPeR框架,包含场景转换估计模块和基于贝叶斯逆推理的偏好预测模块。在两个权威基准测试中验证,SiPeR在推荐准确率和响应生成质量上均显著优于基线方法。代码与数据集可通过https://github.com/DongdingLin/SiPeR获取
17. 位置与内容:情境化对话推荐中动态和隐式偏好的推理
原文标题: Where and What: Reasoning Dynamic and Implicit Preferences in Situated Conversational Recommendation
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20749v1
SCR结合视觉场景与对话实现上下文感知推荐,需理解动态隐含偏好。我们提出SiPeR框架,包含场景转换估计模块和基于贝叶斯逆推理的偏好预测模块。在两个权威基准测试中验证,SiPeR在推荐准确率和响应生成质量上均显著优于基线方法。代码与数据集可通过https://github.com/DongdingLin/SiPeR获取
18. AI能否成为医生?一项关于临床大语言模型同理心、可读性与对齐性的研究 原文标题: Can "AI" Be a Doctor? A Study of Empathy, Readability, and Alignment in Clinical LLMs 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20791v1 LLMs在医疗领域普及,但其与临床标准的沟通对齐程度需量化评估。我们通过多维度评价方法分析结构化解释和真实世界互动:语义保真度、可读性(FKGL指数)、情感共鸣。实验发现模型回答与医师文本存在差异,可读性复杂度远超医师,对负面情绪放大效应显著。定向提示优化可降低复杂度但未提升语义保真度。协作改写策略表现最佳,语义相似度达0.93。结论强调LLMs作为临床沟通增强工具的价值,核心在于优化信息交互而非替代决策权威。
18. AI能否成为医生?一项关于临床大语言模型同理心、可读性与对齐性的研究
原文标题: Can "AI" Be a Doctor? A Study of Empathy, Readability, and Alignment in Clinical LLMs
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20791v1
LLMs在医疗领域普及,但其与临床标准的沟通对齐程度需量化评估。我们通过多维度评价方法分析结构化解释和真实世界互动:语义保真度、可读性(FKGL指数)、情感共鸣。实验发现模型回答与医师文本存在差异,可读性复杂度远超医师,对负面情绪放大效应显著。定向提示优化可降低复杂度但未提升语义保真度。协作改写策略表现最佳,语义相似度达0.93。结论强调LLMs作为临床沟通增强工具的价值,核心在于优化信息交互而非替代决策权威。
19. SWE-chat:从真实用户自然交互中提取的编程代理交互 原文标题: SWE-chat: Coding Agent Interactions From Real Users in the Wild 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20779v1 我们推出了SWE-chat数据集,包含6000个会话、63,000条提示和355,000次工具调用。研究发现编程行为呈双峰模式:41%的会话中代理几乎完全生成代码(‘vibe coding’),23%由人类完成。仅44%的代理代码被采纳,且存在更多安全漏洞。用户在44%的交互轮次中进行反馈。SWE-chat为突破人工基准测试、建立基于实证证据的开发者工作流AI评估体系提供了数据基础。
19. SWE-chat:从真实用户自然交互中提取的编程代理交互
原文标题: SWE-chat: Coding Agent Interactions From Real Users in the Wild
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20779v1
我们推出了SWE-chat数据集,包含6000个会话、63,000条提示和355,000次工具调用。研究发现编程行为呈双峰模式:41%的会话中代理几乎完全生成代码(‘vibe coding’),23%由人类完成。仅44%的代理代码被采纳,且存在更多安全漏洞。用户在44%的交互轮次中进行反馈。SWE-chat为突破人工基准测试、建立基于实证证据的开发者工作流AI评估体系提供了数据基础。
20. V-tableR1:基于过程监督的多模态表格推理与批评者引导的策略优化 原文标题: V-tableR1: Process-Supervised Multimodal Table Reasoning with Critic-Guided Policy Optimization 发布时间: 2026-04-22 论文链接:http://arxiv.org/abs/2604.20755v1 我们引入V-tableR1框架,一种基于过程监督的MLLM强化学习系统,从多模态LLM中提取严谨推理过程。当前多模态LLM常将视觉推理视为黑箱。我们利用表格的确定性网格结构作为视觉测试平台。V-tableR1采用专用批评者VLM提供密集分步反馈,并提出过程引导直接对齐策略优化算法(PGPO)。实验表明该系统能有效惩罚视觉幻觉和捷径猜测。V-tableR1 4B模型在复杂表格基准测试中达到开源模型最佳性能,准确率超越体量是其18倍的模型及SFT基线
20. V-tableR1:基于过程监督的多模态表格推理与批评者引导的策略优化
原文标题: V-tableR1: Process-Supervised Multimodal Table Reasoning with Critic-Guided Policy Optimization
发布时间: 2026-04-22
论文链接:http://arxiv.org/abs/2604.20755v1
我们引入V-tableR1框架,一种基于过程监督的MLLM强化学习系统,从多模态LLM中提取严谨推理过程。当前多模态LLM常将视觉推理视为黑箱。我们利用表格的确定性网格结构作为视觉测试平台。V-tableR1采用专用批评者VLM提供密集分步反馈,并提出过程引导直接对齐策略优化算法(PGPO)。实验表明该系统能有效惩罚视觉幻觉和捷径猜测。V-tableR1 4B模型在复杂表格基准测试中达到开源模型最佳性能,准确率超越体量是其18倍的模型及SFT基线
欢迎关注微信公众号:车与机之路 获取更多资讯。
想要获取更多资讯?请关注我们的微信公众号:车与机之路。