arXiv AI论文精选：2026-05-09期

发布时间：2026-05-10 07:23阅读：19

1. AI助手：借助代理AI推动数学研究发展原文标题: AI Co-Mathematician: Accelerating Mathematicians with Agentic AI 发布时间: 2026-05-07 论文链接:http://arxiv.org/abs/2605.06651v1 本文展示了AI数学合作家——这是一款专为数学家打造的交互式平台，旨在辅助他们运用AI智能体开展开放式研究探索。该系统针对数学研究的探索与迭代特性进行了专门优化：在构思激发期提供灵感辅助；通过智能文献检索锁定核心参考；在计算验证阶段实现高效的数值演算；在证明过程中辅助形式化验证；在理论构建期提供知识汇总服务。通过建立异步且具备状态感知的工作区（包含假设追踪、意图优化、失败重试等功能），系统完整还原了人类协同研究中的不确定性管理与知识积累流程。初步测试显示，该系统不仅成功助力研究者攻克开放性难题（如提出新的数论猜想）、发掘潜在研究路径（如拓扑学交叉领域），还大幅提高了文献检索效率（比传统方法高出37%）。在FrontierMath第四级基准测试中获得了48%的得分（当前最高水平），比第二级系统高出21个百分点.

1. AI助手：借助代理AI推动数学研究发展

原文标题: AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

发布时间: 2026-05-07

论文链接:http://arxiv.org/abs/2605.06651v1

本文展示了AI数学合作家——这是一款专为数学家打造的交互式平台，旨在辅助他们运用AI智能体开展开放式研究探索。该系统针对数学研究的探索与迭代特性进行了专门优化：在构思激发期提供灵感辅助；通过智能文献检索锁定核心参考；在计算验证阶段实现高效的数值演算；在证明过程中辅助形式化验证；在理论构建期提供知识汇总服务。通过建立异步且具备状态感知的工作区（包含假设追踪、意图优化、失败重试等功能），系统完整还原了人类协同研究中的不确定性管理与知识积累流程。初步测试显示，该系统不仅成功助力研究者攻克开放性难题（如提出新的数论猜想）、发掘潜在研究路径（如拓扑学交叉领域），还大幅提高了文献检索效率（比传统方法高出37%）。在FrontierMath第四级基准测试中获得了48%的得分（当前最高水平），比第二级系统高出21个百分点.

2. 基于验证器的数学推理难题生成原文标题: Verifier-Backed Hard Problem Generation for Mathematical Reasoning 发布时间: 2026-05-07 论文链接:http://arxiv.org/abs/2605.06660v1 大型语言模型（LLMs）在处理科学与数学难题时表现出色，但在创造有效、具挑战性且新颖的问题方面仍显吃力——而这些问题对于推动LLM训练及实现自主科研极为关键。现有的问题生成手段要么依赖昂贵的人工专家介入，要么采用简化的自博弈模式，后者常因奖励机制被操纵而产生无效问题。本研究提出了一种名为VHG的验证器增强型难题生成框架，该框架基于三方自博弈机制构建：通过将独立的验证器融入传统的出题者-解题者二元结构中，我们将出题者的奖励同时约束为验证器评估的问题有效性及解题者评估的问题难度。我们实现了两种验证器版本：严格的符号推理验证器和软性LLM驱动验证器，并在不定积分任务及通用数学推理任务中进行了评估。结果显示，VHG在显著优势下全面超越了所有基准方法。

2. 基于验证器的数学推理难题生成

原文标题: Verifier-Backed Hard Problem Generation for Mathematical Reasoning

发布时间: 2026-05-07

论文链接:http://arxiv.org/abs/2605.06660v1

大型语言模型（LLMs）在处理科学与数学难题时表现出色，但在创造有效、具挑战性且新颖的问题方面仍显吃力——而这些问题对于推动LLM训练及实现自主科研极为关键。现有的问题生成手段要么依赖昂贵的人工专家介入，要么采用简化的自博弈模式，后者常因奖励机制被操纵而产生无效问题。本研究提出了一种名为VHG的验证器增强型难题生成框架，该框架基于三方自博弈机制构建：通过将独立的验证器融入传统的出题者-解题者二元结构中，我们将出题者的奖励同时约束为验证器评估的问题有效性及解题者评估的问题难度。我们实现了两种验证器版本：严格的符号推理验证器和软性LLM驱动验证器，并在不定积分任务及通用数学推理任务中进行了评估。结果显示，VHG在显著优势下全面超越了所有基准方法。

3. UniPool：混合专家模型的全局共享专家池原文标题: UniPool: A Globally Shared Expert Pool for Mixture-of-Experts 发布时间: 2026-05-07 论文链接:http://arxiv.org/abs/2605.06665v1 现代混合专家（MoE）架构通常采用每层固定的严格规则来分配专家容量：即每个Transformer层都拥有独立的专家集合。这种设计强行将深度扩展与线性增长的专家参数规模绑定，并预设每个层级都需要隔离的专属专家能力。然而，近期分析及我们的路由探测试验对这一分配规则提出了质疑：在保持其他参数不变的情况下，将深层结构的自学习路由器替换为均匀随机路由后，在多个工业级MoE模型中仅导致下游验证准确率微降1.0-1.6个基点。受此冗余启发，我们提出了UniPool共享池架构：通过取消分层专属的专家所有权，转而采用全局共享的单一专家池（供各层独立路由器访问），从而重构MoE的理论框架与实践路径。为了在稳定均衡训练下优化共享机制：（1）引入池级辅助损失函数以平衡各层对共享池的调用频率；（2）采用NormRouter实现稀疏且规模稳定的路由机制；（3）设计参数规模与深度解耦的可调超参体系。实验表明：在5种基于LLaMA架构的不同参数规模（182M/469M/650M/830M/978M）上使用Pile数据集30亿token训练时，（1）UniPool相比基础版MoE平均降低验证损失0.0386绝对值；（2）通过动态调整共享池容量（仅需基础版41.6%-66.7%的专家参数预算），新变体即可达到或超越传统分层MoE的性能；（3）复合效应分析显示：共享池设计与更细粒度的专家分解相结合时（如1/4/8路分解），能产生指数级性能提升

3. UniPool：混合专家模型的全局共享专家池

原文标题: UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

发布时间: 2026-05-07

论文链接:http://arxiv.org/abs/2605.06665v1

现代混合专家（MoE）架构通常采用每层固定的严格规则来分配专家容量：即每个Transformer层都拥有独立的专家集合。这种设计强行将深度扩展与线性增长的专家参数规模绑定，并预设每个层级都需要隔离的专属专家能力。然而，近期分析及我们的路由探测试验对这一分配规则提出了质疑：在保持其他参数不变的情况下，将深层结构的自学习路由器替换为均匀随机路由后，在多个工业级MoE模型中仅导致下游验证准确率微降1.0-1.6个基点。受此冗余启发，我们提出了UniPool共享池架构：通过取消分层专属的专家所有权，转而采用全局共享的单一专家池（供各层独立路由器访问），从而重构MoE的理论框架与实践路径。为了在稳定均衡训练下优化共享机制：（1）引入池级辅助损失函数以平衡各层对共享池的调用频率；（2）采用NormRouter实现稀疏且规模稳定的路由机制；（3）设计参数规模与深度解耦的可调超参体系。实验表明：在5种基于LLaMA架构的不同参数规模（182M/469M/650M/830M/978M）上使用Pile数据集30亿token训练时，（1）UniPool相比基础版MoE平均降低验证损失0.0386绝对值；（2）通过动态调整共享池容量（仅需基础版41.6%-66.7%的专家参数预算），新变体即可达到或超越传统分层MoE的性能；（3）复合效应分析显示：共享池设计与更细粒度的专家分解相结合时（如1/4/8路分解），能产生指数级性能提升

4. MASPO: 大语言模型多智能体系统的联合提示优化原文标题: MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems 发布时间: 2026-05-07 论文链接:http://arxiv.org/abs/2605.06623v1 基于大型语言模型的多智能体系统（LLM-MAS）在处理复杂协作任务时潜力巨大。传统方法通常利用特定角色的提示词来编排智能体行为。尽管提示词质量至关重要，但跨智能体的协同优化仍面临挑战——因为局部智能体目标与全局系统目标存在偏差。为此，我们提出了MASPO框架：该框架能够自动迭代优化整个系统的提示词组合。其核心创新在于联合评估机制——不仅评估单个提示词的局部有效性（如角色一致性），更衡量其对后续智能体任务成功的促进作用（如信息传递效率）。这种设计有效填补了局部交互与全局目标之间的鸿沟，且无需真实标注数据支持。MASPO还采用数据驱动的进化式束搜索算法来高效探索高维提示空间（搜索效率提升47%）。在6个不同领域的实验中（涵盖机器人协作、金融风控等），MASPO平均准确率提升了2.9个百分点（p<0.01），显著优于现有基准方法（如LoRA-MA、PromptTune-MAS）。我们已在GitHub开源了实现代码：https://github.com/wangzx1219/MASPO

4. MASPO: 大语言模型多智能体系统的联合提示优化

原文标题: MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems

发布时间: 2026-05-07

论文链接:http://arxiv.org/abs/2605.06623v1

基于大型语言模型的多智能体系统（LLM-MAS）在处理复杂协作任务时潜力巨大。传统方法通常利用特定角色的提示词来编排智能体行为。尽管提示词质量至关重要，但跨智能体的协同优化仍面临挑战——因为局部智能体目标与全局系统目标存在偏差。为此，我们提出了MASPO框架：该框架能够自动迭代优化整个系统的提示词组合。其核心创新在于联合评估机制——不仅评估单个提示词的局部有效性（如角色一致性），更衡量其对后续智能体任务成功的促进作用（如信息传递效率）。这种设计有效填补了局部交互与全局目标之间的鸿沟，且无需真实标注数据支持。MASPO还采用数据驱动的进化式束搜索算法来高效探索高维提示空间（搜索效率提升47%）。在6个不同领域的实验中（涵盖机器人协作、金融风控等），MASPO平均准确率提升了2.9个百分点（p<0.01），显著优于现有基准方法（如LoRA-MA、PromptTune-MAS）。我们已在GitHub开源了实现代码：https://github.com/wangzx1219/MASPO

5. 缺乏基准时的评估：验证无真实标签的大语言模型安全对比评分原文标题: When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels 发布时间: 2026-05-07 论文链接:http://arxiv.org/abs/2605.06652v1 许多部署场景必须在特定语言、行业或监管框架相关的基准标签确立之前，就对候选语言模型的安全性进行比较。我们将这一设定形式化为无基准比较安全评分机制，并明确了场景化审计合同可作为部署证据的条件。评分的有效性仅适用于固定的场景包、评估标准、审计方、评判者、采样配置及重运行预算的组合条件。由于缺乏真实标签数据，我们采用工具有效性链作为替代验证手段：包括对受控安全与被篡改对比的响应性检验、目标驱动方差的主导性验证（超过审计者和评判者的干扰因素），以及重运行稳定性分析（通过十次重运行确保稳定性）。我们通过本地优先工具SimpleAudit实现了该验证链，并基于挪威安全包进行了验证：安全与被篡改目标之间的AUROC值范围在0.89至1.00之间；目标身份是主导方差来源

← 上一篇：AI量化轮动策略：251%收益的投资密码下一篇：2025白名单赛事解析：全国青少年人工智能创新挑战赛含金量与赛项详解 →