AI论文精选:可重复性、机器人优化与健康评估新进展
1. 利用GitHub问题提升可重复性审计:ReproRepo通过标准化流程实现规模化验证 原文标题: ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues 发布时间: 2026-06-16 论文链接:http://arxiv.org/abs/2606.18237v1 复现研究结果的论文与代码发布是科学进步的核心环节。现有工作已构建基准测试来评估大语言模型代理在可重复性审计中的作用,但存在数据标注和人工评估成本过高、扩展性差的问题。我们提出ReproRepo可扩展评估框架,利用GitHub自然生成的用户报告作为监督信号来检测真实的复现障碍。在1,149篇顶级会议最新机器学习论文中验证了四种前沿模型代理配置:实验表明即使不执行代码操作的最佳模型(基于GPT-5.5的Codex),仍能识别约90%论文中至少一个语义相关的人类报告复现障碍问题。深入分析显示模型在显式失败检测和语义区域定位方面表现优异,但在精确位置定位上仍有提升空间。ReproRepo可作为未来评估LLM代理真实世界可重复性审计的可复用、可扩展框架使用。我们的代码已开源至https://github.com/LithiumDA/ReproRepo
2. 视觉验证驱动推理引导与策略自优化 原文标题: Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement 发布时间: 2026-06-16 论文链接:http://arxiv.org/abs/2606.18247v1 现实世界中部署的机器人应能从经验中学习并持续改进。这需要一个通过实践和反馈进行学习的机制。本文提出VERITAS框架——一种面向通用机器人策略的生成器-验证器框架,支持推理时策略引导与自我优化。我们采用预训练的通用机器人策略作为「生成器」,并搭配一个无梯度的「视觉验证器」在推理时评估动作效果。该框架可在不额外训练的情况下通过推理时引导提升策略性能。实验表明:推理时验证相较于未经过训练的基础通用策略具有显著优势;验证后的轨迹能有效监督离线策略优化:在经过验证轨迹微调后的策略性能持续提升;值得注意的是,基于验证轨迹的后训练优化效率可与专家演示数据相当且无需人工干预。研究结果突显推理时验证机制作为部署阶段提升机器人策略实用性与可扩展性的有效实践方法。
3. 进化导航:主动预判与自进化记忆助力零样本目标导航 原文标题: EvolveNav: Proactive Preflection and Self-Evolving Memory for Zero-Shot Object Goal Navigation 发布时间: 2026-06-16 论文链接:http://arxiv.org/abs/2606.18235v1 零样本物体-目标导航(ZS-OGN)要求体感代理在不接受任何先前训练的情况下进行探索并定位目标物体。为此,近期方法利用基础模型。但它们通常依赖静态先验知识且缺乏适应性,导致重复错误和昂贵的试错成本。本文提出了一种自我演化的ZS-OGN框架以实现连续测试时间优化:首先通过提取行动导向知识构建代理规则内存;其次设计基于上界置信度的检索策略(通过平衡语义相关性与历史成功率筛选有效规则);最后引入记忆引导的偏好预测模块以预先推测潜在结果从而减少无效探索。广泛实验表明该方法在成功率上较现有零样本基线提升10.1%,且不必要的步骤减少显著。
4. 定点推理器:稳定自适应的深度循环Transformer 原文标题: Fixed-Point Reasoners: Stable and Adaptive Deep Looped Transformers 发布时间: 2026-06-16 论文链接:http://arxiv.org/abs/2606.18206v1 循环架构具有学习分步执行程序的归纳偏置优势(适用于需要组合推理的任务)。循环结构中达到的有效层数决定了模型找到解的质量(与深度神经网络类似)。由于终止决策被推迟到深层网络中执行(由深度引起的信号传播问题),这类架构同样容易受到信号传播问题的困扰。本文提出通过预归一化层和残差缩放技术解决该问题(构建在上述改进基础上),并设计FPRM(Transformer基线)定点推理模型——该模型利用定点收敛作为循环架构的端到端终止机制。(实验表明)FPRM能有效解决Sudoku(数独)、Maze(迷宫)、状态追踪和ARC-AGI等典型推理基准任务中的计算效率与任务难度的自适应问题
5. 量规树:面向健康数据与医疗技能的多维代理评估体系 原文标题: RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills 发布时间: 2026-06-16 论文链接:http://arxiv.org/abs/2606.18203v1 基于大语言模型的个性化健康代理通过整合用户健康(传感器)指标为缓解全球医疗资源不均提供了新路径。然而大规模临床部署受制于开放型评估瓶颈:医师标注虽可靠但成本高且难以规模化;而将大语言模型作为评判者虽可扩展但存在主观性、不一致性和临床相关性偏差等问题。我们提出RubricsTree评估框架:该框架包含超过100个原子级、临床可验证的真值假判断量表的专家对齐层级分类体系(源自4000条真实用户查询并通过专家委员会主导的人机协同审校协议迭代优化)。上下文感知的自适应路由器根据查询需求动态激活相关自动加权判断项集( rubric subset ),在保证专家对齐性的同时实现高效评估吞吐量。通过系统性元评估实验证明:(i) 在复杂开放式查询场景下,RubricsTree显著优于现有大规模评估基线;(ii) 可有效识别上下文关联性下降的回答;(iii) 当作为结构化指令、文本反馈或训练奖励时,在HealthBench基准测试中使Gemini、GPT、Qwen等模型家族获得最高66.7%的相对性能提升。该框架构建了可扩展、可审计且持续进化的评估基础设施,为个人医疗级AI产品的持续优化提供必要支撑
6. 红队测试Anthropic Fable 5与Opus 4.8模型安全边界 原文标题: A Red-Team Study of Anthropic Fable 5 & Opus 4.8 Models 发布时间: 2026-06-16 论文链接:http://arxiv.org/abs/2606.18193v1 我们对Anthropic开发的两个前沿大语言模型Fable 5和Opus 4.8进行了对抗鲁棒性评估。通过四类自动化越狱攻击(覆盖7826种有害意图、基于十类危害税目)测试发现:在HackAgent红队对抗框架下生成的数十万次攻击尝试中,所有看似成功的案例均经过由三个裁判模型组成的评审团(多数决)独立复核。结果显示:虽然两者均能有效抵御多数攻击,但残余漏洞集中在自适应迭代攻击(如树状攻击策略),而静态混淆攻击已被基本破解。具体而言:最强大的自适应搜索树状攻击使Opus 4.8在11.5%的测试用例中失效,而Fable 5最差情况仍保持6.1%的漏洞率。值得注意的是 aggregate rates(聚合漏洞率)不应作为安全保证——即使在强化后的配置下,Opus 4.8仍有1620次、Fable 5有702次经过评审团确认的有害输出被检测到(涉及所有危害类别),且这些漏洞可在攻击方无需人类专家介入的情况下,通过自动工具在首次或二次优化步骤内实现突破。结论表明:即使经过严格测试的前沿大模型在面对持续自动化压力时仍存在可被可靠利用的漏洞。
7. 斯坦福EDGAR数据集:重构美企披露为高效预训练语料 原文标题: The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data 发布时间: 2026-06-16 论文链接:http://arxiv.org/abs/2606.18192v1 随着高质量公共网页语料库日益枯竭,清洁长语境文档已成为训练大型语言模型(LLMs)稀缺且昂贵的训练数据