最新AI研究速递：2026年5月第5周精选

发布时间：2026-05-25 07:19阅读：11

1. 基于视频生成技术从蜂窝信号重建GPS轨迹的新方法

原文标题: Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling

发布时间: 2026-03-27

论文链接:http://arxiv.org/abs/2603.26610v1

移动终端与基站之间持续进行数据交换，产生了大量信令日志可用于分析人类移动模式。但这类数据只能提供基站覆盖范围等粗略位置信息，难以满足需要精确GPS轨迹的应用需求。本研究聚焦Sig2GPS挑战：从蜂窝信令中恢复GPS轨迹。创新性地将传统依赖复杂多阶段流程或坐标回归的方案，转变为地图可视化驱动的图像转视频生成任务：首先将信令轨迹映射到地图上，随后训练视频生成模型以动态绘制对应的GPS路径。研究团队构建了首个配对的信令-轨迹视频数据集，通过微调开源视频模型实现端到端训练。同时提出了轨迹感知强化学习优化方法，通过奖励信号提升生成质量。实验结果显示，在百万级真实数据集上显著优于传统工程方法和前沿学习模型。进一步验证了该方法的可扩展性和跨城市迁移能力。研究表明，地图可视化引导的视频生成范式为轨迹分析提供了实用工具：能够直接生成并迭代优化符合地图约束的连续路径。

2. 交互式二维可视化在生物医学时间序列标注中的样本选择策略评估

原文标题: Evaluating Interactive 2D Visualization as a Sample Selection Strategy for Biomedical Time-Series Data Annotation

发布时间: 2026-03-27

论文链接:http://arxiv.org/abs/2603.26592v1

可靠的生物医学机器学习模型需要准确的标注数据，但生物医学时间序列的标注工作仍面临诸多困难。算法驱动的样本选择方法可能有助于提升标注效率，但目前缺乏真实标注者的实证研究。为此本研究对比了三种采样策略在辅助标注方面的表现：随机采样、远点优先遍历以及基于图形界面支持探索互补二维可视化的高维数据方法。研究通过婴儿运动能力评估和语音情感识别四个分类任务进行验证：在12名专家和非专家标注者完成有限预算标注后，对采样策略效果进行后续评估。（详细实验过程及结论请参阅原文）

3. 释放几何信息潜力：增强视觉语言模型的空间推理能力

原文标题: Make Geometry Matter for Spatial Reasoning

发布时间: 2026-03-27

论文链接:http://arxiv.org/abs/2603.26639v1

大规模预训练的视觉语言模型在图像和视频理解方面取得了显著进展，但在静态场景和动态视频中的空间推理能力仍有不足。近期研究尝试通过向视觉语言模型注入预训练三维基础模型的几何令牌来弥补这一短板。然而研究团队发现，简单令牌融合加标准微调的方法往往无法充分发挥几何令牌的空间推理能力，视觉语言模型更倾向于依赖二维视觉特征而非几何信息。为此提出了GeoSR框架以释放几何令牌的潜力：（1）几何解绑掩码：通过策略性地遮蔽二维视觉令牌的区域来减少对非几何线索的依赖；（2）几何引导融合：基于门控路由机制的动态融合策略，可自适应增强关键区域几何令牌的贡献度。实验表明，GeoSR在多个静态和动态空间推理基准测试中均超越以往方法，达到新的性能高度。项目主页：https://suhzhang.github.io/GeoSR/

4. JAL-Turn：基于联合声学-语言建模的全双工语音对话系统实时轮次检测

原文标题: JAL-Turn: Joint Acoustic-Linguistic Modeling for Real-Time and Robust Turn-Taking Detection in Full-Duplex Spoken Dialogue Systems

发布时间: 2026-03-27

论文链接:http://arxiv.org/abs/2603.26515v1

尽管近年来取得了一定进展，高效且稳定的对话轮次检测仍然是工业级语音AI代理部署面临的重要挑战。现有系统大多仅依赖声学特征或语义信息，导致检测精度和稳定性不足；而近期尝试赋予大语言模型全双工能力的研究则面临高昂的全双工数据成本和训练部署开销，限制了实时性能表现。本论文提出JAL-Turn框架——一种轻量高效的纯语音轮次检测方案。该框架采用联合声学-语言建模范式，通过跨注意力模块自适应融合预训练声学表征与语言特征，实现对“继续状态”和“切换状态”的低延迟预测。主要创新包括：1）与冻结的自动语音识别编码器共享参数；2）实现检测与语音识别的完全并行计算；3）开发可扩展的数据构建流程，从大规模真实对话语料自动生成可靠标注数据。实验表明：在公共多语言基准测试集及自建日语客服数据集上，JAL-Turn在保持更优实时性能的前提下，检测准确率持续超越现有强基线模型30.7%至45.2个百分点。

5. CPUBone：面向低并行能力设备的高效视觉骨干网络设计

原文标题: CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities

发布时间: 2026-03-27

论文链接:http://arxiv.org/abs/2603.26425v1

近期视觉骨干架构研究主要针对支持高效并行处理的硬件平台进行优化，如智能手机和嵌入式AI加速模块。然而中央处理器无法以相同方式并行化操作，因此模型设计需在计算量与硬件效率之间取得平衡。为实现这一目标，研究团队探索了两种改进标准卷积的方案：分组卷积和减小卷积核尺寸。虽然这两种方法显著降低了推理所需的乘加运算总次数，但要实现低延迟仍需保证硬件高效执行。实验表明，在多种CPU设备上这些改进方案成功维持了高硬件效率。基于此研究提出了CPUBone——专为CPU推理优化的新型视觉骨干模型家族。该模型在速度-精度权衡指标上达到跨设备最优表现，包括x86和ARM异构架构，并能有效提升下游任务如目标检测和语义分割的效率。完整代码及预训练模型已开源至https://github.com/altair199797/CPUBone

← 上一篇：AI三线变革：降价、重塑与颠覆同现下一篇：AI PCB 行业投资逻辑梳理 →