标签

混合架构新突破!HMSTUNet刷新人群计数性能纪录

发布时间:2026-05-19 14:48来源:微信阅读:6

计算机视觉领域再次传来重磅消息!研究团队Yue Zhang、Yafu Li、Leyang Cui(通讯作者)等学者联合发布HMSTUNet混合多尺度Transformer-CNN U型网络,创新性整合CNN局部特征提取能力与Transformer全局建模优势,成功破解人群计数难题,在五大权威基准数据集上全面刷新SOTA性能。

DOI:https://doi.org/10.1162/COLI.a.16

当前人群计数算法主要分为CNN与Transformer两大技术路线,但各自存在明显局限:CNN网络感受野范围有限,难以捕获长距离依赖关系,对多尺度变化的适应能力不足;Transformer虽然具备强大的全局建模能力,但计算开销较大,容易产生冗余信息,对局部细节的把握不够精准。如何在全局表征与局部密度建模之间寻求平衡,同时兼顾识别精度与推理速度,始终是该领域的核心挑战。

此次提出的HMSTUNet采用经典U型编解码架构,包含三大核心创新设计。首先,采用ConvNeXt-Small作为骨干编码器提取多尺度特征表征,有效应对人群场景中的尺度差异;解码器采用双分支并行结构实现深浅层特征的充分融合。其次,设计MSViT多尺度视觉Transformer模块与DCAB动态卷积注意力模块,分别专注于全局远距离依赖关系捕获与局部人群密度精确建模,两者形成完美互补。此外,构建由计数损失、最优传输损失、变分损失构成的复合损失函数,从全局数量统计与局部密度分布两个维度协同优化预测结果。

实验评估在SHA、SHB、UCF_CC_50等五大主流人群计数数据集展开,测试场景涵盖低光照、强遮挡、高密度等复杂环境。实验结果表明,HMSTUNet在所有数据集上均取得最优MAE指标,在三项数据集上获得最优MSE指标,全面超越MCNN、PET等17种主流算法。消融实验进一步验证,双分支模块与复合损失函数的协同作用是模型性能显著提升的关键因素。

后续研究团队将重点关注低光照、极端遮挡等复杂场景的性能优化,深入探索网络架构的可解释性,并将相关设计理念拓展至行人重识别等其他计算机视觉任务,拓展实际应用场景。