标签

GeoAI 突破:隐含神经表示解决遥感与街景尺度难题

发布时间:2026-05-14 22:10来源:微信阅读:11

ISPRS 摄影测量与遥感期刊 | 研究动态:面对遥感(RS)与地面街景(SV)在空间尺度上的严重不匹配问题,研究团队推出了 GAIR 框架,借助隐含神经表示(INR)技术达成了跨视角的亚像素级精确对齐。

在地理空间人工智能领域,如何有效融合宏观卫星遥感影像与微观地面街景影像始终是一大难题。当前,地理基础模型(GeoFM)的研究遭遇两大瓶颈:首要问题是尺度严重失配,以 Sentinel-2 卫星影像为例,其 10 米分辨率的一个像素往往覆盖地面数百个不同位置的街景,致使街景在遥感图中呈现为“亚像素”级。其次是地理泛化能力欠缺,现有模型多依赖简单的离散图像块对齐,缺乏对精确地理位置关系的显式建模。本研究提出的 GAIR(Geo-Aligned Implicit Representations)框架,旨在利用神经隐含表示技术,在无监督条件下学习跨任务、跨尺度的通用地理特征。

图 1. GAIR 框架核心架构示意。

该图展示了模型如何通过三个独立编码器处理遥感影像、街景影像及地理位置数据。其核心创新在于借助神经隐含局部插值(NILI)模块,在连续空间内完成特征重构,从而实现跨视角的对比学习对齐。

GAIR 的核心技术是神经隐含局部插值 (NILI)模块,它突破了传统离散像素特征提取的局限,将遥感影像特征转化为连续的场表示。

公式 1:NILI 特征插值逻辑(对应原文 Equation 1)

该公式详细阐述了查询点特征的合成机制:模型选取查询点周边的 4 个 Patch 特征,利用基于面积的权重进行加权。其中,是一个共享的多层感知机(MLP),负责学习从坐标偏移至高维语义特征的非线性映射。此外,模型引入了特征展开(Feature Unfolding)策略,将每个 Patch 嵌入与其 3×3 邻域级联,有效扩展了感受野,使模型能够感知更广阔的上下文。

GAIR 采用了多目标对比学习策略,通过两组核心损失函数强制约束模态间的地理空间一致性。

公式 2:隐含神经对比学习 (INCL) 损失(对应原文 Equation 2)

INCL 致力于使 NILI 提取的局部遥感表示与对应的街景嵌入在特征空间内相互接近。这解决了卫星视角与地面视角在语义层面的对齐难题。

公式 3:总训练损失(对应原文 Equation 4)

研究团队通过调节权重参数,并引入空间显式对比学习(SECL)损失(对应原文 Equation 3),实现了地理位置编码、遥感影像和街景影像三者的深度融合,赋予模型感知地理坐标的能力。

研究在涵盖全球 688 个城市的 Streetscapes1M 数据集上进行了预训练,并在遥感语义分割任务上验证了其通用性。

表 1. 遥感语义分割性能对比

数据解读:在全微调模式下,GAIR 在火烧迹地分割任务中达到了 87.00% 的 mIoU,显著优于专门针对遥感预训练的大型模型如 CROMA。在农作物分类任务中,GAIR 同样取得了 SOTA 性能。这证明了通过地面街景辅助学习到的微观特征,对宏观视角的遥感语义理解具有显著增益。

表 2. 模块设计消融实验

结果分析:消融实验证实,移除 NILI 模块(即不进行连续空间插值)或将其替换为传统几何插值(如双线性插值),性能均会出现明显下滑。这验证了可学习的隐含神经插值比传统方法更能胜任复杂的跨视角语义映射,是解决尺度差异的关键。

为了验证 GAIR 是否真正实现了跨视角对齐,研究团队进行了相似度热图可视化分析。

图 2. 跨视角空间对齐相似度热图。

图中红星代表街景影像的真实物理坐标。热图颜色越深(趋向红色)代表相似度越高。结果显示,街景影像特征与遥感隐含特征的相似度峰值精准地聚集在红星周围,证明 GAIR 实现了亚像素级的跨视角空间定位。这种一致性在伦敦、纽约等城市的进一步测试(对应原文 Fig. 8)中也得到了证实。

本研究通过 GAIR 框架证明了神经隐含表示(INR)是解决遥感多源异构数据尺度差异的有效途径。GAIR 不仅在多项地理任务上达到了 SOTA 性能,还通过因子化编码器设计有效缓解了地理偏置问题,并保证了在下游任务中具有与标准 ViT 模型相当的推理效率。这一研究为构建全模态通用地理人工智能奠定了理论基础。

文章地址:

https://www.sciencedirect.com/science/article/pii/S092427162600208X