标签

深度解析:从2D视觉大模型向3D点云的迁移与融合

发布时间:2026-07-03 05:10阅读:2

近年来,依托深度学习的人工智能在2D计算机视觉领域取得了巨大突破。图像分类、目标检测、语义分割等任务的准确率持续攀升,部分场景下甚至超越了人类水平。特别是以CLIP为代表的大规模视觉-语言预训练模型,展现出了卓越的泛化能力和开放词汇理解实力。然而,现实世界是立体的,而非二维平面。在自动驾驶、机器人导航、智慧城市、增强现实等应用场景中,系统不仅要“看见”物体,还需理解物体的三维空间位置、几何形状、尺度关系和可交互区域。3D点云作为一种直接的三维数据表达形式,能够精确记录物体的空间几何信息,因此备受瞩目。

3D点云深度学习的研究历程大致分为三个阶段,其技术演进时间线如下:

第一阶段(2017年前):间接表示法。基于多视图或体素的方法,将点云转化为2D图像或3D体素网格,再套用成熟的卷积神经网络。这类方法操作简便,但容易丢失几何细节或增加计算负担。

第二阶段(2017-2021年):直接点云处理。以PointNet和PointNet++为代表。这类方法直接处理无序的点集合,通过对称函数解决排列不变性问题,开创了点云深度学习的新范式。后续又涌现出PointTransformer、PointMLP等改进模型。

第三阶段(2022年至今):多模态融合与知识迁移。随着2D大模型的迅猛发展,研究者开始探索如何将2D模型中学到的丰富语义知识迁移至3D点云领域。代表性工作包括:

这一阶段的核心旨在攻克3D数据标注昂贵、类别覆盖面窄以及开放世界泛化能力差等难题。

本文围绕“2D大模型向3D点云迁移及多模态融合”这一主题,从以下几个方面展开综述:

图像模型处理的是规则网格数据。在深入了解3D点云前,我们先直观感受一下点云数据的样子。真实道路场景的激光雷达点云如下图所示,不同颜色代表不同的语义类别(如红色为路面、绿色为植被)。

图像模型处理的是规则网格数据。图片中的像素天然具备上下左右关系,卷积神经网络和视觉Transformer都能利用这种规则结构进行特征提取。

点云则截然不同。点云是由大量三维空间点构成的数据,每个点通常包含坐标:

其中,表示第个点, 、 、 分别代表该点在三维空间中的横坐标、纵坐标和竖坐标。

在实际采集中,点还可能带有颜色、反射强度、时间戳、法向量等信息。激光雷达可采集道路、车辆、树木和建筑的空间点;无人机摄影测量能把校园、街区或山体重建成三维点云。

点云的难点在于其无序、稀疏且密度不均。也就是说,同一个物体的点可以以任意顺序输入模型,但模型必须输出相同的结果。

2D图像、3D点云以及多模态数据的对比如下表所示。

核心结论:单一模态各有短板,多模态融合能实现语义与几何的优势互补,但难点在于对齐。

因此,本文关注的核心问题是:

能否将2D大模型已习得的语义知识,迁移至3D点云,让模型同时理解“看见了什么”和“它在空间中在哪里”?

本节小结:点云与图像的本质差异在于无序性和几何直接性。图像是规则网格,擅长纹理语义;点云是空间点集,擅长几何结构。两者各有优势,如何结合是核心问题。

3D点云深度学习通常将任务分为三类:形状分类、目标检测与跟踪、点云分割。它们分别对应“是什么”“在哪里”“每个点属于什么”。点云任务从粗到细的三层理解如下图所示。

形状分类输入一组点云,输出物体类别。例如输入一组椅子点云,模型需判断它是“椅子”而非“桌子”。这类任务常用于基础网络评估。

在自动驾驶场景中,模型不仅要判断前方有车,还要估算车辆在三维空间中的位置、尺寸和朝向。相比2D检测,3D检测更关注真实物理空间。

点云分割更为精细。模型需判断每个点属于道路、建筑、树木、车辆还是行人。常见形式包括:

从研究价值看,分割任务更贴近实际应用。因为自动驾驶和机器人不仅需要知道“场景中有什么”,还需知道“哪些点对应路面、障碍物或可操作物体”。

本节小结:点云任务从粗到细可分为分类、检测、分割三层。任务越细,越接近真实应用,但难度也越大。分割是当前研究的热点和难点。

早期处理3D数据时,常见做法是先将点云转换成图片或体素网格,再套用成熟的2D/3D网络。这种方式方便,但也会产生两个问题:一是数据量变大,二是细节可能在转换中丢失。

PointNet的贡献在于,它提出了一种可以直接处理原始点云的神经网络。它要解决的关键问题是“点云无序性”。

【术语解释】排列不变性指输入数据的顺序不影响输出结果。对于点云来说,同一组点无论以什么顺序输入模型,输出都应该一致。这是点云深度学习必须满足的基本性质。

PointNet的思路可以简化为:

其中:

最大池化不依赖输入顺序,因此能够满足点集的排列不变性。PointNet处理无序点云的基本结构如下图所示。

下图展示了PointNet的完整网络架构,包含输入变换、特征变换和分类/分割分支。

PointNet完整网络架构(包含T-Net变换网络和多层感知机)

一个非常简化的PointNet分类网络可以写成:

代码1MiniPointNet简化分类网络

这段代码展示了PointNet的核心直觉:每个点先独立编码,然后用最大池化提取全局关键特征。

本节小结:PointNet通过“逐点MLP+最大池化”的简洁设计,解决了点云无序性问题,开创了直接处理原始点云的新范式。虽然简单,但它是后续众多复杂方法的基础。

前面介绍的PointNet等基础模型,多在ModelNet40这类理想物体数据集上验证。但实验室的理想模型落地到真实场景,会面临诸多挑战。

如果只在干净物体数据集上验证模型,容易低估真实三维场景的复杂性。城市道路、校园、建筑群和室外空间都存在遮挡、尺度变化、小目标、类别不均衡和标注困难等问题。真实自动驾驶场景下的激光雷达点云如下图所示。

下图展示了SemanticKITTI数据集上的语义分割可视化结果,可以看到不同方法在车辆、道路、植被等类别上的分割效果差异。

SemanticKITTI数据集上的语义分割结果对比(包含真值、2DPASS和本文方法)

WHU-Urban3D面向城市道路场景,包含机载激光扫描和车载激光扫描数据。它提供点级语义和实例标注,覆盖真实道路与城市环境中的多类对象。该数据集的意义在于,它把点云研究从单个物体扩展到大规模复杂城市空间。WHU-Urban3D数据集中的街道树木场景示例如下图所示。

现实场景中的问题包括:

Campus3D通过无人机影像生成校园级点云,并提供分层标签。比如一个点可以先属于“建筑”,再细分为“屋顶”或“墙面”。这种层级关系对模型很重要,因为真实世界的概念并非孤立类别,而是存在上下位逻辑。

如果模型预测一个点是“屋顶”,它在更高层级上也应属于“建筑”。这种一致性约束能帮助模型减少明显不合理的预测。校园建筑的无人机点云扫描效果如下图所示。

WHU-Urban3D与Campus3D的详细对比如下表所示。

当前2D视觉大模型的优势主要来自三点:大规模图像数据、图文对齐训练、开放词汇能力。以CLIP类模型为代表,模型不仅学习图像特征,还把图像和文本放到同一个语义空间中。

而3D点云恰恰面临相反困境:数据标注贵、类别覆盖有限、开放世界泛化不足。于是,一个自然思路出现了:

将2D大模型中已学到的语义知识,通过投影、对齐或对比学习迁移给3D点云模型。

典型工作可按迁移方式分成四类,各类方法的对比如下表所示。

2D知识迁移到3D点云的主要方法对比

为了更直观地对比各方法的性能,下表给出了几种代表性方法在ModelNet40数据集上的零样本分类准确率。

各方法在ModelNet40上的零样本分类准确率(top-1)

注:以上均为零样本设置(无需3D标注数据)下的结果。作为参考,全监督方法PointNet++在ModelNet40上可达92%+的准确率,但需要大量标注数据。

2D语义知识迁移到3D点云的三条主要路径如下图所示。

【术语解释】零样本学习指模型在没有见过目标类别的训练样本的情况下,仍然能够识别该类别。在3D点云领域,零样本通常意味着不需要3D标注数据,仅利用2D大模型的知识迁移即可完成3D任务。

这些方法表明,2D大模型并非简单替代3D模型,而是给3D模型提供语义先验。点云负责几何结构,图像负责外观细节,文本负责开放语义。

本节小结:2D大模型向3D点云的知识迁移主要有四条路线:多视图投影、图像-深度预训练、三模态对齐、开放词汇场景理解。从性能数据看,零样本准确率已从20%提升到74%,进步显著。

了解了2D知识迁移的主要路线后,我们再深入看一个核心问题:多模态融合到底难在哪里?很多初学者容易把多模态融合理解成“图像特征加点云特征”。但真正困难的地方在于对齐。多模态融合中的空间、语义和尺度对齐如下图所示。

下图展示了一种典型的多模态融合网络架构,通过相机分支和激光雷达分支分别提取特征,然后在BEV空间进行融合。

典型的激光雷达-相机多模态融合网络架构(BEVFusion系列)

图像是相机坐标系下的二维投影,点云是三维空间坐标。要把图像语义投影到点云,需要知道相机内参、外参以及点云到图像的投影关系:

其中:

如果标定不准,图像语义就可能被投到错误的三维点上。点云投影到图像上的标定效果如下图所示,可以看到三维点与二维像素基本对应。

图像模型可能识别出“道路”、“车辆”、“树木”,但点云模型面对的是稀疏几何点。如何把图像中的语义标签或CLIP特征稳定传递给点云,是语义对齐问题。

图像中的一个小目标可能只占几十个像素,在点云中也可能只有很少点。多模态模型必须避免大物体特征压过小目标特征。

本节小结:多模态融合的核心不是简单拼接,而是对齐。空间对齐保证几何对应,语义对齐保证概念一致,尺度对齐保证大小目标都被关注。三者缺一不可。

结合已有文献,可以把“2D大模型向3D点云迁移及多模态融合”拆成一条比较清晰的研究路线:

可以进一步形成三个可研究的问题,如下表所示。

可研究问题与评价指标

3D点云让人工智能从“看图片”走向“理解真实空间”。PointNet解决了原始点云直接输入神经网络的问题,WHU-Urban3D和Campus3D展示了真实室外点云的复杂性,PointCLIP、CLIP2Point、ULIP和OpenScene则说明2D大模型知识迁移到3D是可行且有价值的研究方向。

这一方向的核心不是简单地把2D模型搬到3D,而是围绕“几何、语义、文本”三类信息建立统一表示。

尽管现有方法取得了一定进展,但仍存在以下局限:

未来值得重点关注的研究方向包括:

如果用一句话概括本文:

2D大模型提供语义,3D点云提供空间,多模态融合的目标是让模型真正理解三维世界。

[1] GUO Y, WANG H, HU Q, et al. Deep learning for 3D point clouds: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(12): 4338-4364.

[2] QI C R, SU H, MO K, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 652-660.

[3] HAN X, LIU C, ZHOU Y, et al. WHU-Urban3D: an urban scene LiDAR point cloud dataset for semantic instance segmentation[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2024, 207: 134-148.

[4] LI X, LI C, TONG Z, et al. Campus3D: a photogrammetry point cloud benchmark for hierarchical understanding of outdoor scene[C]//Proceedings of the 28th ACM International Conference on Multimedia. Seattle: ACM, 2020: 1-9.

[5] ZHANG R, GUO Z, ZHANG W, et al. PointCLIP: point cloud understanding by CLIP[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 12324-12334.

[6] HUANG T, DONG B, YANG Y, et al. CLIP2Point: transfer CLIP to point cloud classification with image-depth pre-training[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 1-10.

[7] XUE L, GAO M, XING C, et al. ULIP: learning a unified representation of language, images, and point clouds for 3D understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 1-12.

[8] PENG S, GENOVA K, JIANG C, et al. OpenScene: 3D scene understanding with open vocabularies[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 1-11.