深度解析：从2D视觉大模型向3D点云的迁移与融合

发布时间：2026-07-03 05:10阅读：2

近年来，依托深度学习的人工智能在2D计算机视觉领域取得了巨大突破。图像分类、目标检测、语义分割等任务的准确率持续攀升，部分场景下甚至超越了人类水平。特别是以CLIP为代表的大规模视觉-语言预训练模型，展现出了卓越的泛化能力和开放词汇理解实力。然而，现实世界是立体的，而非二维平面。在自动驾驶、机器人导航、智慧城市、增强现实等应用场景中，系统不仅要“看见”物体，还需理解物体的三维空间位置、几何形状、尺度关系和可交互区域。3D点云作为一种直接的三维数据表达形式，能够精确记录物体的空间几何信息，因此备受瞩目。

3D点云深度学习的研究历程大致分为三个阶段，其技术演进时间线如下：

第一阶段（2017年前）：间接表示法。基于多视图或体素的方法，将点云转化为2D图像或3D体素网格，再套用成熟的卷积神经网络。这类方法操作简便，但容易丢失几何细节或增加计算负担。

第二阶段（2017-2021年）：直接点云处理。以PointNet和PointNet++为代表。这类方法直接处理无序的点集合，通过对称函数解决排列不变性问题，开创了点云深度学习的新范式。后续又涌现出PointTransformer、PointMLP等改进模型。

第三阶段（2022年至今）：多模态融合与知识迁移。随着2D大模型的迅猛发展，研究者开始探索如何将2D模型中学到的丰富语义知识迁移至3D点云领域。代表性工作包括：

这一阶段的核心旨在攻克3D数据标注昂贵、类别覆盖面窄以及开放世界泛化能力差等难题。

本文围绕“2D大模型向3D点云迁移及多模态融合”这一主题，从以下几个方面展开综述：

图像模型处理的是规则网格数据。在深入了解3D点云前，我们先直观感受一下点云数据的样子。真实道路场景的激光雷达点云如下图所示，不同颜色代表不同的语义类别（如红色为路面、绿色为植被）。

图像模型处理的是规则网格数据。图片中的像素天然具备上下左右关系，卷积神经网络和视觉Transformer都能利用这种规则结构进行特征提取。

点云则截然不同。点云是由大量三维空间点构成的数据，每个点通常包含坐标：

其中，表示第个点，、、分别代表该点在三维空间中的横坐标、纵坐标和竖坐标。

在实际采集中，点还可能带有颜色、反射强度、时间戳、法向量等信息。激光雷达可采集道路、车辆、树木和建筑的空间点；无人机摄影测量能把校园、街区或山体重建成三维点云。

点云的难点在于其无序、稀疏且密度不均。也就是说，同一个物体的点可以以任意顺序输入模型，但模型必须输出相同的结果。

2D图像、3D点云以及多模态数据的对比如下表所示。

核心结论：单一模态各有短板，多模态融合能实现语义与几何的优势互补，但难点在于对齐。

因此，本文关注的核心问题是：

能否将2D大模型已习得的语义知识，迁移至3D点云，让模型同时理解“看见了什么”和“它在空间中在哪里”？

本节小结：点云与图像的本质差异在于无序性和几何直接性。图像是规则网格，擅长纹理语义；点云是空间点集，擅长几何结构。两者各有优势，如何结合是核心问题。

3D点云深度学习通常将任务分为三类：形状分类、目标检测与跟踪、点云分割。它们分别对应“是什么”“在哪里”“每个点属于什么”。点云任务从粗到细的三层理解如下图所示。

形状分类输入一组点云，输出物体类别。例如输入一组椅子点云，模型需判断它是“椅子”而非“桌子”。这类任务常用于基础网络评估。

在自动驾驶场景中，模型不仅要判断前方有车，还要估算车辆在三维空间中的位置、尺寸和朝向。相比2D检测，3D检测更关注真实物理空间。

点云分割更为精细。模型需判断每个点属于道路、建筑、树木、车辆还是行人。常见形式包括：

从研究价值看，分割任务更贴近实际应用。因为自动驾驶和机器人不仅需要知道“场景中有什么”，还需知道“哪些点对应路面、障碍物或可操作物体”。

本节小结：点云任务从粗到细可分为分类、检测、分割三层。任务越细，越接近真实应用，但难度也越大。分割是当前研究的热点和难点。

早期处理3D数据时，常见做法是先将点云转换成图片或体素网格，再套用成熟的2D/3D网络。这种方式方便，但也会产生两个问题：一是数据量变大，二是细节可能在转换中丢失。

PointNet的贡献在于，它提出了一种可以直接处理原始点云的神经网络。它要解决的关键问题是“点云无序性”。

【术语解释】排列不变性指输入数据的顺序不影响输出结果。对于点云来说，同一组点无论以什么顺序输入模型，输出都应该一致。这是点云深度学习必须满足的基本性质。

PointNet的思路可以简化为：

其中：

最大池化不依赖输入顺序，因此能够满足点集的排列不变性。PointNet处理无序点云的基本结构如下图所示。

下图展示了PointNet的完整网络架构，包含输入变换、特征变换和分类/分割分支。

PointNet完整网络架构（包含T-Net变换网络和多层感知机）

一个非常简化的PointNet分类网络可以写成：

代码1MiniPointNet简化分类网络

这段代码展示了PointNet的核心直觉：每个点先独立编码，然后用最大池化提取全局关键特征。

本节小结：PointNet通过“逐点MLP+最大池化”的简洁设计，解决了点云无序性问题，开创了直接处理原始点云的新范式。虽然简单，但它是后续众多复杂方法的基础。

前面介绍的PointNet等基础模型，多在ModelNet40这类理想物体数据集上验证。但实验室的理想模型落地到真实场景，会面临诸多挑战。

如果只在干净物体数据集上验证模型，容易低估真实三维场景的复杂性。城市道路、校园、建筑群和室外空间都存在遮挡、尺度变化、小目标、类别不均衡和标注困难等问题。真实自动驾驶场景下的激光雷达点云如下图所示。

下图展示了SemanticKITTI数据集上的语义分割可视化结果，可以看到不同方法在车辆、道路、植被等类别上的分割效果差异。

SemanticKITTI数据集上的语义分割结果对比（包含真值、2DPASS和本文方法）

WHU-Urban3D面向城市道路场景，包含机载激光扫描和车载激光扫描数据。它提供点级语义和实例标注，覆盖真实道路与城市环境中的多类对象。该数据集的意义在于，它把点云研究从单个物体扩展到大规模复杂城市空间。WHU-Urban3D数据集中的街道树木场景示例如下图所示。

现实场景中的问题包括：

Campus3D通过无人机影像生成校园级点云，并提供分层标签。比如一个点可以先属于“建筑”，再细分为“屋顶”或“墙面”。这种层级关系对模型很重要，因为真实世界的概念并非孤立类别，而是存在上下位逻辑。

如果模型预测一个点是“屋顶”，它在更高层级上也应属于“建筑”。这种一致性约束能帮助模型减少明显不合理的预测。校园建筑的无人机点云扫描效果如下图所示。

WHU-Urban3D与Campus3D的详细对比如下表所示。

当前2D视觉大模型的优势主要来自三点：大规模图像数据、图文对齐训练、开放词汇能力。以CLIP类模型为代表，模型不仅学习图像特征，还把图像和文本放到同一个语义空间中。

而3D点云恰恰面临相反困境：数据标注贵、类别覆盖有限、开放世界泛化不足。于是，一个自然思路出现了：

将2D大模型中已学到的语义知识，通过投影、对齐或对比学习迁移给3D点云模型。

典型工作可按迁移方式分成四类，各类方法的对比如下表所示。

2D知识迁移到3D点云的主要方法对比

为了更直观地对比各方法的性能，下表给出了几种代表性方法在ModelNet40数据集上的零样本分类准确率。

各方法在ModelNet40上的零样本分类准确率（top-1）

注：以上均为零样本设置（无需3D标注数据）下的结果。作为参考，全监督方法PointNet++在ModelNet40上可达92%+的准确率，但需要大量标注数据。

2D语义知识迁移到3D点云的三条主要路径如下图所示。

【术语解释】零样本学习指模型在没有见过目标类别的训练样本的情况下，仍然能够识别该类别。在3D点云领域，零样本通常意味着不需要3D标注数据，仅利用2D大模型的知识迁移即可完成3D任务。

这些方法表明，2D大模型并非简单替代3D模型，而是给3D模型提供语义先验。点云负责几何结构，图像负责外观细节，文本负责开放语义。

本节小结:2D大模型向3D点云的知识迁移主要有四条路线：多视图投影、图像-深度预训练、三模态对齐、开放词汇场景理解。从性能数据看，零样本准确率已从20%提升到74%，进步显著。

了解了2D知识迁移的主要路线后，我们再深入看一个核心问题：多模态融合到底难在哪里？很多初学者容易把多模态融合理解成“图像特征加点云特征”。但真正困难的地方在于对齐。多模态融合中的空间、语义和尺度对齐如下图所示。

下图展示了一种典型的多模态融合网络架构，通过相机分支和激光雷达分支分别提取特征，然后在BEV空间进行融合。

典型的激光雷达-相机多模态融合网络架构（BEVFusion系列）

图像是相机坐标系下的二维投影，点云是三维空间坐标。要把图像语义投影到点云，需要知道相机内参、外参以及点云到图像的投影关系：

其中：

如果标定不准，图像语义就可能被投到错误的三维点上。点云投影到图像上的标定效果如下图所示，可以看到三维点与二维像素基本对应。

图像模型可能识别出“道路”、“车辆”、“树木”，但点云模型面对的是稀疏几何点。如何把图像中的语义标签或CLIP特征稳定传递给点云，是语义对齐问题。

图像中的一个小目标可能只占几十个像素，在点云中也可能只有很少点。多模态模型必须避免大物体特征压过小目标特征。

本节小结：多模态融合的核心不是简单拼接，而是对齐。空间对齐保证几何对应，语义对齐保证概念一致，尺度对齐保证大小目标都被关注。三者缺一不可。

结合已有文献，可以把“2D大模型向3D点云迁移及多模态融合”拆成一条比较清晰的研究路线：

可以进一步形成三个可研究的问题，如下表所示。

可研究问题与评价指标

3D点云让人工智能从“看图片”走向“理解真实空间”。PointNet解决了原始点云直接输入神经网络的问题，WHU-Urban3D和Campus3D展示了真实室外点云的复杂性，PointCLIP、CLIP2Point、ULIP和OpenScene则说明2D大模型知识迁移到3D是可行且有价值的研究方向。

这一方向的核心不是简单地把2D模型搬到3D，而是围绕“几何、语义、文本”三类信息建立统一表示。

尽管现有方法取得了一定进展，但仍存在以下局限：

未来值得重点关注的研究方向包括：

如果用一句话概括本文：

2D大模型提供语义，3D点云提供空间，多模态融合的目标是让模型真正理解三维世界。

[1] GUO Y, WANG H, HU Q, et al. Deep learning for 3D point clouds: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(12): 4338-4364.

[2] QI C R, SU H, MO K, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 652-660.

[3] HAN X, LIU C, ZHOU Y, et al. WHU-Urban3D: an urban scene LiDAR point cloud dataset for semantic instance segmentation[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2024, 207: 134-148.

[4] LI X, LI C, TONG Z, et al. Campus3D: a photogrammetry point cloud benchmark for hierarchical understanding of outdoor scene[C]//Proceedings of the 28th ACM International Conference on Multimedia. Seattle: ACM, 2020: 1-9.

[5] ZHANG R, GUO Z, ZHANG W, et al. PointCLIP: point cloud understanding by CLIP[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 12324-12334.

[6] HUANG T, DONG B, YANG Y, et al. CLIP2Point: transfer CLIP to point cloud classification with image-depth pre-training[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 1-10.

[7] XUE L, GAO M, XING C, et al. ULIP: learning a unified representation of language, images, and point clouds for 3D understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 1-12.

[8] PENG S, GENOVA K, JIANG C, et al. OpenScene: 3D scene understanding with open vocabularies[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 1-11.

← 上一篇：AI泛滥让寻找外星人变得更困难了下一篇：AI辅助三个月，医生肉眼筛查能力骤降21%，1443例数据敲响警钟 →