基于深度学习的三维语义理解（分割）综述列表

文章目录

基于深度学习的三维语义理解（分割）综述列表
前言
基于深度学习的三维语义理解（分割）综述列表
总结

前言

随着2016年pointnet的发表，三维空间中的语音理解逐渐进入了爆发式的增长，本文对至今一些优秀的文章进行部分整理。

基于深度学习的三维语义理解（分割）综述列表

一、从三维模型中进行深度学习

1.1基于点云的方法

基于多视图
(1)MVCNN（Su et al ）(2015)
(2)MHBN(Yu et al)(2018)
(3)View-GCN(Wei et al)(2020)
(4)SnapNet（Boulch et al）(2017)(可分割)
(5)DeepPr3SS(Lawin et al)(2017)(可分割)
(6)TangentConv(Tatarchenko ta al)(2018)(可分割)
(7)MV3D(Chen et al.)(2017)
(8)RT3D(Zeng et al )(2018)
(9)ContFuse(Liang et al)(2018)
(10)AVOD(Ku et al)(2018)
(11)SCANet(Lu et al )(2019)
(12)MMF(Liang et al)(2019)

注：
基于BEV的方法： (且是single shot methods)
(1)PIXOR（Yang et al）(2018)
(2)HDNET(Yang et al)(2018)
(3)BirdNet(Beltran et al.)(2018)
(4)PointPillars(Lang et al.)(2019) (被引250+)

工业界的文章，速度极快的提升了。
作者写作的出发点：对三维点云进行实时检测的一种方法。
本文贡献：
提出了一种端到端的网络，利用原始的三维点云数据，，在不丢失三维信息的同时，将点云数据转换为pillars，然后通过一种新颖的编码器，将这种数据转换为一种伪二维图像（一种三维张量）然后再这种伪二维数据中，进行大量的CNN，来完成高速，实时的检测任务。
关键点：在三维点云上的BEV转换成的pillars；将pillars转换为伪二维图像；利用CNN进行深度学习；速度极快，可以达到105Hz。
网络架构：

三大步骤：
（1） Pillar Feature Net（生成伪图像）
首先在俯视图的平面上打网格（H x W）的维度；然后对于每个网格所对应的柱子中的每一个点都取（x,y,z,r,x_c,y_c,z_c,x_p,y_p）9个维度。其中前三个为每个点的真实位置坐标，r为反射率，带c下标的是点相对于柱子中心的偏差，带p下标的是对点相对于网格中心的偏差。每个柱子中点多于N的进行采样，少于N的进行填充0。于是就形成了一种三维张量pillars（D,N,P），其中D=9, N为点数（设定值），P为HW。
然后通过本文的编码器，将pillars中的数据，进行数据转换，用一个简化的PointNet将D维转换为C维（学习特征的一个小过程），变成（C,N,P）让对N维方向上进行最大池化操作，使得其变为（C,P）。此时P是HW（BEV的网格分辨率），此时我们又成了一个三维张量（H,W,C）一种伪二维图像。
（2）在伪图像上进行成熟的2维CNN操作，速度比三维卷积快了相当多。
（3）基于SSD的目标检测头进行bbox回归。

(5)Point-GNN(Shi et al )(2020)

基于球形投影(Spherical)

图片上方为球形投影的结果，下方是点云。
上方图像的每一行对应于从激光雷达的每个激光获得的点。在此，图像中的最低行对应于激光雷达中的最低激光，是激光雷达附近最接近的环，如上所示。
投影不是及那个曲面进行简单地展开，而是一个基于坐标系变换的过程。（将三维的点用图片的形式来表示）
具体如何进行球面投影，可以参考https://blog.csdn.net/weixin_43199584/article/details/105260463

(1)SqueezeSeg(wu et al 2017)(可分割)

本文的核心贡献，是对三维的点云进行预处理，将点云数据变换成图片的形式来表示，然后利用成熟的二维卷积的方法来完成分割任务。

(2)SqueezeSeg22(Wu et al 2018)(可分割)
(3)RangeNet++（Milioto et al 2019）(可分割)

RangeNet++是以SqueezeSeg和SqueezeSegV2为基础，都使用了点云的球面投影的方法，可以将点云数据转换为可以支持很多成熟的二维图像处理方法的数据。（用图片的方式来表示点云）（有效的将点云数据进行降维的方法），同时该方案计算量相对较小，适合于自动驾驶等领域进行实时处理。
处理流程：

扫描二维码关注公众号，回复： 11849034 查看本文章

将三维点云数据通过球投影的方式转换为二维的表示方法。

在该二维的iamge上进行2D全卷积语义分割。

将分割成功的2D信息转换到3D点云上

对分割结果进行优化。

MLP
(1)PointNet(Qi et al)(2016)(可分割)

见https://blog.csdn.net/qq_41918369/article/details/108075239

(2)PointNet++(Qi et al)(2017)(可分割)

见https://blog.csdn.net/qq_41918369/article/details/108075239

(3)3DContextNet(Zeng et al.)(2017)(可分割)
(4)A-SCN(xie et al.)(2018)(可分割)
(5)PointSIFT(Jiang et al )(2018)(可分割)
(6)Engelman(Engleman et al)(2018)(可分割)
(7)PAT(Yang et al.)(2019)(可分割)
(8)LSANet(chen et al)(2019)(可分割)
(9)PointWeb(Zhao et al)(2019)(可分割)
(10)ShellNet(Zhang et al )(2019)(可分割)
(11)RandLA-Net(Hu et al)(2019)(可分割)
(12)Mo-Net(Joseph-Rivlin et al)(2018)
(13)SRN(Duan et al)(2019)
(14)JustLookUp(Lin et al)(2019)
(15)PointASNL(Yan et al)(2020)
(16)PointRCNN(Shi et al)(2019)

作者提出了一种三维物体检测器pointRCNN，可以直接从原始的点云中检测三维物体，（该网络为two-stage网络），stage-1直接从点云中生成多个粗略的3Dbox，stage-2，优化一阶段的3Dbox并对每个box中的物体进行class分类。
stage-1：
先通过pointnet++对每个点的特征进行提取，然后通过点的特征，将所有的点分为前景点和背景点，并将背景点删除，同时在前景点上，对每个点都生成一个box，然后通过部分优化，留下，部分得分最高的box。
stage-2：
将stage-1中生成的部分精准的box进行标准化坐标变换，然后再通过局部的pointnet，进行局部特征的学习，得到局部的特征向量，再和全局的特征向量进行拼接，然后优化每个点的特征，然后重新生成一个最优的3D-box，同时完成class任务。

基于图卷积网络的方法
(1)SPG(Landrieu and Simonovski)(2017)(可分割)
(2)SSP（Landrieu and Bussaha）(2019)(可分割)
(3)DGCNN(Wang et al)(2018)(可分割)

本文贡献：（1）EdgeConv在保证置换不变性的同事捕获局部几何信息。
（2）DGCNN可以在动态更新图的同事，在语义上将点聚合起来，
（3）EdgeConv可以迁入多个已有的多个点云处理框架中。
本文提出了一个新的神经网络模块——EdgeConv.
EdgeConv的优点：（1）包含了局部邻域的信息，
（2）可以通过EdgeConv模块的循环使用，提取全局的形状特征。
（3）在多层系统中，特征空间中的相对关系包含了语义特征。
EdgeConv的不足：EdgeConv考虑了点的坐标与领域点的距离，但是忽略了相邻点之间的向量方向，最终还是损失了一部分的局部几何信息。
EdgeConv：
首先提取中心点与临近店之间的边特征，再进行卷积操作。
具体步骤：
（1）先利用MLP对每个点提取一遍特征
（2）再利用多种方式将点和周围点的特征进行融合，本文提出了四种融合方式，此处介绍一种，我个人认为最合理的一种方式：将中心点的特征，与中心点与K个临近点之间的特征差进行串联，然后输入MLP中，这样便融合了点之间的局部关系和点的全局特征。
作者认为PointNet++不足的原因： pointnet++在处理局部区域的点的时候未来保证置换不变性而导致过于独立，这样会忽视了点之间的集合相关信息，导致一部分的信息丢失。

(4)PyramNet(Kang and Liu.)(2019)(可分割)
(5)GACNet(Wang et al)(2019)(可分割)
(6)SPH3D-GCN(Lei et al)(2019)(可分割)
(7)HEPIN(Jiang et al )(2019)(可分割)
(8)DPAM(Liu et al.)(2019)(可分割)
(9)ECC(Simonovsky et al)(2017)
(10)KCNet(Shen et al.)(2017)
(11)FoldingNet(Yang et al.)(2017)
(12)AGCN(Li et al.)(2018)
(13)LocalSpecGCN(Wang et al )(2018)
(14)RGCNN(Te et al .)(2018)
(15)3DTI-Net(Pan et al )(2018)
(16)ClusterNet(Chen et al.)(2019)
(17)DPAM(Liu et al.)(2019)
(18)Grid-GCN(Xu et al.)(2020)
(19)DeepGCNs(2019)(可分割)

本文作者认为CNN（完美的应用欧氏距离的数据中）成功的原因在于：CNN可以设计并使用深层的网络结构，，但现在GCN（用来处理拓扑结构的数据）现阶段只能处理2-3层的数据，（由于深层的GCN的Aggregate容易造成over
smooth问题，即节点间的feature难以区分），本文来探究能否也生成一个深层的GCN网络模型。

本文解决深度GCN出现的问题的方法，使用residual/dense connections 和DGCNN中的 edge conv
三种方法方法一同来克服了深度GCN中出现的问题。

基于点的卷积的方法
(1)PointCNN(Li et al)(2018)(可分割)（被引400+）

本文的主要贡献是：引入了一个新的运算方法X-Conv
本作者想要解决对无序的点云的卷积问题，作者的解决核心思路是：将无序的点云进行有序化变换，然后使用卷积的方法，进行特征提取。
作者的解决方案：使用空间变换网络（STN）从前一层的数据中提取K个点，预测一个K*K大小的转置矩阵（X-transformation），用转置矩阵对前一层的特征做变换，然后对变换后的特征用卷积。此外，同样也在提取出k个近邻后，将各个点转换到局部坐标系。
PointCNN的优点：参数少，训练时间短，比较优美

但pointconv作者认为该篇文章没有实现置换不变性

X-Conv的具体过程看见周报笔记。

(2)MCCN（Hermosilla et al）(2018)(可分割)
(3)PointConv(Wu et al)(2018)(可分割)（被引150+）

作者的写作出发点：作者通过对一维卷积和二维卷积的理解中，认为卷积主要由两部分组成，（1）将目标点和周围点都考虑进来，（K近邻）（2）不同位置的点的输入权重是不一样的，所以本文是要解决如何得到一个关于不同K近邻点的权重系数问题。（求解权重函数）
本文贡献：
（1）提出了一种新的三维卷积运算，pointconv。一种考虑密度的不断跟新权重的网络。该网络最重要的创新是：可以有效地计算权重函数。
（2）该网络能够完全近似任何一组3D点上的3D连续卷积。
（3）本文还提出了相应的反卷积操作PointDeconv。将特征传播回原始分辨率。像二维空间中一样，使用全卷积网络能够更精确的完成分割任务。
网络架构：

（a）是将全局坐标系下的全部点的坐标，转换为以P为中心点后，转化为局部坐标的过程，
（b）中的上部分，是将（a）中转化后的K近邻点的局部坐标当做输入，然后通过局部的多层感知器进行权重的训练；下部分是将点的密度考虑进来，主要是处理点云采样不均的问题.
注：（1）Pointconv中的MLP的权重在所有点之间是共享的，来保证排列不变性。
（2）作者为了证明pointconv是真正的卷积运算，作者还将2D图像中的所有像素转换为具有2D坐标以及RGB值的点云格式，其分类结构可以和正常的图像的CNN媲美。
所以作者认为本篇文章既可以是三维场景中的CNN方法。

(4)ConvPoint(Boulch et al.)(2019)(可分割)
(5)A-CNN(Komarichev et al)(2019)(可分割)
(6)KPConv(Thomas et al)(2019)(可分割)
(7)InterpCNN(Mao et al)(2019)(可分割)
(8)DPC(Engelmann et al.)(2019)(可分割)
(9)SphericalCNN(Spherical)(2017)
(10)Point wise CNN(Hua et al)(2017)
(11)Tensor field Network(Thomas et al)(2018)
(12)Flex-Convolution(Groh et al.)(2018)
(13)PCNN(Matan et al.)(2018)
(14)SpiderCNN(Xu et al)(2018)
(15)MCCNN（Hermosilla et al）(2018)
(16)Geo-CNN(Lan et al)(2018)
(17）Ψ-CNN（Lei et al）(2019)
(18)LP-3DCNN(Kumawat et al.)(2019)
(19)RS-CNN(Liu et al.)(2019)
(20)KPConv(Thomas . Charles R. QI et al )(facebook ai )(2019)(被引150+)

(21)SFCNN(Rao et al.)(2019)
(22)DensePoint(Liu et al)(2019)
(23)ConvPoint(Boulch et al.)(2020)

(24) Associatively Segmenting Instances and Semantics in Point
Clouds.(Wang et al.)(2019)(可分割)(被引50+)
(26)4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks(choy et al )(2019)(被引50+)
(27)Deep Hough Voting for 3D Object Detection in Point Clouds(Qi,et al. )(2019)(被引用100+)
（28） Complexer-YOLO: Real-Time 3D Object Detection and Tracking on Semantic Point Clouds(semon et al)(2019)(被引32)

基于RNN的方法

循环神经网络的本质是：像人一样拥有记忆的能力，使得机器能够联系上下文的语句，理解当前单词或者预语句的意思现阶段的RNN的各种变形还可以学习二维视频信息和三维视频的信息。
RNN与CNN的本质区别：CNN没有记忆功能，它的输出仅依赖于输入和网络的权重值，但 RNN有记忆功能，他的输出不仅依赖于当前的输入，还依赖当前的记忆。
CNN的输入是单一的图片等单一性质的数据，而RNN的输入是一个序列，一个随时间变化的序列

(1)G+RCU(Engelam et al)(2018)(可分割)
(2)RSNet（Huang et al）(2018)(可分割)
(3)3P-RNN(Ye et al )(2018)(可分割)

本文的3P（Pointwise Pyramid Pooling）
也是先通过MLP来提取点云的特征，然后设置一个金字塔模型，对不同大小的区域的点云分别提取局部信息（大局部，小局部，等）和全局信息，然后获得每个点的全部信息，（此时每个点的特征为特征向量，）
再将特征向量放入双向的RNN中，进行学习，然后通过全连接层来完成分割任务

(4)DARNet(Zhao et al )(2019)(可分割)
(5)PointRNN(Fan et al)(2018)

一个用来处理动态点云的深度学习网络。主要贡献：本提出了PointRNN和其两个变体，PointGRU、PointLSTM 都可以应用于移动点云的预测（结合给定点的历史运动轨迹来预测点云的未来轨迹）动态点云学习
注：传统的RNN是以一维向量作为输入的，RNN的一些变体如Cubic
ConvLSTM可以用来对二维视频进行深度学习，本文PointRNN是进一步的变体，可以对三维点云视频（动态三维点云）进行深度学习

基于晶格的方法（Lattice）
(1)LatticeNet(Rosu et al.)(2019)(可分割)

该网络可以在（2）中晶格的基础上可以实现大点云的有效处理

(2)SPLATNet(Su et al.)(2018)

本篇文章方法小众，且文章难度
且同时pointNet、pointcnn处理起来复杂了一些，但相比于基于树的点云处理网络相比，（树的网络如OCNN都是讲点云进行高效的组织化，然后再套用成熟的神经网络进行处理，一般不是end-to-end网络）但是本篇文章的方法把对点云的组织者一步骤放到了每一次卷积操作中，实现了end-to-end。
注；本文应用的bilateral convolution lays（BCLs）和permutohedra lattice 并非作者首创，
文章中BCL平滑地将输入点映射到稀疏的格子上，在稀疏的点阵上执行卷积，然后将过滤后的信号平滑地插入到原始的输入点上。主要分为: Splat、Convolve、Slice：
1.Splat： BCL首先将输入特征结合到晶格
2.Convolve： BCL在这些点阵上进行卷积操作，（就像标准CNN一样）
3.Slice：经过卷积后的信号插值（barycentric interpolation）投影回输入信号。
注：该网络可以灵活地联合处理处理多视图图像和点云。

有待阅读后进行进一步分类
(1)ShapeContexNet（Xie et al.）(2018)
(2)PVNet(You et al.)(2018)
(3)Point2Sequence(Liu et al )(2018)
(4)PVRNet(You et al )(2018)
(5)3DPointCapsNet(Zhao et al)(2018)
(6)RCNet(Wu et al.)
(7)PointDAN(Qin et al)(2019)

(8)3D FCN(Li et al.)(2017)
(9)Vote3Deep(Li et al.)(2017)
(10)VoxelNet(Zhou et al.)(2018)
(11)SECOND(Yan et al.)(2018)
(12)3DBN(Li et al)(2019)
(13)3DSSD(Yang et al.)(2020)
single shot methods

(14)LaserNet(Meyer et al)(2019)

(15)3D iou loss(Zhou et al)(2019)
(16)Part-A^2(Shi et al.)(2019)
(17)Fast Point RCNN(Chen et al.)(2019)
(18)VoteNet(QI et al.)(2019)

(19)LaserNet++(Mayer et al .)(2019)

(20)PV-RCNN(Shi et al )(2019)

(21)OHS(Chen et al.)(2019)

(22)ImVoteNet(Qi et al.)(2020)

(23)SA-SSD(He et al.)(2020)

1.2基于体素的方法

SECOND,PointPillar,Part-A^2

1.3基于mesh的方法

二、多模态融合的方法

(1)3DMV(Dai and NieBner)(2018)
(2)UPB(Chiang et al.)(2018)
(3)MVPNet(Jaritz et al.)(2019)

Frustum-based Mthods

(1)F-PointNets(QI et al )(2018)
(2)PointFusion(XU et al.)(2018)
(3)RoarNet(Shin et al.)(2018)
(4)SIFRNet(Zhao et al.)(2019)
(5)F-ConvNet(Wang et al.)(2019)
(6)Patch Refinement(Zhao et al )(2019)

2.1紧耦合

voxel-based
(1)CD-CVF( Yoo et al 韩国)（2020）

将雷达的点云体素化后，通卷积层进行预处理，生成在BEV下的特征地图，然后对多视角（构成闭合环形）的image进行FPN（CNN的一种网络）进行预处理，生成特征地图，然后用auto-calibrated
feature projection将多幅图进行融合，生成BEV下的feature，再利用adaptive gated fusion
network来融合雷达和image预处理后的BEV图，再进行正常的RPN。

point-based
(1) PI-RCNN(Xie et al)(2019)

point分支和image分支分别做3D目标检测任务和语义分割任务，然后对每个点搜寻K临近点，对这些点结合相机的内外参反向投入二维的语义地图中，得出这几个点对应二维中的像素的语义特征，然后将这几个点的几何特征和语义特征进行联合积分，得到联合特征；最后将几何特征，语义特征，联合特征进行拼接，更新该点的特征，从而完成二次优化的任务，实现点云数据和RGB数据的融合。

(2)PointPainting(cvpr2020)

该工作的fusion方式是采用二维语义分割信息通过lidar信息和image信息的变换矩阵融合到点上，再采用baseline物体检测；可以理解为对于语义分割出的物体多了一些信息作为引导，得到更好的检测精度。和上面的pi-rcnn的不同之处是该融合是一个串联的网络结构，将语义分割后的特征和原始点云一起送入深度学习网络中.

2.2松耦合

（1）CLOCs

该网络经历了三个主要的阶段（1）2D和3D的目标检测器分别提出proposals（2）将两种模态的proposals编码成稀疏张量（3）对于非空的元素采用二维卷积做对应的特征融合。