学科前沿大作业：三维点云深度学习

三维点云深度学习

摘要：随着3D摄像机的不断发展，以及计算机视觉、自动驾驶等技术的日趋完善，对三维数据的应用越来越迫切。近些年深度学习蓬勃发展，基于3D点云的研究越来越多。点云作为一种能够丰富地表达出三维物体的几何空间信息，拥有巨大的研究价值。本文将介绍基于三维点云的物体识别，语义分割、实例分割的深度学习方法，以及当前所面临的问题和未来可能的发展方向。
关键词：点云；深度学习；计算机视觉

三维点云作为一种可以准确描述复杂物体的位置、形状、大小的数据，基于其存储简单，描述能力强，处理简单的特点，被广泛的应用在机器人、计算机视觉、自动驾驶等领域。深度学习近些在年人工智能领域大放异彩，百家争鸣。目前深度学习在二维图像的应用方面已经获得了令人瞩目的成绩。随着3D相机的发展和一些重要3D数据集的出现，进一步推动了将深度学习在三维空间中的研究热潮，越来越多的方法被应用在三维空间的各种任务中。但由于三维空间表达的复杂性，导致深度学习在三维应用中仍然面临着诸多挑战。本文将针对深度学习在三维点云物体识别[1]，语义分割，实例分割[2]等任务上展开讨论，分析点云在各种任务场景中的一些最新研究和未来发展的方向。

1 基于三维点云的物体识别
1.1 特征提取
特征提取主要是为了从三维点云数据中挖掘出对目标任务相关的特征，相同类别的不同样本之间的特征值的差异性较小，而不同类别的样本之间的特征值的差异性较大。常见的分类方法有以下四类：（1）以点云块为单位的，按人为规定的块形状进行划分的方法；（2）以单个点为单位的基于点云邻域的某种特征划分的方法。如Shen Y等[3]提出的利用点云的邻域信息构造K最近邻图进行核相关构造特征。（3）以单个物体为单位的，基于聚类的方法。如佟国峰等人[4]于2018年提出的基于密度的聚类算法对点云数据进行分割。（4）利用神经网络的特征提取方法。如利用CNN网络、卷积滤波器、多层感知器等方法，其中比较出名的方法有PointNet[5]和PointNet++[6]算法。
1.2 特征选择
提取出的三维点云的特征可能存在大量的与目标任务相关性较低的特征，如何在众多的特征中，选择出最有利用价值的特征是特征提取的主要任务。特征选择主要解决位维数灾难、噪声影响、过拟合的问题。其主要方法可以分为三类：（1）主成分分析方法。主成分分析方法主要是将n维的特征使用一系列方法映射成k维相互正交的特征。如张蕊等[7]于2014年所做的对点云坐标进行的主成分分析。（2）基于集成的方法，其又可以分为基于Boosting的方法[8]和基于Bagging的方法[9]两类。（3）基于神经网络的方法。神经网络的方法主要是通过没有人为干预而借助于神经元之间的连接权重和阈值的学习将特征进行抽象来进行特征的提取和选择。PointNet[5]和PointNet++[6]就是很好的实例。
1.3 特征识别
三维点云的特征识别主要是为了将特征进行分类，赋予点云块所代表的物体预测的标签类别。深度学习中主要是用来特征的提取，而特征的分类一般都是交由最后的全连接网络来处理，最后经过Softmax输出预测类别的分数。

2 基于三维点云的语义分割
2.1 语义分割的直接方法
三维点云的语义分割是将不同类别的三维物体进行识别，并给出不同的类别标记。点云语义分割的直接方法还可分为（1）基于多层感知机的方法，如Jiang等人[10]提出的基于尺度不变转换算法、Francis等人[11]提出的利用K-means聚类算法和k-NN算法等。（2）基于卷积的方法，如Li等人[12]提出的PointCNN，Hua等人[13]提出的点级别的卷积算子、Hughes等人[14]提出的基于点云的扩张卷积网络结构等。（3）基于递归神经网络的方法，如Liu等人[15]提出的可以应用于大规模点云的高效语义解析网络。（4）基于图的方法，如Kang等人[16]提出的基于图嵌入模块和金字塔式注意力网络模块。
2.2 基于体素的方法
三维点云基于体素的语义分割方法主要是先将点云数据转换为体素数据，在根据得到的体素数据进行语义分割。用体素信息来表示三维物体可以很好地保留三维物体的邻域信息，并且可以参考二维的卷积操作来实现对体素的卷积操作，提高处理的精度。但是基于体素的方法存在以下三个弊端（1）从点云转化为体素的过程中不可避免的造成信息丢失；（2）基于体素的方法通常时间复杂度和空间复杂度都比较高；（3）选择合适的体素分辨率对于某一个特定的具体任务是比较困难的。
2.3 基于多视图的方法
三维点云基于多视图的语义分割方法主要是先将点云三维对象从多个不同的角度进行渲染，生成多张二维的视图，再利用深度学习方法对生成的二维视图进行语义分割任务。由此基于多视图的点云语义分割方法可以不直接对复杂的三维数据进行卷积操作，而是使用已经相对成熟的二维卷积操作进行处理，充分利用已有的二维卷积网络发展的优势，不用设计复杂的网络架构。此种方法存在以下两个弊端：（1）网络的性能对视图的角度和遮挡很敏感。（2）在进行点云和视图之间的转换时，不可避免的造成信息丢失。
2.4 基于混合表示的方法
三维点云基于多混合表示的语义分割方法主要是结合以上几种不同的方法，共同处理三维数据，可以充分利用各种方法的优势，取长补短，获取最佳的分割精度。

3 基于三维点云的实例分割
实力分割任务要比语义分割任务更加艰难，实力分割不仅要识别出不同语义的3D对象，还要识别出相同语义下不同实例的3D对象。实力分割通常为语义分割的后续任务。
3.1 基于候选区域的方法
三维点云基于候选区域的实力分割方法分成两步来完成实力分割任务，首先先获取场景中感兴趣的区域给出候选框，再从候选框中进行实例的预测。这种方法实现简单直接，但由于其需要两步骤来实现分割任务，所以需要去掉一些第一阶段预测错误的候选区域，通常时间复杂度和空间复杂度相对较高，对硬件的要求也较高。
3.2 免候选区域的方法
三维点云免候选区域的实力分割方法不需要分成两步来进行实例分割，直接通过点云特征或者结合语义信息给出实例对象。其中一种思想是首先使用卷积网络如PointNet来提取点的特征信息，然后再将特征相近的点聚合成实例对象，如王薇月等[17]提出的SGPN网络。另外一种思想是将语义分割和实力分割耦合成一个任务进行处理。如文献[18]中提出的ASIS网络。免候选区的实力分割方法比基于候选区的实力分割方法需要更少的计算资源，但是分类精度比较低。

4 总结
三维点云在自动驾驶和机器人等领域是一种重要的数据类型，比二维图像数据能够更好地保留物体的几何关系，在面对遮挡方面拥有得天独厚的优势，但是点云中没有保存点与点之间的相互关系信息，且点云数据量一般很大，因此在点云的处理方面仍然存在着很多挑战。本文针对点云的各种任务方法的研究后发现在以下两个方面应该在未来进行深入探索：
（1）点云数据的无序性。由于点云数据中点与点之间的关系信息难以表达，因此需要设计更加复杂的模型对其进行处理，算法的时间复杂度和空间复杂度，以及对硬件的要求都很高。未来的研究可以针对点云数据的特点，设计出更加快速准确的网络模型解决各种任务。
（2）目前针对点云的网络都是基于小规模的点云数据，但是一般情况下我们得到的点云都是规模庞大且信息丰富的，因此在未来的研究用有必要研究对更有效处理大规模点云数据的网络。

参考文献:
[1]解则晓, 李美慧. 机器学习在基于点云的三维物体识别领域的研究综述[J]. 中国海洋大学学报(自然科学版), 2021, 51(06): 125-130.
[2]顾军华, 李炜, 董永峰. 基于点云数据的分割方法综述[J]. 燕山大学学报, 2020, 44(02): 125-137.
[3]Shen Y, Feng C, Yang Y, et al. Mining point cloud local structures by kernel correlation and graph pooling[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2018: 4548-4557.
[4]佟国峰, 杜宪策, 李勇, 陈槐嵘, 张庆春. 基于切片采样和质心距直方图特征的室外大场景三维点云分类[J]. 中国激光, 2018, 45(10): 156-164.
[5]Qi C R, Su H, Mo K, et al. Pointnet: Deep learning on point sets for 3D classification and segmentation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2017: 652-660.
[6]Qi C R, Yi L, Su H, et al. PointNet++: Deep hierarchical jeature learning on point sets in a metric space[J]. Advances in Neural Information Processing Systems, 2017, 30.
[7]张蕊, 李广云, 李明磊, 王石岩. 利用PCA-BP算法进行激光点云分类方法研究[J]. 测绘通报, 2014(07): 23-26.
[8]Schapire R E. The strength of weak learnability[J]. Machine Learning, 1990, 5(2): 197-227.
[9]Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123-140.
[10]Jiang M, Wu Y, Zhao T, et al. Pointsift: A sift-like network module for 3d point cloud semantic segmentation[J]. ArXiv Peprint ArXiv: 1807.00652, 2018.
[11]Engelmann F, Kontogianni T, Schult J, et al. Know what your neighbors do: 3D semantic segmentation of point clouds[C]. Proceedings of the European Conference on Computer Vision Workshops. 2018: 0-0.
[12]Li Y, Bu R, Sun M, et al. Pointcnn: Convolution on x-transformed points[J]. Advances in Neural Information Processing Systems, 2018, 31: 820-830.
[13]Hua B S, Tran M K,Yeung S K. Pointwise convolutional neural networks[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2018: 984-993.
[14]Thomas H, Qi C R, Deschaud J E, et al. Kpconv: Flexible and deformable convolution for point clouds[C]. Proceedings of the IEEE International Conference on Computer Vision. 2019: 6411-6420.
[15]Liu F, Li S, Zhang L, et al. 3DCNN-DQN-RNN: A deep reinforcement learning framework for semantic parsing of large-scale 3D point clouds[C]. Proceedings of the IEEE International Conference on Computer Vision. 2017: 5678-5687.
[16]Zhiheng K, Ning L. PyramNet: Point cloud pyramid attention network and graph embedding module for classification and segmentation[J]. ArXiv Preprint ArXiv: 1906.03299, 2019.
[17]Wang W, Yu R, Huang Q, et al. Sgpn: Similarity group proposal network for 3d point cloud instance segmentation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2018: 2569-2578.
[18]Wang X, Liu S, Shen X, et al. Associatively segmenting instances and semantics in point clouds[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2019: 4096-4105.

学科前沿大作业：三维点云深度学习

三维点云深度学习

猜你喜欢