PointNet论文学习

简介

Pointnet将深度学习应用到了点云的分类和分割问题。
传统的卷积结构需要高度规律的数据格式，比如说图像栅格（image grids），3D栅格（3D Voxel），以便实现权重共享和其他的优化操作。
由于点云和mesh并不规律，传统的做法是将这些数据转换成规律的3D voxel网络或者图像集合，然后送入网络。
点云是简单而且统一的结构，它避免了mesh的不规律性和复杂性，因此变得简单可学。
在这里插入图片描述
但是，点云只是一堆点的集合。在网络计算中不变的排列顺序，固定的对称性和刚体移动也需要考虑在内。
论文中运用了max pooling方法提取点云数据特征
通过concat操作融合不同尺度特征（这里可以参考U-Net和其他网络）
通过对点云数据进行对齐保证其空间的不变性

主要贡献

1. 设计了一个深度网络处理3D点云数据集
2. 实现了3D的语义分割和分类问题
3. 对本方法进行了经验上和理论上的证明

点集属性

1. 无序的：与图像中的像素和3D栅格不同，点云是一系列无序的点的集合。
2. 点之间相互联系的：每个点对应一个距离，形成一个距离矩阵。这意味着每个点不是孤立的，因此，模型需要从相邻点捕捉到局部信息和他们之间的联系。
3. 具有变换不变性：作为一个立体对象，特征学习要具有变换不变性。比如说，刚体的旋转不应该改变物体的分割和分类效果。

PointNet 网络结构

在这里插入图片描述
分类网络以n个点作为输入，3代表（x,y,z），应用特征变换 ‘T-Net’ 来对齐数据，通过mlp对点云数据进行特征提取后，在特征的不同维度上用max pooling融合点云特征得到全局特征。输出为k个分类，语义分割网络作为一个分类网络的拓展，他concat局部和全局特征并输出每个点的score，“mlp”代表多层感知器(multi-layer perception)，一般采用全连接层。对于分类任务，将全局特征通过mlp来预测最后分数，括号中的数值代表层的大小。Batchnorm用于所有ReLu层后。Dropout层用于分类网络最后一个mlp后。
在这里插入图片描述
为了使一个模型具有变换不变性，有三种方法：
1.将输入排序到规范形式，但是在高维空间并不存在固定的范式。
2.将输入看做序列，训练RNN并对数据进行各种扩增，但是RNN作者表示顺序会有一定影响不能完全被忽略。并且大量的点云数据对RNN训练是非常costly的。
3.用一个简单对称函数融合各个点的信息
作者这里用的是T-Net结构，也就是第三个方法