PointNet论文学习

PointNet论文学习

简介

Pointnet将深度学习应用到了点云的分类和分割问题。
传统的卷积结构需要高度规律的数据格式,比如说图像栅格(image grids),3D栅格(3D Voxel),以便实现权重共享和其他的优化操作。
由于点云和mesh并不规律,传统的做法是将这些数据转换成规律的3D voxel网络或者图像集合,然后送入网络。

点云是简单而且统一的结构,它避免了mesh的不规律性和复杂性,因此变得简单可学。
在这里插入图片描述
但是,点云只是一堆点的集合。在网络计算中不变的排列顺序,固定的对称性和刚体移动也需要考虑在内。
论文中运用了max pooling方法提取点云数据特征
通过concat操作融合不同尺度特征(这里可以参考U-Net和其他网络)
通过对点云数据进行对齐保证其空间的不变性

主要贡献

1. 设计了一个深度网络处理3D点云数据集
2. 实现了3D的语义分割和分类问题
3. 对本方法进行了经验上和理论上的证明

相关工作

点云特征(Point Cloud Features)
3D数据的深度学习
无序点集的深度学习

点集属性

1. 无序的:与图像中的像素和3D栅格不同,点云是一系列无序的点的集合。
2. 点之间相互联系的:每个点对应一个距离,形成一个距离矩阵。这意味着每个点不是孤立的,因此,模型需要从相邻点捕捉到局部信息和他们之间的联系。
3. 具有变换不变性:作为一个立体对象,特征学习要具有变换不变性。比如说,刚体的旋转不应该改变物体的分割和分类效果。

PointNet 网络结构

在这里插入图片描述
分类网络以n个点作为输入,3代表(x,y,z),应用特征变换 ‘T-Net’ 来对齐数据,通过mlp对点云数据进行特征提取后,在特征的不同维度上用max pooling融合点云特征得到全局特征。输出为k个分类,语义分割网络作为一个分类网络的拓展,他concat局部和全局特征并输出每个点的score,“mlp”代表多层感知器(multi-layer perception),一般采用全连接层。对于分类任务,将全局特征通过mlp来预测最后分数,括号中的数值代表层的大小。Batchnorm用于所有ReLu层后。Dropout层用于分类网络最后一个mlp后。
在这里插入图片描述
为了使一个模型具有变换不变性,有三种方法:
1.将输入排序到规范形式,但是在高维空间并不存在固定的范式。
2.将输入看做序列,训练RNN并对数据进行各种扩增,但是RNN作者表示顺序会有一定影响不能完全被忽略。并且大量的点云数据对RNN训练是非常costly的。
3.用一个简单对称函数融合各个点的信息

作者这里用的是T-Net结构,也就是第三个方法

应用

1. 3D物体分类
2. 3D物体分割

在这里插入图片描述
在这里插入图片描述

发布了85 篇原创文章 · 获赞 17 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/lun55423/article/details/105388025