刚体6D姿态估计方法综述

本文链接： https://blog.csdn.net/dsoftware/article/details/97955570

1 问题描述

对于一个刚体，已有单个视角下的RGB-D数据，恢复相机坐标系下物体的6D位姿，即3D位置和3D姿态；

2 问题解析

这类问题通常需要已知物体的3D模型（点云或网格，纹理情况视方法而定），直观思路是寻找到单个视角下数据和已有3D模型直接的映射，根据物体表面的纹理情况，可以基于RGB图像，也可以基于Depth图像，也可以两者混合；此外，当物体有遮挡呢？可以采用局部投票的方法；当没有物体3D模型呢？可以采用基于回归的方法；

3 问题分类

可以将刚体6D姿态估计的方法分为以下四大类 [2018-Learning to predict], 分别为Correspondence-based method, Template-based method, Voting-based method 和 Regression-based method；

姿态估计方法	已知信息	核心思路	代表方法	适用场景
基于2D-3D对应的方法	3D模型3D点与以及投影后的带纹理图像	将3D模型投影得到RGB模板图像，根据特征点如Sift等的带匹配点对，再使用PnP算法；（类似vSLAM重定位）	SIFT，SURF,ORB等	纹理丰富
基于3D-3D对应的方法	3D模型的3D点云数据	将Depth图像对应3D点云配准到完整3D模型；可使用RANSAC方法或基于3D描述符方法粗配准，再使用ICP细配准；	Super 4PCS, SpinImages, FPFH, SHOT等3D特征描述符, ICP	无纹理
基于模板的方法	3D模型的3D点云数据，以及投影后的RGB图像和Depth图像	提取2D模板图像轮廓的梯度(可结合深度图法向)，和当前图像轮廓的梯度(可结合Depth图像的法向)进行匹配，得到最相近模板，以模板位姿作为粗位姿；可结合ICP细配准；	LINEMOD, [2018-Implicit]	纹理不丰富
基于投票的方法	3D模型的3D点云数据	在局部建立坐标系，每一个局部都能预测一个到3D模型的变换；大量的局部能够预测出很多变换，最后使用RANSAC寻找最优的变换；	PPF, Object Coordinate, DenseFusion, PVNnet等	无纹理
基于回归的方法	3D模型的3D点云数据或者投影到N个角度的图像（对应位姿）	寻找位姿和图像之间的内在联系；将位姿用不同形式表示，使其适用于CNN网络的输出；可分为直接回归6D位姿和先估计2d投影点再使用PnP间接恢复位姿；	PoseCNN,Deep6DPose,BB8,SSD-6D,等	无纹理

3.1 Correspondence-based method

这类方法针对纹理丰富的物体，是最常用的方法；该方法又可以分为两类：寻找已知模型3D点和观测RGB图像2D像素点之间的对应；寻找已知模型3D点和观测Depth图像3D点之间的对应；

3.1.1 3D-2D对应

3D模型首先投影到N个角度，得到N张模板RGB图像，记录3D点和2D像素之间的对应；采集单个视角下RGB图像后，提取特征点如 SIFT，SURF，ORB等，寻找和模板图像之间的对应 (2D-2D)；这样我们得到了3D点和当前观测RGB图像2D像素点的对应，使用Perspective-n-Point(PnP)算法即可恢复当前视角图像的位姿；（类似基于特征点vSLAM中的重定位过程）

3.1.2 3D-3D对应

观测的Depth图像可以结合内参转换为3D点云，需要和已有完整3D点云进行配准；当单视角观测点云和完整3D点云位姿偏差较大时，需要进行全局配准（粗配准）；当单视角观测点云和完整3D点云位姿很接近时，可以使用局部配准（细配准），如ICP等方法；全局配准方法主要分为2类，一类基于RANSAC类方法如Super 4PCS [2014-Super 4PCS]，随机选择3对或者4对点进行投票，选择最优的对应最为最终变换；一类是基于特征描述符的方法，在点云上分别提取显著性特征点，根据描述符如SpinImages，FPFH，SHOT等，寻找3D点之间的对应，确定变换；全局配准的结果可以用局部配准方法进行优化；

3.2 Template-based method

这类方法针对的是弱纹理或者无纹理图像，也即Correspondence-based method不能处理的情况；这类方法中，很难提取特征点，能利用的可以是RGB图像的梯度信息；完整3D模型也投影到N个角度，得到N张模板RGB图像，记录每张投影时对应的位姿；通过比较观测RGB图像和模板RGB图像的梯度信息，寻找到最相似模板图像，以该模板对应的位姿作为观测图像对应的位姿；该类方法的代表方法是LineMode方法 [2012-Model based]；

3.3 Voting-based method

这类方法主要针对的是具有遮挡的情况；依据是图像中的每一个局部都能够对整体的输出产生投票；代表性方法是基于Object coordinate的方法 [2014-Learning 6d object pose]，每一个Object coordinate都能预测一对3D-3D之间的变换，通过产生大量假设再refine得到最终结果；此外还有基于Hough forest的方法 [2014-Latent-class]，基于Point Pair Features (PPF) [2012-3d object detection] 的方法；此外，还有DenseFusion方法，分别对RGB图像和Depth对应3D点云使用3DCNN网络得到融合的pixel-wise dense feature，每一个feature都能预测一个姿态，最后通过投票得到最后的6D姿态；该方法是当前精度最高的算法；

3.4 Regression-based method

该类方法主要学习图像特征和6D位姿之间的联系；常用的方法为在基于深度学习进行目标检测的基础上，再回归出物体的6D位姿；常见的方法可以分为两类，一类直接回归出物体的6D姿态，包括PoseCNN [2017-Posecnn], Deep-6DPose [2018-Deep-6dpose]等；另一类方法预测关键3D点在2D图像上的投影位置，然后使用pnp方法恢复姿态，包括BB8 [2017-Bb8]，Tekin’18 [2018-Real-time], SSD6D [2017-Ssd-6d]等；

4 总结

以上方法中，Correspondence-based method精度高，是主流采用的方法，在进行机器人抓取时较为常用；弊端是需要3D物体精确的3D模型；Template-based method方法精度较为受限；Voting-based方法精度较高，然而运算速度慢；Regression-based method方法精度较高，扩展性好，但需要大量训练数据。

参考文献

2012-Model based training, detection and pose estimation of texture-less 3d objects in heavily cluttered scenes
2012-3d object detection and localization using multimodal point pair features
2014-Super 4PCS Fast Global Pointcloud Registration via Smart Indexing
2014-Learning 6d object pose estimation using 3d object coordinate
2014-Latent-class hough forests for 3d object detection and pose estimation
2017-Bb8: a scalable, accurate, robust to partial occlusion method for predicting the 3d poses of challenging objects without using depth
2017-Ssd-6d: Making rgb-based 3d detection and 6d pose estimation great again
2017-Posecnn: A convolutional neural network for 6d object pose estimation in cluttered scenes
2018-Deep-6dpose: recovering 6d object pose fromasinglergbimage
2018-Learning to predict dense correspondences for 6d pose estimation
2018-Real-time seamless single shot 6d object pose prediction
2018-Implicit 3D Orientation Learning for 6D Object Detection From RGB Images
2019-Densefusion: 6d object pose estimation by iterative dense fusion