【2018ICRA】Robotic Pick-and-Place of Novel Objects in Clutter：杂乱场景下未知物体的抓取

本文同步于微信公众号：3D视觉前沿，欢迎大家关注。

在这里插入图片描述
这篇文章发表于2018年的ICRA会议，作者分别为Princeton和MIT团队的相关学者，论文有对应的项目网址。

1. 总评

当前主流进行抓取，首先需要recognize目标物体，之后估计6Dpose，再进行抓取。而这篇文章提出了一个“grasp-first-then-recognize”的框架，不先进行识别，而是直接从一堆物体中先抓取某个物体，之后再判断他的类别。这样有两点好处：主动地从一堆物体中将物体物理分隔，之后的物体识别可以看成一个图像分类问题，降低了问题的难度；可以扩展到未知物体，需要的可能只是几张物体的图像。

2. 方法综述

这篇论文提出了一个机器人pick-and-place的系统，如图1所示，能够抓取和识别杂乱场景中已知(Known)和未知(Novel)的物体。系统的关键在于能够不需要任何针对未知物体的任务导向的训练集，也能够处理一大范围类别的物体。在训练阶段提供已知物体，包含物理的物体以及代表性的商品图像（来自网络），未知的物体只在测试阶段提供，包括代表性的商品图像；
图片描述
图1：论文的抓取系统能够对装满物体的桶中估计逐像素位置的可抓取可能性，如(a)所示；抓取一个毛巾后，通过将此时观测到的图像(b)和一些代表性的商品图像进行比对，确定物体的类别。方法能够识别未知的物体，而且不需要额外的数据收集或者再训练过程。

系统主要包含两大模块：
第一个是一个多支撑(multi-affordance)的抓取系统，使用了全卷积网络(FCNs)，输入对场景的视觉观测，输出一个稠密的网格图(和输入具有同样的大小和分辨率)，这个网格代表了从每个位置执行4个预置抓取动作后抓取成功的概率；机器人执行最大成功抓取概率的抓取动作。这种抓取网络不需要任何先验的物体分割和分类，因此是和物体类别无关的。

第二个是一个跨域的图像匹配框架，可以通过将待抓取物体的观测图像，与许多商品图像进行匹配，识别抓取的物体；这里使用的是一个双流(two-stream)卷积网络结构；这个框架能够处理未知物体，而不需要额外的再训练。尽管物体识别算法只在已知物体上进行了训练，但他能够识别未知物体。
这两个模块紧密结合共同实现杂乱环境中未知物体鲁棒的抓取。

3. 硬件设计

使用了一个6DoF的ABB机械臂，末端是一个多功能的抓取器，包含一个两指的平行抓手和一个可伸缩的吸盘；使用了4个Sr300 深度相机，顶上两个相机拍摄装物体的bin，下面两个拍摄抓起来的物体；
在这里插入图片描述
图2：系统包括四个单元(上部)，每一个单元包括一个桶和4个固定的相机，上面两个拍摄桶中物体的全景来推断抓取的可能性，下面两个用来拍摄抓起来的物体。

图3：多功能的抓手，具有可伸缩的机制，方便自动再吸取和抓取之间切换。

在这里插入图片描述
图4：多个预置抓取动作，包括向下吸取，从侧面吸取，向下抓取，滑动抓取。

4. 使用全卷积网络学习进行某种动作的可能性

整体框架如图5所示：
在这里插入图片描述

4.1 推断吸取的可能性：

定义吸取候选：a.吸取点，也即末端吸盘与物体表面的接触点，b.对应3D点的局部面法向量，c.可能性值；好的吸取点应该位于可吸取的表面上，并且和物体的质量重心接近。作者训练了一个全卷积残差网络(ResNet-101)，输入一个640*480的RGB-D图像，输出一个稠密地带标签的逐像素的图，每一个像素对应一个0到1之间的可能性；值越接近1越好；之后，将深度图lift到3D，计算3D点周围平面的的法向量，进行辅助筛选最终的suction point。

4.2 推断抓取的可能性：

定义抓取候选：a.中心3D点，也即平行抓手两指的中心点，b.水平面内的旋转角，c.抓取时两指的宽度，d.可能性值；作者首先将两个RGB-D数据进行融合并处理，得到RGB-Height，作为网络输入，使用类似吸取的网络结构，得到每个像素对应的一个0到1之间的可能性；不同之处在于将输入的RGB-H图像旋转了16个角度；最后根据3D点云确定最终的抓取位置和动作。

5. 识别未知物体

将物体单独抓取出来之后，需要进行识别，作者采用的方法是在一堆商品图像中检索，得到最相似图像。由于商品图像和观测图像存在差异，因此算法需要找到不同图像之间的语义对应，这里作者简单称作跨域的图像匹配问题(a cross-domain image matching problem)。通过学习一个度量函数，能够输入观测图像和商品图像，得到他们之间的距离，衡量属于同一个物体的相似度。这个度量函数能够将观测图像和商品图像映射到一个有意义的特征嵌入空间，在空间内比较L2距离，距离越小相似度越高；这里作者为了避免由于训练物体类别过少出现过拟合的问题，作者使用了在ImageNet上与训练的模型进行商品图像的特征提取，并且只训练观测图像的特征提取。
在这里插入图片描述
图6：针对未知物体的识别过程。作者训练了一个two-stream卷积神经网络，one stream针对商品图像计算2048维的特征向量，one stream针对观测图像计算2048维特征向量，并且进行优化，保证同一类物体的特征更相似，不同类物体的特征更加不相似。在使用时，将商品图像和观测图像都映射到一个共同的特征空间，在该空间寻找最近邻的匹配。

6. 实验：

6.1 评价标准：

判断推断的候选位置相对于人工标注位置的精度。对于吸取，如果一个候选的中心像素位于手动标记的一个吸取区域，则该候选是true positive。对于抓取，如果一个候选的中心像素距离一个positive grasp label在4像素以内并且角度在11.25度以内，则该候选是true positive。实验结果在表1中给出，吸取和抓取top-1候选的精度都在90%以上。速度在表2中给出，使用TitanX和Intel Core i7-3770K CPU。
在这里插入图片描述

针对未知物体，使用10个已知物体和10个未知物体混合的情况，实验结果在表3中给出，比较top-1最近邻商品图像类别的正确度。

7. 总结

7.1 优势：

由于产品图像针对一大范围类别物体时随时可获得的(通过网络)，因此系统能够处理未知物体，且不需要任何额外的数据收集或者再训练过程；
详尽的实验展示了算法在一大类物体范围上达到了很高的成功率，并且在已知和未知抓取物体上也得到了很高的识别精度；
这项工作属于MIT-Princeton组的一部分工作，取得了2017年Amazon Robotics Challenge在存放(stowing)任务上第一名的成绩，并且是唯一一个成功存放所有已知和未知物体的系统。

7.2 缺陷：

必须能够被文中4种预置动作抓起来，才能够进行后续的识别，而这四种动作在很多情况下是不够的；
不适用一些场景，这些场景需要抓取指定的商品。

7.3 拓展：

可以不使用整体图像信息，使用二维码等（该论文的3作作为XYZ Robotics的CTO，主要研发的工业物流中的抓取机器人，核心技术应该与该论文近似，先通过抓取物体，再识别商品的二维码等）。

本文中所有图片均引自改论文。本解读只讲述核心观点，如需深入了解，可阅读原始论文。如有问题，请随时交流，如有错误，请随时指正。