第一部分：论文的学习的全部理解

关键字：多视觉的物体6D姿态估计、自监督训练网络、自动标记采集、标记数据、ICP算法

摘要：机器人仓库自动化近年来引起了人们的极大兴趣，也许最引人注目的是亚马逊采摘挑战赛（APC）。完全自主的仓库取放系统需要强大的视野，可以在杂乱的环境，自我遮挡，传感器噪声和各种物体中可靠地识别和定位物体。在本文中，我们提出了一种利用多视图RGB-D数据和自我监督的数据驱动学习来克服这些困难的方法。该方法中，我们使用完全卷积神经网络对场景的多个视图进行分段和标记，然后将预先扫描的3D对象模型拟合到生成的分割以获得6D对象姿势。训练深度神经网络进行分割通常需要大量的训练数据。我们提出了一种自我监督的方法来生成大的标记数据集，而无需繁琐的手动分割。

6D物体的姿态估计包括：

1 物体分割的全卷积网络：多视角物体分割和减少点云噪声以及通过RGB-D数据来判断相同物体

2 3D模型的匹配：采用ICP算法。更好的进行进行3D模型的配准

3 对于数据丢失的物体的处理数据：针对于那些凸和软壳的物体数据可能有丢失通过估计物体的重心和估计物体的姿态。

自监督训练网络包括：

1获取数据收集方法：通过将单个物体防治框中，然后再多此移动相机的进而获取数据

2自动的数据标签的制作：不太懂怎么就自动的在进行标记数据了

3训练的神经网络：由于这个光照和物体视角的偏差所以训练了两个网络。一个是基于货架箱，一个是基于篮筐的

实验过程：

实验的全部代码：http://apc.cs.princeton.edu/

评价体系

（1）方面是通过在不同输入模态和训练数据集下如何进行分割（2）完整视觉系统如何执行

1采集的数据方面：这些数据反映了仓库环境中的各种挑战：反射材料，光照条件的变化，局部视图以及杂乱环境中的传感器限制（噪声和缺失深度）。

2 评价物体分割方面：1使用一个 F-scores(F=2*(precision*recall)/precision+cecall) 评价标准。2使用此编码训练的AlexNet，RGB数据上的VGG以及表I中连接的两个网络。发现添加深度不会在分割性能方面产生任何显着的改进，这可能部分是由于深度信息的噪声 3数据集的大小：通过随机抽样1％和10％的原始数据来创建两个新的数据集，并使用它们来训练两个VGG FCN（表I）。我们确认所有基准类别的F分数显着改善，从1％到10％到100％的训练数据。

3物体姿态估计方面：1 我们报告对象姿势预测的百分比，其方向误差小于15°，偏移距离百分比小于5cm 2多视图信息（不理解） 3 去噪声 4 ICP算法的改进 5 效果的极限

4 常见的错误匹配模式：1 对于在严重遮挡或杂乱下的对象的FCN分割可能是不完整的，导致不良的姿势估计 2对象颜色纹理彼此混淆3长方体物体的模型拟合经常混淆角对齐

存在提升和改进的地方：

尽管计算机视觉取得了巨大进步，但许多最先进的众所周知的方法通常不足以应对相对常见的情况。我们在这里描述了两个可以改善实际系统的观察结果：1充分利用每一个约束条件。外部约束限制了系统可以做什么。间接地，它们还限制了系统可以处于的状态集，这可以导致感知系统中的简化和鲁棒性的机会。在拣货任务中，每个团队都收到了物品清单，货箱分配和货架模型。所有团队都使用仓分配来排除考虑对象和货架模型以校准他们的机器人。这些优化非常简单且有用。但是，进一步调查会产生更多机会。通过使用这些相同的约束，我们构建了一个自我监督机制来训练具有更多数据的深度神经网络。正如我们的评估所示，培训数据量与绩效密切相关。2手拉手设计机器人和视觉系统。视觉算法经常被孤立地设计。然而，视觉是具有需求和机遇的更大机器人系统的一个组成部分。典型的计算机视觉算法在单个图像上操作以进行分割和识别机器人手臂使我们摆脱了这种限制，使我们能够精确地融合多个视图并提高杂乱环境中的性能。计算机视觉系统也倾向于具有固定输出（例如，边界框或2D分割图），但是具有多种操纵策略的机器人系统可受益于输出的多样性。例如，吸盘和夹具可能具有不同的感知要求。虽然前者可能更加稳健地使用分段点云，但后者通常需要对象姿势和几何的知识。

第二部分概念的理解：

2D bounding boxes：用来标记图像中的敏感区域的部分

python算法实现代码：

def function():

image = cv2.imread('E:/PythonCode/学校.jpg')

cv2.rectangle(image, (300, 300), (300 + 720, 300 + 420), (0, 0, 10))

cv2.imshow('original', image)

cv2.waitKey(10000)

RGB images /RGB相机原理:

深度图像 = 普通的RGB三通道彩色图像 + Depth Map

在3D计算机图形中，Depth Map（深度图）是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中，Depth Map 类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准(这里涉及到时相机的标定)的，因而像素点之间具有一对一的对应关系

图像深度：是指存储每个像素所用的位数，也用于量度图像的色彩分辨率。

图像深度确定彩色图像的每个像素可能有的颜色数，或者确定灰度图像的每个像素可能有的灰度级数。它决定了彩色图像中可出现的最多颜色数，或灰度图像中的最大灰度等级。比如一幅单色图像,若每个像素有8位，则最大灰度数目为2的8次方，即256。一幅彩色图像RGB三通道的像素位数分别为4,4,2，则最大颜色数目为2的4+4+2次方，即1024，就是说像素的深度为10位，每个像素可以是1024种颜色中的一种。

例如：
一幅画的尺寸是1024*768，深度为16，则它的数据量为1.5M。

计算如下：
1024×768×16 bit = (1024×768×16)/8 Byte = [(1024×768×16)/8]/1024 KB = 1536 KB = 1.5 MB

参考文章：https://blog.csdn.net/jningwei/article/details/73609127

ICP算法

图像配准是图像处理研究领域中的一个典型问题和技术难点，其目的在于比较或融合针对同一对象在不同条件下获取的图像，例如图像会来自不同的采集设备，取自不同的时间，不同的拍摄视角等等，有时也需要用到针对不同对象的图像配准问题。具体地说，对于一组图像数据集中的两幅图像，通过寻找一种空间变换把一幅图像映射到另一幅图像，使得两图中对应于空间同一位置的点一一对应起来，从而达到信息融合的目的。一个经典的应用是场景的重建，比如说一张茶几上摆了很多杯具，用深度摄像机进行场景的扫描，通常不可能通过一次采集就将场景中的物体全部扫描完成，只能是获取场景不同角度的点云，然后将这些点云融合在一起，获得一个完整的场景。

ICP算法是一种点集对点集配准方法。如下图所示，PR（红色点云）和RB（蓝色点云）是两个点集，该算法就是计算怎么把PB平移旋转，使PB和PR尽量重叠。

用数学语言描述如下，即ICP算法的实质是基于最小二乘法的最优匹配，它重复进行“确定对应关系的点集→计算最优刚体变换”的过程，直到某个表示正确匹配的收敛准则得到满足。

参考文章：https://www.cnblogs.com/21207-iHome/p/6038853.html

思路：

参考文章：https://blog.csdn.net/eric_e/article/details/80908162

自监督训练网络：

首先理解什么是监督学习？判断是否是监督学习，就看输入数据是否有标签。输入数据有标签，则为有监督学习，没标签则为无监督学习。

分类算法就是一种监督学习。对于分类，输入的训练数据有特征，有标签。所谓的学习，其本质就是找到特征和标签间的关系。也就是找规律。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签，即根据新数据进行预测。在上述的分类过程中，如果所有训练数据都有标签，则为有监督学习（supervised learning）。如果数据没有标签，显然就是无监督学习（unsupervised learning），即聚类（clustering）。

参考文章：https://blog.csdn.net/jiangjunshow/article/details/77373847

大规模带标注的数据集的出现是深度学习在计算机视觉领域取得巨大成功的关键因素之一。然而，监督式学习存在一个主要问题：过于依赖大规模数据集，而数据集的收集和手动数据标注需要耗费大量的人力成本。作为替代方案，自监督学习旨在通过设计辅助任务来学习可区别性的视觉特征，如此，目标标签就能够自由获取。这些标签能够直接从训练数据或图像中获得，并为计算机视觉模型的训练提供监督信息，这与监督式学习的原理是相同的。但是不同于监督式学习的是，自监督学习方法通过挖掘数据的性质，从中学习并生成视觉特征的语义标签信息。还有一类方法是弱监督学习，这种学习方式能够利用低水平的注释信息来解决更复杂的计算机视觉任务，如利用自然场景下每张图像的类别标签进行目标检测任务。

参考文章：http://www.elecfans.com/d/719628.html

第一部分单词的意思理解：

robust 健的；健康的；粗野的；粗鲁的

practical 实际的；实用性的

bin 容器箱子

clutter /'klʌtə/n. 杂乱，混乱

affordancen. 功能可见性；自解释性；给养

primitive n. 原始人adj. 原始的，远古的；简单的，粗糙的

coverage n. 覆盖，覆盖范围

visibly adv. 明显地；显然；看得见地

self-supervised 自监督、指导 adj. 有监督的

segmentn. 段；部分vt. 分割vi. 分割

tedious adj. 沉闷的；冗长乏味的

manual n. 手册，指南adj. 手工的；体力的

collaboration n. 合作；勾结；通敌

shelf n. 架子；搁板；搁板状物；暗礁

stowing n. 积载；填充；堆装v. 堆装；贮藏（stow的ing形式）

validate vt. 证实，验证；确认；使生效

scenarios n. 情节；脚本；情景介绍（scenario的复数）

validate vt. 证实，验证；确认；使生效

constraints n. [数] 约束；限制；约束条件（constraint的复数形式）

scenarios n. 情节；脚本；情景介绍（scenario的复数）

pixel n. （显示器或电视机图象的）像素（等于picture element）

segmentation 分割，分裂

histogram n. [统计] 直方图；柱状图

backprojection幕后投影，背景放映

iterativeadj. [数] 迭代的；重复的，反复的

compactly adv. 简洁地；紧密地；细密地

controllabilityn. [自] 可控性；可控制性

kinematic adj. [力] 运动学上的，[力] 运动学的

aligns、使结盟、排列（aligh的第三人称单数形式）

aligns、使结盟

multiple n. 倍数；[电] 并联、adj. 多重的；多样的；许多的

filtering v. [化工] 过滤，滤除（filter的ing形式）

threshold n. 入口；门槛；开始；极限；临界值

deviations、n. 差异，偏差（deviation复数）

spatial、adj. 空间的；存在于空间的；受空间条件限制的

boundaries、n. 边界，界线（boundary的复数形式）；界限

duplicates、n. 副本，[印刷] 复制品（duplicate的复数形式）；多重记录；倍增、复制（duplicate的三单形式）

inventory n. 存货，存货清单；详细目录；财产清册

clustering n. 聚集，收集；分类归并v. 使成群（cluster的现在分词）

perpendicular n. 垂线；垂直的位置 adj. 垂直的，正交的；直立的；陡峭的

spectrum n. 光谱；频谱；范围；余象

distributionsn. 分派；分派；分销（distribution的复数形式）

sensitive adj. 敏感的；感觉的；[仪] 灵敏的；感光的；易受伤害的；易受影响的 n. 敏感的人；有灵异能力的人

coarse adj. 粗糙的；粗俗的；

subset 子集和

parameters n. "参数, 参量; 界限; 因素, 特征; 决定功能形式的变数

misalignment n. 不重合；未对准

convert vt. 使转变；转换…；使…改变信仰 vi. 转变，变换；皈依；改变信仰

reusable adj. 可以再度使用的，可重复使用的

stowng 充填

论文2016年《6D位姿估计的多视点自监督深度学习》在亚马逊挑选的挑战——学习笔记二

第一部分：论文的学习的全部理解

6D物体的姿态估计包括：

自监督训练网络包括：

实验过程：

评价体系

存在提升和改进的地方：

第二部分概念的理解：

第一部分单词的意思理解：

猜你喜欢

论文2016年《6D位姿估计的多视点自监督深度学习》 在亚马逊挑选的挑战——学习笔记二

第一部分：论文的学习的全部理解

6D物体的姿态估计包括：

自监督训练网络包括：

实验过程：

评价体系

存在提升和改进的地方：

第二部分概念的理解：

第一部分单词的意思理解：

猜你喜欢

论文2016年《6D位姿估计的多视点自监督深度学习》在亚马逊挑选的挑战——学习笔记二