mask rcnn 论文翻译

我们提出了一个概念简单，灵活和一般对象实例分割框架。我们的方法同时有效地检测图像中的对象为每个实例生成高质量的分割掩码的。这种被称为“mask R-CNN”的方法扩展得更快R-CNN通过添加一个用于预测对象掩码的分支与现有的用于识别框的分支平行。mask R-CNN训练简单，只增加了一个小转到更快的R-CNN,5帧每秒。此外,mask R-CNN很容易推广到其他任务，例如，让我们在同样的框架下估计人类的姿势。我们在COCOsuite的所有三首歌中都展示了最高的搜索结果挑战，包括实例分割，边界-框对象检测，人和关键点检测。与------除了铃声和口哨，mask R-CNN胜过所有前-每个任务上的单模型条目，包括COCO 2016年挑战冠军。我们希望我们的简单和有效的方法将作为坚实的基础和帮助简化实例级识别的未来研究。代码已在:https://github.com/facebookresearch/Detectron。

1 介绍

视觉社区已经迅速改进了对象设计连接和语义分割结果在一个短pe-内的时间。在很大程度上，这些进步是被推动的通过强大的基线系统，如快速/更快的R-CNN[12,36]和完全卷积网络(FCN)[30]用于对象检测和语义分段的框架,分别。这些方法在概念上是直观的并提供灵活性和健壮性，以及快速列车-荷兰国际集团(ing)和推理时间。我们这项工作的目标是开发a可比较地支持用于实例分割的框架。

实例分割具有挑战性，因为它需要对图像中所有对象的正确检测，同时每个实例精确细分。因此结合元素从经典的计算机视觉任务ob-对象检测，目标是对单个检测进行分类使用绑定框和语义对象对象和本地化每个对象1RoIAlignconv类盒子conv图1所示。用于实例分割的掩码R-CNN框架。分割，目标是对每个像素进行分类不区分-中的对象的一组固定的类别的立场。在这种情况下，可能会出现一种复杂的方法是取得好成绩所必需的。但是,我们能证明一个惊人的简单，灵活，快速的系统可以超越先前最先进的实例分割结果。我们的方法，称为mask R-CNN，扩展了更快的R-CNN通过添加一个分支来预测分割掩码对每个感兴趣的区域(RoI)，平行于ex-分类和包围盒的分支sion(图1).mask分支是一个小的FCN应用对于每个RoI，预测一个像素到-的分割掩码像素的方式。mask R-CNN是简单的实现和列车提供更快的R-CNN框架，方便广泛的灵活的架构设计。此外,掩码分支只增加了少量的计算开销，支持快速系统和快速实验。

原则上，mask R-CNN是一个直观的延伸更快的R-CNN，但是正确地构建了掩模分支对于好的结果是至关重要的。最重要的是,faster RCNN不是为像素到像素对齐而设计的网络输入和输出之间的过渡。这一点在RoIPool[18,12]的实际核心运作为at-倾向于实例，执行粗糙的空间量化特征提取。为了纠正偏差，我们赞成设置一个简单的，无量子化的图层，叫做RoIAlign忠实地保存准确的空间位置。

RoIAlign的改变看似微不足道，但却产生了巨大影响:它显示:提高相对10%-50%的掩模精度在更严格的本地化度量下获得更大的收益。第二,我们发现解耦掩码和类预测很重要:我们独立预测每个类的二进制掩码，不需要类别之间的竞争，依靠网络的RoI分类分支预测分类。相比之下,FCNs通常执行逐像素多类分类，哪些夫妻是细分和分类的，基于什么在我们的实验中，实例分割的效果很差。没有铃铛和哨子，Mask R-CNN胜过一切之前的最先进的单一模型结果的COCO实例分割任务[28]，包括COCO-2016年竞赛优胜者的参赛作品。作为副产品，我们的方法也擅长于COCO对象检测任务。在消融实验中，我们评估了多因素多重基本实例化，这允许我们演示它鲁棒性和分析核心因素的影响。我们的模型在GPU上每帧能运行200ms，COCO的训练需要一到两天的时间8-GPU机器。我们相信高速train和test速度，加上框架的灵活性和准确性，将实例分割的好处和便于今后的研究。最后，我们展示了框架的通用性通过对人体姿态估计任务的可可键-点数据集[28]。通过将每个关键点视为一个热点二进制掩码，用最小修改的掩码R-CNN即可用于检测特定于实例的姿态。Mask R-CNN超过2016 COCO关键点比赛的获胜者同时以5fps运行。Mask R-CNN因此，可以更广泛地看作是一个灵活的框架用于实例级识别，可以很容易地扩展更复杂的任务。我们已经发布了代码来促进未来的研究。

2 相关工作

R-CNN:基于区域的CNN(R-CNN)接近[13]对边框对象检测是一种管理方式able候选对象区域数[42,20]和evalu-ate卷积网络[25,24]各自独立RoI。R-CNN被延长[18,12]以允许参加使用RoIPool在功能地图上进行roi分析，从而实现快速的速度更好的精度。更快的R-CNN[36]也推进了这个流通过学习一个区域的注意机制建议网络(RPN)。更快的R-CNN是灵活的和ro-对许多后续改进(例如，[38,27,21])，是目前几个基准测试的领先框架。

实例分割:由有效性驱动RCNN，很多实例分割的方法都是基于段上的建议。较早的方法[13,15,16,9]re-分类为自底向上段[42,2]。DeepMask[33]下面的工作[34,8]学习建议分部康蒂-日期，然后由快速R-CNN分类。在这些方法:先分割后识别，识别速度慢和不准确。同样，Dai等人提出了com-复杂的多级级联预测段建议从弹出框建议，其次是分类。相反，我们的方法是基于掩码的并行预测类标签，更简单更灵活。

最近，Lietal.[26]结合了片段pro-[8]中的posal系统和[11]中的目标检测系统“完全卷积实例分割”(FCIS)。的[8,11,26]的常见思想是预测一组位置-敏感的输出通道完全令人费解。这些通道同时地址对象类、框和面具，使系统快速。但fci展示系统在重叠的实例上的错误和创建的错误边缘(图6)，显示它受到乐趣-的挑战分割实例的主要困难。另一组解[23,4,3,29]以实例seg-心理状态是由语义segmen的成功所驱动的界定。从逐像素分类结果(例如，，这些方法试图削减像素同一类别的不同实例。形成鲜明对比这些方法的分段优先策略，掩盖R-CNN是基于实例优先策略。我们期待更深入的-这两种策略的结合将在未来进行研究。

2。相关工作R-CNN:基于区域的CNN(R-CNN)接近[13]对边框对象检测是一种管理方式able候选对象区域数[42,20]和evalu-ate卷积网络[25,24]各自独立RoI。R-CNN被延长[18,12]以允许参加使用RoIPool在功能地图上进行roi分析，从而实现快速的速度更好的精度。更快的R-CNN[36]也推进了这个流通过学习一个区域的注意机制建议网络(RPN)。更快的R-CNN是灵活的和ro-对许多后续改进(例如，[38,27,21])，是目前几个基准测试的领先框架。实例分割:由R-的有效性驱动CNN，很多实例分割的方法都是基于段上的建议。较早的方法[13,15,16,9]re-分类为自底向上段[42,2]。DeepMask[33]下面的工作[34,8]学习建议分部康蒂-日期，然后由快速R-CNN分类。在这些方法:先分割后识别，识别速度慢和不准确。同样，Dai等人提出了com-复杂的多级级联预测段建议从弹出框建议，其次是分类。相反，我们的方法是基于掩码的并行预测类标签，更简单更灵活。最近，Lietal.[26]结合了片段pro-[8]中的posal系统和[11]中的目标检测系统“完全卷积实例分割”(FCIS)。的[8,11,26]的常见思想是预测一组位置-敏感的输出通道完全令人费解。这些通道同时地址对象类、框和面具，使系统快速。但fci展示系统在重叠的实例上的错误和创建的错误边缘(图6)，显示它受到乐趣-的挑战分割实例的主要困难。另一组解[23,4,3,29]以实例seg-3所示。面具R-CNN面具R-CNN在概念上很简单:更快的R-CNN每个候选对象有两个输出，一个类标签和一个限定框抵消;再加上第三个分支把对象的面具。因此，面具R-CNN是一个自然和in-tuitive想法。但是附加的掩码输出与此不同类和框输出，需要更精细的提取对象的空间布局。接下来，我们将介绍keyele-部分面具R-CNN，包括像素到像素对齐，这是快速/快速R-CNN的主要缺失部分。更快的R-CNN:我们先简要回顾一下《更快》R-CNN探测器[36]。更快的R-CNN由两个阶段组成。第一阶段，称为区域提案网络(RPN)，提出候选对象包围盒。第二个stage，本质上是FastR-CNN[12]，提取fea-使用RoIPool从每个候选框和表演分类和限定框回归。的特性这两个阶段都可以共享，以实现更快的推理。我们请读者参考[21]以获得最新的、全面的比较在更快的R-CNN和其他框架之间。面具R-CNN:面具R-CNN采用相同的两级程序，具有相同的第一阶段(即RPN)。在第二阶段，与预测类和框平行偏移，掩码R-CNN也为每个输出一个二进制掩码RoI。这与最近的一些系统(clas-)形成了对比筛选依赖于掩模预测(例如[33,10,26])。我们的方法遵循快速R-CNN[12]的精神在par-中应用限制框分类和回归allel(这在很大程度上简化了多级的过程)原R-CNN[13]管道)。在正式的训练过程中，我们定义了一个多任务丢失每个抽样RoI为L=Lcls+Lbox+Lmask。一堂课,sificationlosslcl和boundingboxlossLbox是鉴定的即[12]中定义的cal。蒙版分支有一个Km2-每个RoI的维度输出，编码K个二进制面具的决议m×m,每个K类的一个。为此，我们应用每个像素的sigmoid，并将Lmask定义为平均二元交叉熵损失。对于一个RoI相关对于ground-truth类k,Lmask只定义在k-th上掩码(其他掩码输出不会造成损失)。界定。从逐像素分类结果(例如，，这些方法试图削减像素同一类别的不同实例。形成鲜明对比这些方法的分段优先策略，掩盖R-CNN是基于实例优先策略。我们期待更深入的-这两种策略的结合将在未来进行研究。

猜你喜欢