摘要　　

大多数实例分割算法都要求为所有的训练样本分配一个分割掩码标签。为新类别打标签是一件费时费力的事情，所以这篇文章提出了一个新的偏监督学习训练范例，使用权值迁移函数来训练拥有大量边框标注但是有很少分割标注的实例分割模型。这些改进可以让Mask R-CNN检测和分割3000个视觉概念，通过使用Visual Genome dataset的边框标注和COCO dataset的80个类别掩码标注。这个方法扩展了视觉世界的广泛概念。

1. 介绍

目标检测现在都是准确率非常高的。实例分割受限于非常少的类别，大概只有100个目标类别。

限制的主要原因是最先进的实例分割算法都要求精确的监督标签，而这些标签的收集很难。相比之下，边框标注是非常多的，并且很好收集。这引发了一个问题：对于所有类别没有完整的实例分割标注，却可以训练高质量的实例分割模型？带着这个动机，提出了一个偏监督实例分割任务，以及一个新的迁移学习方法来解决这个问题。　

如下定义偏监督实例分割任务：（1）给定一个感兴趣的类别集合，这个小的集合有实例掩码标注，而其它列别仅仅有边框标注；（2）实例分割算法应该利用这个数据去拟合模型，该模型可以在所有感兴趣类别上分割所有目标实例。因为训练诗句是掩码数据和边框数据的混合，所以称该任务为偏监督学习。

偏监督相对于弱监督训练的主要好处是，允许通过利用所有存在数据类型构建一个大规模实例分割模型，这些数据包括有大量类别的边框标注的Visual Genome以及包含少量类别的实例掩码标注的COCO。这个方法能让最先进的实例分割方法扩展到数以千计的类别中。

为了处理偏监督实例分割，提出了一个建立在Mask R-CNN上的新迁移学习方法。Mask R-CNN非常适合这个任务，因为它将实例分割问题分解为边框检测和掩码预测两个子任务。这两个子任务的使用专用共同的头部网络训练。方法背后的直观理解是，一旦训练，边框头部的参数编码每个类别的嵌入，使得视觉信息能够传递到偏监督掩码的头部。

通过设计一个参数化的权值迁移函数来实现这个直观理解，并训练该函数作为边框检测参数的函数来预测类别实例分割的参数。该权值迁移函数使用带有掩码标签的类作为监督在Mask R-CNN上训练。在推理的时候，该函数用于预测每个类别的实例分割参数，因此使得模型分割所有的目标类别，并且包括那些训练时候没有掩码标注的类别。

Learning to Segment Every Thing简介

摘要

猜你喜欢