【CVPR 2019】实例分割的论文总结 Hybrid Task Cascade for Instance Segmentation

文章来源 | 极链AI云（性价比最高的共享算力平台，助力你的技术成长～首次注册可获免费100小时GPU使用时长！官网地址：https://cloud.videojj.com/）

作者 | ygu86【极链AI云技术原创奖励计划】

原文地址 | 【CVPR 2019】实例分割的论文总结（官网论坛）已获授权

最近在做一些实例分割的工作，顺便总结一下相关论文。由于上一次研究此领域还是基于ICCV 2017的经典网络Mask R-CNN，对近期的发展有些脱节，借此机会整理一下当前的主流算法。

本文主要介绍发表在CVPR 2019的Hybrid Task Cascade for Instance Segmentation，由商汤团队提出并在COCO 2018实例分割赛道获得冠军。

中心思想

Cascade是一种经典而强大的结构。在目标检测任务中，Faster R-CNN升级为Cascade R-CNN后能有明显的性能提升，然而在类似的实例分割时，简单将Mask R-CNN与Cascade R-CNN结合后得到的Cascade Mask R-CNN只带来有限的增益。本文提出了一种混合任务级联（Hybrid Task Cascade）结构来充分利用检测与分割的关系以达到将Cascade引入至实例分割任务中。

网络结构

整体结构如上图所示，其中M为Mask分支，B为BBox分支，数字代表Stage。

▲ 上图(a)代表Cascade Mask R-CNN，在Cascade R-CNN的基础上对每个Stage都增加了Mask分支用来预测Mask。

▲ 上图(b)是基于图(a)的改进，称为Interleaved Execution。如图所示，Bbox预测与图(a)相同，Mask预测在每个Stage时，先执行BBox分支然后将回归更新过的框交由下一个Stage的Mask分支来预测。

▲ 上图(c)称为Mask Information Flow，是基于上图(b)的结构在相邻Stage的Mask分支之间建立一条Mask信息流以解决不同Stage的Mask分支无任何信息交流的问题。具体操作如下图Figure 2所示：前一个Stage的Mask特征图经过1x1的卷积校准后与当前Stage的Mask分支RoI特征图做点加融合并经过4个3x3卷积得到当前Stage的Mask特征图用于Mask预测。

▲ 上图(d)在上图(c)的基础上进一步增加了语义分割分支以获得更好的空间情境。具体操作如下图Figure 3所示：在原始的FPN基础上增加一个全卷积网络用于语义分割任务，得到的红色语义特征图与其余分支的BBox及Mask特征图以点加方式融合。

实验结果

本文实验基于MS COCO 2017数据集，采用MMDetection框架，具体细节：Batch size = 1 x 16 GPUs = 16；Epochs = 20；Step = [16, 19]；Initial learning rate = 0.02；Size = (1333, 800)单尺度训练或[(1600, 400), (1600, 1400)]多尺度训练。

Table 1为与其他算法的对比实验，Table 7为作者团队在COCO 2018实例分割比赛中用到的所有步骤和技巧以及分数提升情况。

验证实验：以下为本人基于MMDetection中公开的HTC代码做的验证实验。与原论文不同点在于：（1）Backbone选用ResNeXt-101-64x4d;（2）使用新版本的DCNv2 (CVPR 2019) 取代原先的DCN (ICCV 2017)；（3）受GPU资源限制，Batch size设定为1 x 4 GPUs = 4，并且去除了原先的Semantic分支，只使用BBox与Mask标注（即Figure 1中Mask Information Flow）。

由于训练一个周期需要大约1天时间，目前仅完成大致三分之一的训练（6周期），在COCO 2017验证集上的结果如下，待所有20周期训练完成后再做最终比对。

本文已获平台作者原创授权，想要认识更多深度学习小伙伴，交流更多技术问题，欢迎关注公众号“极链AI云”（为你提供性价比最高的共享算力平台，官网地址：https://cloud.videojj.com/）