【CVPR 2019】实例分割的论文总结 Hybrid Task Cascade for Instance Segmentation

文章来源 | 极链AI云(性价比最高的共享算力平台,助力你的技术成长~首次注册可获免费100小时GPU使用时长!官网地址:https://cloud.videojj.com/

作者 | ygu86【极链AI云技术原创奖励计划】

原文地址 | 【CVPR 2019】实例分割的论文总结( 官网论坛)已获授权

最近在做一些实例分割的工作,顺便总结一下相关论文。由于上一次研究此领域还是基于ICCV 2017的经典网络Mask R-CNN,对近期的发展有些脱节,借此机会整理一下当前的主流算法。

本文主要介绍发表在CVPR 2019的Hybrid Task Cascade for Instance Segmentation,由商汤团队提出并在COCO 2018实例分割赛道获得冠军。

中心思想

Cascade是一种经典而强大的结构。在目标检测任务中,Faster R-CNN升级为Cascade R-CNN后能有明显的性能提升,然而在类似的实例分割时,简单将Mask R-CNN与Cascade R-CNN结合后得到的Cascade Mask R-CNN只带来有限的增益。本文提出了一种混合任务级联(Hybrid Task Cascade)结构来充分利用检测与分割的关系以达到将Cascade引入至实例分割任务中。

网络结构


整体结构如上图所示,其中M为Mask分支,B为BBox分支,数字代表Stage。

▲ 上图(a)代表Cascade Mask R-CNN,在Cascade R-CNN的基础上对每个Stage都增加了Mask分支用来预测Mask。

▲  上图(b)是基于图(a)的改进,称为Interleaved Execution。如图所示,Bbox预测与图(a)相同,Mask预测在每个Stage时,先执行BBox分支然后将回归更新过的框交由下一个Stage的Mask分支来预测。

▲  上图(c)称为Mask Information Flow,是基于上图(b)的结构在相邻Stage的Mask分支之间建立一条Mask信息流以解决不同Stage的Mask分支无任何信息交流的问题。具体操作如下图Figure 2所示:前一个Stage的Mask特征图经过1x1的卷积校准后与当前Stage的Mask分支RoI特征图做点加融合并经过4个3x3卷积得到当前Stage的Mask特征图用于Mask预测。

▲  上图(d)在上图(c)的基础上进一步增加了语义分割分支以获得更好的空间情境。具体操作如下图Figure 3所示:在原始的FPN基础上增加一个全卷积网络用于语义分割任务,得到的红色语义特征图与其余分支的BBox及Mask特征图以点加方式融合。

实验结果

本文实验基于MS COCO 2017数据集,采用MMDetection框架,具体细节:Batch size = 1 x 16 GPUs = 16;Epochs = 20;Step = [16, 19];Initial learning rate = 0.02;Size = (1333, 800)单尺度训练或[(1600, 400), (1600, 1400)]多尺度训练。

Table 1为与其他算法的对比实验,Table 7为作者团队在COCO 2018实例分割比赛中用到的所有步骤和技巧以及分数提升情况。

验证实验:以下为本人基于MMDetection中公开的HTC代码做的验证实验。与原论文不同点在于:(1)Backbone选用ResNeXt-101-64x4d;(2)使用新版本的DCNv2 (CVPR 2019) 取代原先的DCN (ICCV 2017);(3)受GPU资源限制,Batch size设定为1 x 4 GPUs = 4,并且去除了原先的Semantic分支,只使用BBox与Mask标注(即Figure 1中Mask Information Flow)。

由于训练一个周期需要大约1天时间,目前仅完成大致三分之一的训练(6周期),在COCO 2017验证集上的结果如下,待所有20周期训练完成后再做最终比对。

本文已获平台作者原创授权,想要认识更多深度学习小伙伴,交流更多技术问题,欢迎关注公众号“极链AI云”(为你提供性价比最高的共享算力平台,官网地址:https://cloud.videojj.com/

猜你喜欢

转载自blog.csdn.net/weixin_47716911/article/details/107688687
今日推荐