「Computer Vision」Note on Mask R-CNN

Sina Weibo：小锋子Shawn
Tencent E-mail：[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/83041600

Mask R-CNN[1]是获得ICCV 2017 best paper award的论文，kaiming之前分别以暗黑通道先验（dark channel prior）[2]和深度残差学习（deep residual learning）[3]拿过CVPR 2009和CVPR 2016 best paper award，以Focal loss[4]拿过ICCV 2017 best student paper award，最近以组规范化[5]拿到ECCV 2018 best paper honorable mention。每一个工作都是神经网络中的重要部分，mask r-cnn则是计算机视觉上的应用工作，在池化上也提出了新的处理。其在医学图像分析中的应用场景比较受限。

ICCV 2017 Talk: youtube video
ICCV 2017 Oral presentation: slides
pp. 1 /
pp. 2 视觉感知（visual perception）包括物体检测、语义分割和实例分割等任务。物体检测和语义分割，分别都有范式或元算法，fast/faster r-cnn和fcn/unet。而实例分割较前两者困难，通常由前两者综合起来才能完成该任务。mask r-cnn成为了实例分割的范式或元算法。
pp. 3 反应了实例分割之困难，没有多少参赛队伍。
pp. 4 fast/faster r-cnn 2015的优势
pp. 5 fcn 2015的优势
pp. 6 mask r-cnn 2017的优势，说明成为范式或元算法
pp. 7 mask r-cnn之前，解决实例分割的两种思路，r-cnn驱动和fcn驱动
pp. 8 mask r-cnn = faster r-cnn + fcn on RoIs
pp. 9 比较三种r-cnn方法，趋势是使用并行分支（parallel heads）
pp. 10 在mask r-cnn中，提出无量化效应的RoIAlign模块
pp. 11 RoIPool的两个劣势：1、不适合分割；2、打破pixel-to-pixel的对齐关系
pp. 12 FCN mask head自然是pixel-to-pixel对齐的
pp. 13 展示FCN mask head如何工作roi、prediction、resized soft prediction、final mask
pp. 14 mask r-cnn的执行，backbone可以选用resnet、resnext和fpn
pp. 15 /
pp. 16 COCO数据集上的结果，比FCIS+++ with OHEM好，比2016年冠军模型提升2 AP，速度为200ms/img
pp. 17 COCO数据集上的结果，使用resnext作为backbone，比resnet好1.4 AP
pp. 18 COCO数据集上的结果，使用RoIAlign，faster r-cnn的检测框提升1.1 AP，说明RoIPool可以被放弃
pp. 19 COCO数据集上的结果，mask r-cnn比起faster r-cnn+RoIAlign，检测框提升0.9AP，说明多任务学习的优势
pp. 20 backbone为resnext-101-fpn
pp. 21 COCO竞赛2017的比赛数据，mask r-cnn单模型实现47.9 bbox AP和42.6 mask AP
pp. 22-27 /
pp. 28 可用于人体关键点检测
逐帧检测结果
pp. 29 总结，FAIR开源Detectron，不过这是基于caffe2，对大多数用户并非友好。但是还有各种框架实现的mask r-cnn，比如最早释放代码的图森，其基于mxmet。TF+keras也紧接着有代码。最近，香港中文大学媒体实验室释放了检测代码库。GN[5]的作者基于tensorpark，开发了一整套检测模型。大家都可以去尝试。

ICCV 2017 Tutorial: youtube video, start from 44:00
ICCV 2017 Tutorial: slides

[1] Mask R-CNN ICCV 2017 [paper]
[2] Single Image Haze Removal using Dark Channel Prior IEEE TPAMI 2010 [pami paper]
[3] Deep Residual Learning for Image Recognition CVPR 2016 [paper]
[4] Focal Loss for Dense Object Detection ICCV 2017 [paper]
[5] Group Normalization ECCV 2018 [paper]

「Computer Vision」Note on Mask R-CNN

猜你喜欢