「Computer Vision」Note on Mask R-CNN

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/dgyuanshaofeng/article/details/83041600

Sina Weibo:小锋子Shawn
Tencent E-mail:[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/83041600

Mask R-CNN[1]是获得ICCV 2017 best paper award的论文,kaiming之前分别以暗黑通道先验(dark channel prior)[2]和深度残差学习(deep residual learning)[3]拿过CVPR 2009和CVPR 2016 best paper award,以Focal loss[4]拿过ICCV 2017 best student paper award,最近以组规范化[5]拿到ECCV 2018 best paper honorable mention。每一个工作都是神经网络中的重要部分,mask r-cnn则是计算机视觉上的应用工作,在池化上也提出了新的处理。其在医学图像分析中的应用场景比较受限。

ICCV 2017 Talk: youtube video
ICCV 2017 Oral presentation: slides
pp. 1 /
pp. 2 视觉感知(visual perception)包括物体检测、语义分割和实例分割等任务。物体检测和语义分割,分别都有范式或元算法,fast/faster r-cnn和fcn/unet。而实例分割较前两者困难,通常由前两者综合起来才能完成该任务。mask r-cnn成为了实例分割的范式或元算法。
pp. 3 反应了实例分割之困难,没有多少参赛队伍。
pp. 4 fast/faster r-cnn 2015的优势
pp. 5 fcn 2015的优势
pp. 6 mask r-cnn 2017的优势,说明成为范式或元算法
pp. 7 mask r-cnn之前,解决实例分割的两种思路,r-cnn驱动和fcn驱动
pp. 8 mask r-cnn = faster r-cnn + fcn on RoIs
pp. 9 比较三种r-cnn方法,趋势是使用并行分支(parallel heads)
pp. 10 在mask r-cnn中,提出无量化效应的RoIAlign模块
pp. 11 RoIPool的两个劣势:1、不适合分割;2、打破pixel-to-pixel的对齐关系
pp. 12 FCN mask head自然是pixel-to-pixel对齐的
pp. 13 展示FCN mask head如何工作roi、prediction、resized soft prediction、final mask
pp. 14 mask r-cnn的执行,backbone可以选用resnet、resnext和fpn
pp. 15 /
pp. 16 COCO数据集上的结果,比FCIS+++ with OHEM好,比2016年冠军模型提升2 AP,速度为200ms/img
pp. 17 COCO数据集上的结果,使用resnext作为backbone,比resnet好1.4 AP
pp. 18 COCO数据集上的结果,使用RoIAlign,faster r-cnn的检测框提升1.1 AP,说明RoIPool可以被放弃
pp. 19 COCO数据集上的结果,mask r-cnn比起faster r-cnn+RoIAlign,检测框提升0.9AP,说明多任务学习的优势
pp. 20 backbone为resnext-101-fpn
pp. 21 COCO竞赛2017的比赛数据,mask r-cnn单模型实现47.9 bbox AP和42.6 mask AP
pp. 22-27 /
pp. 28 可用于人体关键点检测
逐帧检测结果
pp. 29 总结,FAIR开源Detectron,不过这是基于caffe2,对大多数用户并非友好。但是还有各种框架实现的mask r-cnn,比如最早释放代码的图森,其基于mxmet。TF+keras也紧接着有代码。最近,香港中文大学媒体实验室释放了检测代码库。GN[5]的作者基于tensorpark,开发了一整套检测模型。大家都可以去尝试。

ICCV 2017 Tutorial: youtube video, start from 44:00
ICCV 2017 Tutorial: slides

[1] Mask R-CNN ICCV 2017 [paper]
[2] Single Image Haze Removal using Dark Channel Prior IEEE TPAMI 2010 [pami paper]
[3] Deep Residual Learning for Image Recognition CVPR 2016 [paper]
[4] Focal Loss for Dense Object Detection ICCV 2017 [paper]
[5] Group Normalization ECCV 2018 [paper]

猜你喜欢

转载自blog.csdn.net/dgyuanshaofeng/article/details/83041600