在2016年提出的网络中,精度是最高的,超过Faster-RCNN\HyperNet\MRCNN.
- VOC2007, with a mAP of 79.2%,
- VOC 2012, with a mAP of 76.4%,
- COCO, with a mAP of 24.9%.
两个特色
1)Outside Net
所谓 Outside 是指 ROI 区域之外,也就是目标周围的 上下文(Contextual)信息。
作者通过添加了两个 RNN 层(修改后的 IRNN)实现上下文特征提取。
上下文信息 对于目标遮挡有比较好的适应。
2)Inside Net(常用)
所谓 Inside 是指在 ROI 区域之内,通过连接不同 Scale 下的 Feature Map,实现多尺度特征融合。
这里采用的是 Skip-Pooling,从 conv3-4-5-context 分别提取特征,后面会讲到。
多尺度特征 能够提升对小目标的检测精度。
框架
采用的是Fast RCNN
的基本框架(VGG),通过SS和EB
提取Proposal,对于每一个ROI,提取conv3/conv4/conv5对应的特征,fix到固定的长度;
然后将conv5输出的feature map输入到两个IRNN单元提取上下文信息
同样,在输出的context feature map上提取ROI对应的特征,fix到固定长度。
然后将multi-scale特征和context特征先normalize/scale
(不同feature map激活值不一样,会导致unstable learning),然后concate到一起。通过1*1卷积进行降维。输出到分类器去进行cls和reg.
比较感兴趣的是outside net