Light Head R-CNN个人总结

1. Motivation

这里写图片描述

先梳理一下Faster RCNN和R-FCN。
Faster RCNN得到RoI后,进行RoI pooling,得到7x7xchannel的feature map,然后连接上2个FC层,再分类和回归。
R-FCN则是一方面得到RoI,另一方面继续卷积得到一个7x7x(num_cls+1)x7x7的Position sensitive score map。然后进行PSRoI pooling,得到7x7x(num_cls+1)的feature map。直接通过vote(global ave pooling),分类和回归。

(1)针对准确率: faster rcnn通常为了减少计算量,会对7x7xchannel的feature map直接global pooling。但这样会影响定位效果。
R-FCN的PSROI pooling本身并不是RoI-wise(roi中每个grid都不是对应感受野的信息,而是不同通道的信息),准确率通常不如faster rcnn。
(2)针对速度,faster rcnn串行计算每个roi,导致网络较慢,尤其是roi很多的情况下。
r-fcn则是因为要计算一个巨大的score map,也很费时。

所以提出light head rcnn,从而make a goog trade-off between the performance and computational speed。

2. light head rcnn

(1) thin feature map

thin指的是通道数变少了,主要针对r-fcn的score map的,原来是7x7x(num_cls+1)x7x7的feature map,现在变为7x7x10x7x7的feature map。其中两个7x7指的是w和h。通道为490。

此外,如何得到这个feature map,也不再是r-fcn中的1x1卷积,而是引入了inception结构。这里称之为large seperable convolution。
这里写图片描述
这里K=15,为了获得更大的感受野

(2) R-CNN subnet

由于score map的通道变成了7x7x10。因此PSRoI pooling后,roi的通道只有10,无法进行vote。 因此,我们连接上FC层,再进行分类和回归。

此外,除了PSROI pooing,我们也可以用RoI pooling。 RoI pooling因为时roi-wise,效果反而比PSRoI pooling好。

在rcnn subnet这块,与faster rcnn相比,没有太大的变化。

本文使用的base network 是Xception。最后作者对比了一系列实验,证明light head rcnn无论是mAP还是速度,都超过了FPN、mask r-cnn、RetinaNet、YOLOv2、SSD。

所以,尝试light head rcnn吧!

猜你喜欢

转载自blog.csdn.net/LeeWanzhi/article/details/82666664