对A MultiPath Network for Object Detection论文的理解

本篇论文是facebook三篇论文之一,主要介绍multipathnet网络,下面是本人的一些总结。新手入坑,多多指教大笑


multipathnet网络是利用deepmask网络和sharpmask网络产生的object proposals作为输入的一部分,对其进行分类。

这个网络是对Fast R-CNN的改进,改进的点主要有三个,先来看下这两个网络的网络结构

首先是fast r-cnn

再是本论文的multipathnet











三个改进点

(1)跳跃结构
     在VGG网络里,从conv1到conv4,每层conv之后都有一次2*2的max pooling,4次max pooling之后,特征图将下采样到原先的1/16,这会导致信息的丢失。所以将具有丰富信息的较早层连接至后面的网络。
     conv3-->1x,conv4-->1x,1.5x,2x,conv5-->1x,1.5x,2x,4x
(2)中心区域
     背景信息对于小目标检测识别来说是很有用的,所以作者使用了4种不同大小的region crops,分别是1x,1.5x,2x和4x。
     在每种情况下,使用RoI Pooling技术将它们固定到相同大小。送入全连接层。
     四个输出连接成一个长向量,用于打分和框回归。
(3)积分损失函数
     Fast R-CNN里所有IoU>50%的proposals的得分是相等的,作者改进了损失函数,设置6个不同大小的IoU,分别计算得分然后求平均。这样的话,IoU越高,得分就越高。
原先的积分损失函数


改进的积分损失函数

把求得的6个预测类概率求平均
作者设置n=6,u=[50,55,60,65,70,75].(IoU增大,正样本减少)

猜你喜欢

转载自blog.csdn.net/qq_37124765/article/details/54906517