tf-faster-rcnn 代码详细解读

一.理解fast-rcnn到faster-rcnn的结构

如果不理解faster-rcnn的结构就去看代码是不可能看懂的,faster-rcnn是在fast-rcnn的基础上改进的,那么我们就先从fast-rcnn开始

1. 选择性搜索Selective Search(SS)在图片中获得大约2000个候选框,使用的方法是Selective Search(SS)(Region Proposa)

2. 用vgg16 前五个阶段是conv + relu + pooling的多层的卷积网络得到一些特征映射(Feature Map)

3. 得到feature map,根据之前RoI框选择出对应的区域(既可以理解为将feature map映射回原图像)

4.通过ROI Pooling得到固定大小的特征,再把这些特征输入全连接层4096。

5.最后是21和84的两个全连接层(这两个全连接层是并列的,不是前后关系),前者是分类的输出,代表每个region proposal属于每个类别(21类)的得分,后者是回归的输出,代表每个region proposal的四个坐标。

6.最后是两个损失层,分类的是softmaxWithLoss,输入是label和分类层输出的得分;回归的是SmoothL1Loss,输入是回归层的输出和target坐标及weight。

7.最后对每个类别采用NMS(non-maximun suppression)

扫描二维码关注公众号,回复: 5893397 查看本文章

猜你喜欢

转载自blog.csdn.net/QQ2206487433/article/details/89306487