一.理解fast-rcnn到faster-rcnn的结构
如果不理解faster-rcnn的结构就去看代码是不可能看懂的,faster-rcnn是在fast-rcnn的基础上改进的,那么我们就先从fast-rcnn开始
1. 选择性搜索Selective Search(SS)在图片中获得大约2000个候选框,使用的方法是Selective Search(SS)(Region Proposa)
2. 用vgg16 前五个阶段是conv + relu + pooling的多层的卷积网络得到一些特征映射(Feature Map)
3. 得到feature map,根据之前RoI框选择出对应的区域(既可以理解为将feature map映射回原图像)
4.通过ROI Pooling得到固定大小的特征,再把这些特征输入全连接层4096。
5.最后是21和84的两个全连接层(这两个全连接层是并列的,不是前后关系),前者是分类的输出,代表每个region proposal属于每个类别(21类)的得分,后者是回归的输出,代表每个region proposal的四个坐标。
6.最后是两个损失层,分类的是softmaxWithLoss,输入是label和分类层输出的得分;回归的是SmoothL1Loss,输入是回归层的输出和target坐标及weight。
7.最后对每个类别采用NMS(non-maximun suppression)
扫描二维码关注公众号,回复:
5893397 查看本文章