RPN，从字面上理解区域候选网络，是用来生成候选区域的网络。
这个网络的输入输出是什么呢？看一下Faster RCNN的网络结构（下图中框内的部分）就可以看出，输入是前面backbone得到的特征图，输出是一些Proposal。

RPN网络可以分为这么几部分：生成anchor；对anchor进行二分类；边框回归；生成最终的Proposal。下面分别介绍一下。

在这里插入图片描述

生成anchor box

anchor可以翻译为锚，这个anchor指的是输入图像上的点，是生成候选框的基础，有了anchor后就可以为每个anchor生成不同大小和长宽比的box，用这些box来覆盖输入图片中要检测的物体(当然,会生成很多很多的box, 在图片上密密麻麻的,需要后续的操作进行筛选)。筛选过后剩下的就是最终的Proposal。Proposal会给ROIPooling然后进行分类和回归。

生成anchor box分为两步：第一先从Feature map的点对应回输入图像感受野的中心点；第二以该点为中心点创建不同面积和长宽比的box，这个也是输入图像上的box。

从Feature map到图像中的anchor

FPN会用一个大小为3x3，padding=2，stride=1的卷积核遍历特征图(只取一个维度为例)，这样就会将backbone输出的特征图中每一个点(也就是每一个值)都作为3x3的中心点遍历了一遍。

遍历过程中会找到3x3窗口的中心点对应到输入图片的感受野的中心点，该点就是anchor。

为什么可以对应会输入图片中的点呢？因为backbone中都是卷积和池化的操作。所以是可以将特征图中的点对应到原图的，也就是该点的感受野，感受野的计算这里就不再描述了。