FASTER R-CNN

Faster R-CNN

（声明：本文非原创

综合了深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

）
Fast R-CNN存在的问题：存在瓶颈：选择性搜索，找出所有的候选框，这个也非常耗时。那我们能不能找出一个更加高效的方法来求出这些候选框呢？
解决：加入一个提取边缘的神经网络，也就说找到候选框的工作也交给神经网络来做了。
做这样的任务的神经网络叫做Region Proposal Network(RPN)。

具体做法：
　　• 将RPN放在最后一个卷积层的后面
　　• RPN直接训练得到候选区域

RPN简介：
　　•   在feature map上滑动窗口
　　•   建一个神经网络用于物体分类+框位置的回归
　　•   滑动窗口的位置提供了物体的大体位置信息
　　•   框的回归提供了框更精确的位置

RPN 工作原理：

在最后卷积得到的特征图上，使用一个 3x3 的窗口在特征图上滑动，然后将其映射到一个更低的维度上（如 256 维），
在每个滑动窗口的位置上，RPN 都可以基于 k 个固定比例的 anchor box（默认的边界框）生成多个可能的区域。
每个 region proposal 都由两部分组成：a）该区域的 objectness 分数。b）4 个表征该区域边界框的坐标。

图中 2k 分数代表了 k 中每一个边界框正好覆盖「目标」的 softmax 概率。这里注意到，尽管 RPN 输出了边界框的坐标，然而它并不会去对任何可能的目标进行分类：它惟一的工作仍然是给出对象区域。如果一个 anchor box 在特定阈值之上存在一个「objectness」分数，那么这个边界框的坐标就会作为一个 region proposal 被向前传递。

一旦我们有了 region proposal，我们就直接把他们输入一个本质上是 Fast R-CNN 的模型。我们再添加一个池化层、一些全连接层以及最后，一个 softmax 分类层和边界框回归器（bounding box regressor）。所以在某种意义上，Faster R-CNN=RPN+Fast R-CNN。

猜你喜欢