Feature Pyramid Networks for Object Detection FPN论文重点解读

《Feature Pyramid Networks for Object Detection》读论文计划-day1

今天读了两篇论文,分别是FPN与BiFPN的论文,论文地址见引用2。

首先需要知道的是,检测算法的结构一般可以分为backbone、neck、head三部分。

  1. backbone用于提取初级特征
  2. neck用于融合高级语义特征
  3. head编解码,实现分类与回归

FPN与其他模型

FPN(Feature Pyramid Networks for Object Detection,CVPR 2017)属于neck部分的改进、用于构建高级语义特征,融合多尺度特征,扩大感受野。
金字塔的概念,不是KaimingHe首先定义的,在很久之前就有相关论述,这一点在论文中有提及,FPN所做的改进可以由如下图片进行说明:

(a)使用图像金字塔构建特征金字塔。特征是在每个图像尺度上独立计算的,速度较慢,应该是最初的金字塔模型概念。
(b) 方法b选择仅使用单一尺度特征来进行更快的检测。仅输出一个尺度的预测。
(c)方法c是重用由 ConvNet计算的金字塔特征层次结构,就好像它是一个特征化的图像金字塔一样。输出多个尺度的预测。
(d) 特征金字塔网络 (FPN) 在速度上和b 和 c 的模型一样快速,但更准确。
在这里插入图片描述

FPN具体过程

下图说明FPN的具体过程:横向连接和自上而下路径的构建块,通过加法合并。
自上而下的特征图含有语义上更强的特征,但携带很少的定位信息。
自下而上的特征图含有更少的语义特征,但它携带更多的定位信息。
通过横向连接使用来增强这些特征。

在这里插入图片描述

FPN实验

下图是作者做的实验,用了5×5 窗口上通过一个小型 MLP 来生成输出维度为 14×14的密集对象片段。
橙色显示的是掩模对应于每个金字塔中层的图像区域的大小。
在这里插入图片描述

结论

作者在结论中提到,尽管深度卷积网络具有强大的表征能力及其对尺度变化的隐含鲁棒性,但使用金字塔表征明确解决多尺度问题仍然至关重要。

其他内容只设计实验结果以及精确度之类的内容,不过多介绍。

引用

  1. 一文详解Softmax函数
  2. Feature Pyramid Networks for Object Detection

猜你喜欢

转载自blog.csdn.net/qq_41722524/article/details/129948573