关于FPN的三个疑问

CVPR 现场提问

1、不同深度的 feature map 为什么可以经过 upsample 后直接相加

A:作者解释说这个原因在于我们做了 end-to-end 的 training,因为不同层的参数不是固定的,不同层同时给监督做end-to-end training,所以相加训练出来的东西能够更有效地融合浅层和深层的信息。(通过训练参数,可以达到融合浅层和深层信息的目的

在这里插入图片描述

2、为什么 FPN 相比去掉深层特征 upsample(bottom-up pyramid) 对于小物体检测提升明显?(RPN 步骤 AR 从 30.5 到 44.9,Fast RCNN 步骤 AP 从 24.9 到 33.9)

A:对于小物体,一方面它提高了小目标的分辨率信息;另一方面,如图中的挎包一样,从上到下传递过来的更全局的情景信息可以更准确判断挎包的存在及位置。(提高小目标检测精度,需要高分辨率和全局的情景信息,FPN使得二者兼得

在这里插入图片描述

3、如果不考虑时间情况下,image pyramid 是否可能会比 feature pyramid 的性能更高?

A:作者觉得经过精细调整训练是可能的,但是 image pyramid 主要的问题在于时间和空间占用太大,而 feature pyramid可以在几乎不增加额外计算量情况下解决多尺度检测问题。(模型简单,速度快和空间小优先选择

在这里插入图片描述

发布了70 篇原创文章 · 获赞 87 · 访问量 7543

猜你喜欢

转载自blog.csdn.net/qq_40263477/article/details/105034136