金字塔池化笔记

原文为 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition(SPP)

1、解决的问题

金字塔池化主要是为了解决卷积网络输入图像尺寸必须一致的问题,原文中还说实验结果表明其对防止过拟合也有效果,能提高分类网络的准确率。

2、实现思路

在卷积网络中,卷积层和池化层可以对任意大小的图像卷积,只有全连接层对图像尺寸大小有要求。因为全连接层的输入向量维度固定,如vgg16的全连接层f6的输入向量维度为 4096。为了使输入f6的向量维度相同,作者采用了以下方法:将第5层池化层后输入的featuremap做三种步长stride和窗口大小sizeX不同的池化处理,使其分别成为4×4,2×2,1×1的三副featuremap图,再将这三副图的元素依次排列组成新的向量,此向量的维度为(4×4+2×2+1)×256= 5376,(256是channel数,和处理之前相同),这样不管输入图像尺寸多大,得到的卷积特征图多大,输入到f6全连接层的向量维度都是5376。如此就实现对不同大小的输入图像可以通过相同网络进行分类。算法思想如图1(取自原论文)

以输入的featuremap大小为13×13为例,图2展示了需要获得3×3,2×2,1×1特征图所对应的窗口大小和步长。




图1 金字塔池化网络结构

这里写图片描述
图2 获得3×3,2×2,1×1特征图所对应的窗口大小和步长


猜你喜欢

转载自blog.csdn.net/weixin_40859436/article/details/80486892
今日推荐