【论文笔记】SPPnet

CNN模型在识别图片前需要将图片预处理（如裁剪，扭曲）成同样大小尺寸，流程如下图所示。这一步骤不仅繁琐而且由于尺寸变化可能会影响识别精度。

事实上卷积层、池化层、激活层可以适应任意尺寸图片，但用于分类的全连接层需要固定尺寸的输入。为了解决这一问题，SPPnet在特征提取层和全连接层中间添加了金字塔池化层（SPP layer），使得任意尺寸的图片都生成固定长度的特征表示作为全连接层的输入。图片的尺寸制约问题得以解放，以原始尺寸参与训练及测试，模型的泛化性能会更好。

其次SPPnet使用不同尺寸的池化操作得到由低到高级别的特征，使得识别性能更加健壮。此外在目标检测任务上，SPPnet大大缩短了检测时间，应用于R-CNN，网络可仅对全图做一次特征提取，再将特征映射到候选区域上，不同大小的候选区域都可以提取出固定大小的特征向量，避免了单独对候选区进行卷积操作重复提取特征。

下图是SPP layer示意图，实际应用中会将最后一个卷积层的池化层替换为空间金字塔池化层，Spp layer以不同的粒度（一等分、四等分、十六等分）根据图片尺寸比例进行最大池化操作提取出固定数量的特征，以bag of words的形式将这些特征组合成为一个固定长度的特征向量，然后再将该固定长度的特征向量作为全连接层的输入进行分类任务。

【论文笔记】SPPnet

猜你喜欢