原Blog链接:https://blog.csdn.net/ruoruojiaojiao/article/details/89328247
论文链接:Pyramid Scene Parsing Network
1. 概述
场景解析的目的旨在为每一个像素分配一个类别标签。可以同时预测到标签,位置,以及每一个元素的形状。
目前场景解析框架多数依赖于FCN, 取得较好的效果。但由于FCN存在缺少充分利用全局场景类别线索的缺点,使场景解析仍然面临有限制:多样化的场景和不受限制的词汇。比如对于相同的形状则分辨不出类别。
因此,本论文中将像素级功能扩展到专门设计的全局金字塔池中。将局部和全局线索联合起来共同使最终预测更加可靠。
本文的贡献如下:
一,提出金字塔场景解析网络,将其嵌入到基于FCN网络中。
二,在基于深度监督损失的resnet上制定优化战略。
三,构建了一个场景解析和语义分割的实用系统。
2. 网络结构
PSPNet提出的原因:CNN的感受野在理论上是非常小的,特别是在高层次的层面上;直接融合特征以形成单个矢量即全局平均化可能会失去空间关系并导致模糊。
PSPNet中:层次全局优先级。此全局优先级旨在消除CNN的固定大小约束以进行图像分类。
为了进一步减少不同子区域之间的上下文信息丢失,我们提出了一个分层的全局优先,包含不同尺度的信息,并在不同的子区域之间变化。
PSPNet过程总览:
一,以红色突出显示的最粗糙级别是全局池,以生成单个bin输出。
二,以下金字塔等级将要素图分隔为不同的子区域,并形成不同位置的池化表示。每一层输出便包含不同尺寸的特征图。
三,为了保持全局特征的重量,如果金字塔的等级大小为N,则在每个金字塔等级之后使用1×1卷积层将上下文表示的维度减少到原始值的1 / N.
四,通过线性插值上采样将每一层输出扩大到和原始图片尺寸一样。
五,将N个尺寸的输出拼接在一起,即是我们的特征金字塔网络。
附飞桨课件