1. Introduction

在PSPNet中利用基于不同区域的上下文信息，通过金字塔池模块和提议的金字塔场景解析网络（PSPNet）来挖掘全局上下文信息的能力。目标是为图像中的每个像素分配一个类别标签。场景解析提供了对场景的完全理解。它预测每个元素的标签、位置和形状。对于准确的场景感知，知识图依赖于场景上下文的先验信息。我们发现目前基于FCN的模型的主要问题是缺乏合适的策略来利用全局场景类别的线索。对于典型的复杂场景理解，在以前得到全局图像级特征的时候，空间金字塔池被广泛应用于空间统计数据为整体场景解释提供了一个很好的描述符。空间金字塔池网络进一步增强了这种能力。与这些方法不同，金字塔场景解析网络(PSPNet)。除了传统的扩张型FCN[3,40]用于像素预测之外，还将像素级特性扩展到专门设计的全球金字塔池。局部和全局的线索一起，使最终预测更加可靠。同时提出了一种具有深度监督损失的优化策略。

主要贡献：

提出了一个基于FCN的像素预测框架的金字塔场景解析网络来嵌入困难的景物背景特征。
基于深度监测的损失，我们开发了一种有效的深网优化策略
我们为最先进的场景解析和语义分割构建了一个实用的系统，其中包含了所有关键的实现细节。

2. Related Work

其他工作主要有两个方向。其一是多尺度特征组合。因为在深层网络中，更高层次的特性包含更多的语义含义和较少的位置信息。结合多尺度特性可以提高性能。其二是基于结构预测。提倡工作[3]使用条件随机字段(CRF)作为后处理来细化分割结果。通过端到端的建模方法改进的网络。这两个方向都改善了场景解析的定位能力，预测语义边界适合对象。然而，在复杂的场景中，仍有很大的空间利用必要的信息。

3. Pyramid Pooling Module

给定一个输入图像(a),我们首先使用CNN获得特征图来得到最后卷积层(b),然后一个金字塔解析模块应用于收获不同次区域表示,其次上采样和连接层以形成最终的特征表示,有局部和全局上下文信息(c)。最后，将该表示输入到卷积层中，以获得最终的每个像素预测(d)

金字塔池模块融合了四个不同金字塔规模的特征。红色突出显示的最粗级别是全局池，以生成单个bin输出。下面的金字塔级别将feature map分割为不同的子区域，并形成不同位置的集合表示。金字塔池模块中不同级别的输出包含不同大小的feature map。为了保持全局特征的权重,我们用1*1卷积后每个金字塔级别降低维度的上下文表示为1 \ N如果原来级别大小的金字塔是N .然后我们直接upsample低维特征图得到相同的大小特征与原始特征映射通过双线性插值。最后，将不同层次的特性连接成最终的金字塔汇聚全局特性。

4 Network Architecture

在ResNet101中辅助损失的说明。每个蓝色框表示一个残块。辅助损失是在res4b22残留块后添加的。

除了使用softmax loss,即图4中loss1训练最后的主分类器外,还引入了res4b22 residule模块,构造另一个辅助分类器,损失函数为loss2,并引入一个权重参数来控制loss2的权重,辅助分类器可以帮助优化学习过程.

图像分割--PSPNet

1. Introduction

2. Related Work

3. Pyramid Pooling Module

4 Network Architecture

猜你喜欢