语义分割——PSPNet(五)

简介

  • Pyramid Scene Parsing Network(PSPNet)首次出现在2016年的ImageNet比赛中,并拿下scene parsing任务的冠军。PSPNet在FCN的基础上引入更多上下文信息是通过全局均值池化操作和特征融合实现的,因此特征呈金字塔结构,所以也叫金字塔池化。
  • PSPNet论文地址:https://arxiv.org/pdf/1612.01105.pdf

场景解析概述:

  1. 基于语义分割的场景分析是计算机视觉中的一个基本课题,它提供了对场景的完全理解,其目的是为图像中每一个像素指定一个类别标签,预测了每个元素的类别、位置和形状。在自动驾驶和机器人传感技术等领域有广泛的研究意义。
  2. 对于分割任务而言,上下文信息的利用情况对于分割的效果是有明显影响的。通常来讲,我们判断一个东西的类别时,除了直接观察其外观,有时候还会辅助其出现的环境。比如汽车通常出现在道路上、船通常在水面、飞机通常在天上等。忽略了这些直接做判断,有时候就会造成歧义。
    在这里插入图片描述
    PSP原理:
    首先来回忆一下目标检测中的一个结构SPPnet里的空间金字塔池化模块:
    在这里插入图片描述
    SPP模块能将不同尺度的特征图最终被展平拼接成固定长度的特征向量,作为后续全连接层的输入,用于分类。
    接下来看PSPnet中的金字塔池化模块:
    在这里插入图片描述
    可以看出PSP的结构是首先经过CNN(Resnet101预训练模型)和空洞卷积策略提取特征图(1/8大小了),
    然后经过金字塔池化模块融合了四种不同尺度的特征图,经过上采样后,与池化前的特征图进行concat连接,最后来一个卷积层然后输出。

在ResNet101基础上还有一点改进:
在这里插入图片描述
除了使用softmax loss训练最终分类器的主要分支外,额外在第四阶段添加了一个辅助的loss。辅助损失函数有助于优化学习过程,而主分支损失函数承担起了最大的责任,最后我们还增加权重以平衡辅助损失函数。后续实验证明这样做有利于快速收敛。
即两个loss一起传播,使用不同的权重,共同优化参数。
但是在测试阶段,我们放弃辅助分支,只使用经过良好优化的主分支进行最终预测。但是,这种残差全卷积网络的损失函数训练策略与预先训练的ResNet模型相结合后,在不同的实验参数设置下都着实有效,这表明了该学习策略的普适性。

猜你喜欢

转载自blog.csdn.net/qq_42823043/article/details/103254663