DeepLab v2论文笔记

摘要：

三个贡献和创新点：

Atrous CNN；准确调节分辨率，扩大感受野，降低计算量
ASPP；多尺度特征提取，得到全局和局部特征和语境
Fully Connected CRF；概率图模型，优化边缘效果

简介

PSPNet [https://arxiv.org/pdf/1612.01105.pdf,https://hszhao.github.io/projects/pspnet/]
+ https://github.com/hszhao/PSPNet [Caffe]
+ https://github.com/ZijunDeng/pytorch-semantic-segmentation [PyTorch]
+ https://github.com/mitmul/chainer-pspnet [Chainer]
+ https://github.com/Vladkryvoruchko/PSPNet-Keras-tensorflow [Keras/Tensorflow]
+ https://github.com/pudae/tensorflow-pspnet [Tensorflow]
+ https://github.com/hellochick/PSPNet-tensorflow [Tensorflow]
+ https://github.com/hellochick/semantic-segmentation-tensorflow [Tensorflow]

RefineNet：[https://arxiv.org/pdf/1611.06612.pdf]
https://github.com/guosheng/refinenet [MatConvNet]

图像语义分割三个挑战和我们的解决方案：

1.传统分类CNN网络中连续的池化和降采样将导致空间分辨率明显下降
解决方法：去掉最后几层的降采样和最大池化，使用上采样滤波器，得到采样率更高的特征（借鉴于信号处理中方法，有效降低噪声扰动）

2.对象多尺度检测问题
常用方法：重新调节尺度并聚合特征图，但计算量大大增加
本文方法：对特征层重采样，得到多尺度的图像文本信息，使用多个并行ACNN进行多尺度采样，称为ASPP

3.以物体为中心的分类，需要保证空间转换不变性
解决方法：跳跃层结构，从多个网络层中抽取高层次特征进行预测；使用全连接条件随机场进行边界预测优化。

本文模型优势：

速度：因为有Atrous的优势，处理速度在Titan GPU上达到8FPS，CRF在CPU上0.5s
准确率：在多个数据集上达到最优效果。
简洁：由DCNN和CRF组成的级联网络

方法

i.稠密特征提取的空洞卷积和感受野的扩充

问题：传统DCNN但对于连续的最大池化和降采样导致最后的特征图分辨率严重下降，一般使用FCN，但会带来增加内存和计算时间的问题
解决方法：提出Atrous convolution
Atrous Convolution解释：
这里写图片描述

来源于信号处理，对于输入信号，使用长度为K的滤波器加入r采样率进行采样：
对于CNN中如果进行降采样后会出现特征图分辨率降低，而如果改用Atrous，可有效增加特征图分辨率。在最后的特征聚合层，用Atrous代替全连接层。
起初尝试在所有池化层均加入Atrous，增加效果，但计算量太大；改为factor 4和8，保证计算量和准确度。
方法：a.插入空值，保证计算参数不变；b.提取不同尺度的像素信息，插入对应空值，提高感受野的同时能捕捉不同尺度信息。

问题：（rate如何计算？为何Atrous有效？具体如何实现？）

ii.多尺度空间金字塔池化

ASPP从何而来？为何有效？
借鉴SPP网络，多尺度重采样可有效增强特征图效果。
这里写图片描述

iii.条件随机场预测边界

先前工作主要两方面：a.通过将多个卷积层的输出综合来预估边界；b.用超像素来描述，作为一个简单的定位任务。
本文观点：通过全连接条件随机场来作为识别和定位任务的结合，既能准确定位，还能保证一定的准确率。
这里写图片描述

分析：传统方法，假设空间相邻节点具有相似性，作为一个弱监督的方法去预测边缘相似节点的labels，可有效消除噪声，让分割边缘更加平滑。而DCNN中不是要让特征图更平滑，而是要发掘特征图中的细节，比如边缘部分的分割效果，这时使用short-range CRF反而会带来不好的效果。

本文使用方法：在不同特征空间使用两个高斯核函数，第一个bilateral kernel定义所有像素的位置和颜色，第二个核函数只定义像素的位置。
这里写图片描述

作用：第一个核函数对于位置和颜色相似的像素归为相似的标签；第二个核函数仅保证处理平滑度时保证空间相似性。
技巧：使用高维度过滤器算法可大大加速计算过程。