1、语义分割

1.1 DeepLab全卷积网络

　　①基本结构

　　　　1）优化后的DCNN+传统的CRF图模型

　　②新的上采样卷积方案

　　　　1）带孔（hole）结构的膨胀卷积（Atrous/Dilated convolution）

　　③多尺度图片表达

　　　　1）Atrous空间金字塔池化（Atrous Spatial Pyramid Pooling）

　　④边界分割的优化

　　　　1）使用全连接条件随机场CRF进行迭代优化

1.1.1 结构

　　①模块1：DCNN输出粗糙的分割结果

　　②模块2：全连接CRF精化分割结果

1.1.2 孔（Hole）算法

　　①解决原始FCN网络的输出低分辨率问题（100padding）

　　②降低池化层的降采样倍数

　　　　1）VGG16网络Pool4和Pool5层的步长：2->1

　　　　2）减小降采样倍数：32->8

　　　　3）后续卷积核的感受野（Field-Of-View）会受影响（变小）

　　　　4）这些卷积核无法用来fine-tune

　　③更改卷积核的结构->加孔（Hole）

　　　　1）无上采样功能

　　　　2）恢复感受野，可以用来fine-tune

　　　　3）保证了网络最终的高分辨率输出（仅8倍降采样）

　　④卷积核结构

　　　　1）尺寸不变（3x3），元素间距变大（1->2）

　　　　2）步长不变（1）

　　⑤优势

　　　　1）参数数量不变

　　　　2）计算量不变

　　　　3）高分辨输出

　　⑥采用层

　　　　1）conv5：孔尺寸2

　　　　2）conv6：孔尺寸4

1.1.3 膨胀卷积（Atrous/Dilated convolution）

　　①孔算法的正式名称

　　②与降低池化层步长配对使用，以取代上采样反卷积

　　③孔尺寸->Rate

　　　　1）Rate越大，感受野越大

　　④膨胀卷积效果

　　　　1）稀疏特征提取：x2降采样->7x7卷积->x2上采样

　　　　2）稠密特征提取：7x7膨胀卷积

　　⑤优势

　　　　1）参数&计算量一样

　　　　2）灵活控制分辨率

1.1.4 Atrous空间金字塔池化（Atrous Spatial Pyramid Pooling）

　　①不同感受野（rate）捕捉不同尺度上的特征

　　②在conv6层引入4个并行膨胀卷积

　　　　1）Rate：6,12,18,24

　　③4个并行膨胀卷积

　　　　1）感受野：13x13，25x25,37x37,49x49

　　⑤Fc6->Fc7->Fc8

　　　　1）深度：4096->2014->类别数量

　　　　2）卷积核：3x3->1x1->1x1

　　⑥融合：概率相加

1.1.5 全连接CRF

　　①作用：通过迭代精化分割结果（恢复精确边界）

　　②输入

　　　　1）首次：FCN网络输出结果的8倍双线性插值

　　　　2）非首次：上一轮迭代结果

　　③能量计算基于图片RGB像素值

1.1.6 结果

　　①第一行：飞机类别的分值（softmax之前）

　　②第二行：飞机类别的概率值（softmax之后）

1.1.7 语义分割数据集

　　①Pascal VOC-2012

　　　　1）20个物体类别

　　　　　　人类

　　　　　　动物（鸟、猫、牛、狗、马、羊）

　　　　　　交通工具（飞机、自行车、船、公共汽车、小轿车、摩托车、火车）

　　　　　　室内（瓶子、椅子、餐桌、盆栽植物、沙发、电视）

　　　　2）像素级标签9993张图片

　　②MSCOCO　

　　　　1）80个类别

　　　　2）COCO-stuff扩展集：172类别

　　　　　　Object：80

　　　　　　Stuff：91

　　　　　　Unknown：1

　　　　3）主要用于：

　　　　　　实例级别的分割（Instance-level）

　　　　　　图片描述（Image Captioning）

　　　　4）http://mscoco.org/

　　③Cityscapes

　　　　1）30个类别

　　　　2）标注：

　　　　　　5000张像素标注（pixel level）

　　　　　　20000张多边形标注（instance level）

　　　　3）辅助/自动驾驶中的语义场景理解

　　　　4）采集于50个城市

　　　　5）https://www.cityscapes-dataset.com

图像分割学习笔记2