优点：图像分割数据的标注困难，数据量相对少，直接训练导致模型陷入精度较低的局部极小值。通过使用图像识别与训练模型参数，可以学习到较为合适的特征，帮助模型收敛到精度较高的局部极小点，从而提升精度。
缺点：图像识别网络通常包含若干个步长大于１的池化层．池化层可以融合池化区域的特征，扩大感受野，同时保持感受野中视觉要素的平移不变形．但同时，池化操作会缩小特征图的分辨率，从而丢失空间位置信息和许多细节信息．例如在目前常用的图像识别网络中，通常使用５个步长为２的池化层，使最后的语义特征图分辨率下降为原始输入图像的１?３２．当图像识别网络被迁移到全卷积网络中后，语义特征图的分辨率过小和丢失过多细节信息导致分割边界不准确，从而影响了全卷积网络的分割精度

ｍｅａｎＩｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ，ｍＩｏＵ（交并比均值）=65.3%

2 反卷积网络 Segnet（直接对卷积进行镜像操作）

因为初始化参数是随机的，难以优化

3 基于高分辨率语义特征图的场景分割算法

来自FCN分辨率丢失问题

1 跨层特征融合

基于跨层结构的算法主要在“卷积－反卷积”结构的反卷积模块提升语义特征图的分辨率
通过融合较浅层的分辨率较大的特征图，提高语义特征图的分辨率，捕捉更多的细节信息，从而提高分割精度
使用前两个卷积层的输出做融合

2 膨胀卷积算法

在这里插入图片描述
膨胀卷积的算法只对语义特征图进行一定程度的扩大

3 全分辨率残差网路 FRRN

将特征图分辨率始终保持在原始图像大小．该算法借鉴了残差学习的思想，包含２个信息流：残差流和池化流．其中残差流不包含任何池化和下采样操作，将该流的特征图始终保持在与原始图像相同的分辨率大小；而池化流则包含若干步长为２的池化操作，特征图的分辨率先减小后增大．残差流侧重于捕捉细节信息，主要用于确定精确的分割边界；而池化流则侧重于学习语义特征，主要用于识别视觉要素的类别．残差流和池化流在网络的前向传播过程中不断进行交互，从而使全分辨率残差网络可以同时学习语义特征和捕捉细节信息，因此可以获得更加精确的分割结果．ＦＲＲＮ在Ｃｉｔｙｓｃａｐｅｓ数据集取得的ｍＩｏＵ为７１．８％．但全分辨率残差网络也有其局限性．由于残差流始终保持在原始图像的分辨率，因此其维度较高，会占用大量的显存空间．同时，残差流和池化流的交互操作也会产生大量的空间消耗．这都制约了全分辨率残差网络在高分辨率场景图像中的使用．

算法优劣二：基于多尺度分割

1 共享结构算法

2 层级结构算法

3 并行结构算法

4 多尺度特征融合

5 自适应学习算法

算法优劣三：基于空间上下文的场景分割算法

1 基于多维循环神经网络

在这里插入图片描述

2 基于概率图模型

3 基于注意力机制

场景分割数据集

1 SIFT FLOW

ＳＩＦＴＦｌｏｗ数据集［５１］中的图像由８种典型的户外场景组成．该数据集共包含２６８８个图像样本，其中２４８８个训练样本、２００个测试样本，每个图像的分辨率为２５６×２５６．同时数据集中包含３３个语义类别的像素级人工标注．ＳＩＦＴＦｌｏｗ数据集的图像分辨率较小，场景比较简单，类别数和图像数量较少．

2 CamVid

ＣａｍＶｉｄ数据集［８６］中的图像均采集于街景，包括７０１个街景图像，其中包括４６８个训练图像和２３３个测试图像．每个图像样本的分辨率为９６０×７２０，并且包含１１个语义类别的像素级人工标记．ＣａｍＶｉｄ数据集的类别数和图像数量较少，但图像分辨率相对较大，场景针对于街景，对自动驾驶相关技术具有极大意义．

3 Barcelona

Ｂａｒｃｅｌｏｎａ数据集［８７］由１４８７１个训练图像样本和２７９个测试图像样本组成．其中训练图像采集于室内和室外场景，而测试图像均采集于巴塞罗那的街道场景．该数据集中不同图像样本的分辨率不同，并且包含１７０个语义类别的像素级人工标记．

4 Pascal Context （与语义分割数据集不同voc2012）

ＶＯＣ数据集［８９］为基础建立的．原始ＰＡＳＣＡＬＶＯＣ数据集仅标注了前景视觉要素的类别，而ＰＡＳＣＡＬＣｏｎｔｅｘｔ数据集还提供了背景视觉要素的类别，因此更加适合于场景分割算法．ＰＡＳＣＡＬＣｏｎｔｅｘｔ数据集包括４９９８个训练图像样本和５１０５个测试图像样本，每个图像样本的分辨率不超过５００×５００，并被标记为５９个类别和１个其他类．相比原始ＰＡＳＣＡＬＶＯＣ数据集，ＰＡＳＣＡＬＣｏｎｔｅｘｔ数据集包含的图像样本和类别数量更多，难度也更大．

5 Cityscapes

Ｃｉｔｙｓｃａｐｅｓ数据集［５３］中的图像是利用车载摄像头采集的欧洲城市的街景．该数据集包含共５０００个图像样本，划分为２９７５个训练图像样本、５００个验证图像样本和１５２５个测试图像样本．数据集中包含１９个类别的像素级的人工标注，其中每个图像样本的分辨率为２０４８×１０２４．Ｃｉｔｙｓｃａｐｅｓ数据集针对于街道场景，包含的图像样本数量和类别数较少，但图
像的分辨率较大，这就需要在设计算法时同时兼顾算法速度和性能，对自动驾驶相关技术具有重大的意义，是目前评测深度学习场景分割算法常用的数据集之一．
在这里插入图片描述

算法泛化能力分析

１）算法在不同数据集的泛化能力；
２）算法在不同任务的泛化能力
在这里插入图片描述

AIchiNiurou

原创文章 101 获赞 9 访问量 8371

关注私信

学习笔记：图像分割之深度学习场景分割(2015开始)综述之前是手工特征

文章目录

算法性能对比图

难点：分割细粒度高、尺度变化多、空间相关性强

1 分割细粒度要求

2 尺度变化大

3 空间相关性强

算法优劣一：基于分辨率精细化

1 FCN 全卷积神经网路（迁移基于大数据训练的图像识别初始化参数）