【语义分割】Semantic Image Segmentation with Task-Specific Edge Detection Using CNNs and....

CVPR2016

作者指出传统的FCN-CRF模型最后基于图模型的全连接条件随机场虽然可以定位物体边界更加准确，但是它的计算代价大，因而提出了一种新的解决方案，空间转换（DT）替换crfs，这是一种边缘过滤保留方法。计算速度有一定的提升。

取代最后的全连接条件随机场和与其关联的双向过滤器，变为域变换（DT）一种边缘感知过滤器。域变换的递归公式等于信号的自适应递归滤波，其中信息不允许在某些参考信号中跨越边缘传播，速度快。

图像语义分割
网络中最大池化和下采样的出现，使稠密网络最后的输出图无法精准定位物体的边界信息，为了解决这个问题，出现了很多解决方案：组合中间特征图信息；反卷积和上采样；超像素等底层的分割方法；条件随机场，利用像素之间的依赖关系。
边缘检测
学习物体的边界直接优化图像语义分割的表现。
长距离依赖（Long range dependency）
通过DT输入进行反向传播，以共同学习端对端可训练系统中的分割图得分和边缘图。
提出模型
论文中提出的模型图：

分为三个部分（FCN, HED, DT）：
1.语义分割预测，得出一个大致的分割图，与全卷积网络输出图类似；
2.边缘预测网络，生成一个边缘预测图；
3.域转换，使用物体边界限制分割图。

值得注意的是，在这里的HED只采用了前三层的输出，没有用后面的输出。大概是最后两层的输出对结果精度要求并不大。

DT相对起CRF是一个比较弱的过程，同属于一个填充算法。这是由于我们已经有了HED输出的结果，这个边界信息强于RGB信息，所以在填充算法的选择上可以稍微弱一点。

这个办法就非常暴力了，分四个阶段，每个阶段都有一个方向。每一阶段从该像素点触发，试图去影响该方向的下一个像素点，能否影响就取决于这个HED输出的轮廓置信度是否高，如果足够高，就不会改变下一个像素点的label。

本论文还提供了求导办法，即可以使用这个算法进行end-to-end的训练。

使用DT来代替CRF的优点在于：
1.所有的运算都可以在GPU上面跑，所以即便是多了很多运算，也能达到很高的速度。
2.有了HED如此好的边界信息之后，DT即便很弱，也能够达到CRF达不到的效果。