本文链接： https://blog.csdn.net/Superstar02/article/details/101101645

Geometry-Aware Distillation for Indoor Semantic Segmentation

简述：

本文提出在仍利用有用的深度域信息的情况下，通过提取几何感知嵌入来共同推断语义和深度信息，来消除现有方法（都需要精确的深度图作为分割场景的输入）的强约束。此外，提出了一种几何感知的传播框架，并在此基础上加入了多个多级跳变特征融合块，从而提高了语义分割的质量。通过将单个任务预测网络解耦为语义分割和几何嵌入学习两个联合任务，并结合提出的信息传播和特征融合体系结构。

问题or相关工作：

无论是早期手工设计的提取器或CNN模型，都需要与输入RGB图像相关联的地面真值深度图。但可能存在深度数据采集不方便或与RGB对齐等问题，提出在语义分割中是否能只输入RGB、图像下，来合并用于语义分割的几何信息？
本文相关工作：
1.提出了在联合推理框架中学习密集深度嵌入（提取深度嵌入），提取几何感知信息，用于单个RGB图像符号分割，与RGB输入一起指导语义分割。
2. 提出了一种基于几何感知的传播块，将学习到的嵌入信息与二维图像的特征融合起来，提高了几何亲和力，从而指导语义传播。
3. 为了进一步丰富结构细节，提出了一种基于特征空间的增量跨尺度融合方案。

模型：

在这里插入图片描述
该网络由共享骨干网、语义分割分支、深度嵌入分支、几何感知传播块（GAP）和跳链接金字塔融合块五部分组成。网络全局遵循编解码器结构。

框架关系：

骨干编码器的权值相互共享，而编码器用于特定的任务，上分支预测语义标签，下分支通过预测深度映射学习深度嵌入。在解码器的最后，利用所学习的嵌入方法，通过几何感知的传播(GAP)块来改进语义特征，提高语义特征的质量。在底部，通过跳金字塔融合块(SPF)，结合骨干网的多级特征图，提高最终的语义分割性能。

细节：

在解码器中，还传播了不同的尺度特性，以丰富最终层的输出。解码器中的每一层都是先上采样，然后进行卷积。
最后的语义标签预选是使用SPF值底块的评分图。语义监督既对最右边的特征进行提取，又对SPFs输出的每一层执行，对应的深度图作为学习嵌入的超视觉。

几何感知传播（GAP）：

在这里插入图片描述
结构如上图所示，由多个卷积层实现，然后在网络中进行批量归一化和元素处理。首先将深度嵌入发送到两个conv单元中，实现几何亲和。然后将几何亲和力作为融合语义特征的指导。最后，将原始语义特征与融合后的输出信息结合起来，如上图的蓝色块所示。

跳链接金字塔融合（SPF）：

在这里插入图片描述
该目的在于解决图像经过编码器和解码器时，可能会丢失大量的细节信息的缺陷，所以为了在最终的语义特征图中丰富和恢复更多的细节，转向编码器部分来寻找更多的信息。

解读：

第一SPF值(即，SPF1)将提取的特征作为输入，经过1×1的卷积，经过适当的大小调整后，与编码器主干中的特征映射连接。经过3×3次卷积后，将合成的特征传播到另一个SPF。同时，每个SPF值预测一个用于语义分割的侧输出。

实验&结果：

采用流行的NYU-Dv2数据集和大型SUN RGBD数据集，通过像素精度(PixAcc.)，平均精度(mAcc.)，mIoU，等评价标准，结果如下：
补充：mIOU即：模型产生的目标窗口和原来标记窗口的交叠率。具体我们可以简单的理解为：即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集。
在这里插入图片描述
可以看出，在两个数据集NYU-Dv2和SUN RGBD实验，提出的方法较现有的方法有了很大的改进。

对于分布不平衡的数据，实验结果如上图：从表中显示的类别方面的结果可以看出，提出的方法在大多数类别中比其他方法执行得更好。
在这里插入图片描述

消融实验：

将只包含语义而不包含深度信息作为基线，每个组件的性能下表所示。
在这里插入图片描述
由上表得出：

利用新的丢包函数(Ls)进行网络训练，大大提高了分割性能。这主要是由于其特别设计的配置，硬类别很少的样本。
合并深度信息可以显著提高性能，这重新验证了同时推理2D和3D信息的有效性。
虽然使用地面真值深度作为输入(由HHA[13]编码)的策略显示了深度信息的有效性，但提出的学习深度感知嵌入(DepEm)方法进一步提高了性能。从深度分支到语义分支的特征传播(Feature prop)支持在特征空间中隐式地进行彻底的RGB- D融合。通过引入几何感知传播方案，性能得到了显著提高。
对于两种融合解，几何感知传播(GAP)的性能优于普通卷积(VanConv)。这要归功于从深度嵌入中提取的表的几何亲和力。最后的SPF块多级融合与编码器的fea-帧给出了另一个提高性能。

总结：

本文通过对共享骨干网的解耦，提出了几何蒸馏和语义标签预测的联合推理方法。利用所学习的嵌入知识，提出了一种基于几何感知的传播体系结构，并以此作为改进语义特征的指导思想。通过跳过金字塔融合块，将提取的特征信息进一步反馈到共享主干，与多层上下文信息融合。取得了很好的性能。

图像语义分割论文解读（一）：Geometry-Aware Distillation for Indoor Semantic Segmentation