RGB‑D Gate‑guided edge distillation for indoor semantic segmentation

本文提出gate-guided edge distillation(GED)通过融合rgb和depth特征来产生edge-aware特征。GED包含两个部分,gate fusion和edge distillation,gate fusion自适应学习rgb和depth的关系来生成互补特征。edge distillation增强相同物体的语义特征,同时保留不同物体的语义特征之间的差异。将经过edge distillation之后的特征与高层语义特征进行融合。最后互补的特征用于多层特征融合模块来增强细节信息。

文章受到gate-scnn的启发,提出使用edge-aware特征来融合语义特征作为细节引导。

文章结构:首先两个backbone用来提升RGB和depth分支,gate fusion用于融合rgb和depth分支,为了得到更准确的edge-aware特征,我们使用edge distillation来进行一个增强。最后通过EGF模块来融合经过edge distillation增强过的edge-aware和语义特征。为了进一步增强细节信息,经过gate fusion后的特征用于decoder的高分辨率标签的预测。

在这里插入图片描述

gate-fusion模块:
在这里插入图片描述
在这里插入图片描述
rgb和depth首先经过1x1卷积,得到一个soft gate mask。(推测直接将输出维度变为1了),然后将两个mask进行concat,然后对拼接后的特征进行一个comparsion function,就是一个1x1卷积,然后将特征沿着通道维度划分为两个通道为1的特征。接着和原图进行一个逐像素相乘,维度不匹配,这里采用了广播机制。最后进行一个逐像素融合。
用公式表示为:
在这里插入图片描述
在这里插入图片描述
edge distillation
在这里插入图片描述
在这里插入图片描述
将RGB和depth融合的四个特征进行一个distillation,用公式表示为:
在这里插入图片描述
根据原图我们可以看出g1和(1-g2)相乘,然后再和g1相加,文章给出的解释为:1- g通过滤除掉其他的层的特征来处理不相关的信息。因此可以学习到不同语义散度。一个额外的相加融合去学习物体和他周围的关系。

这里猜测g1 * (1 - g2) = g1 - g1 * g2,g1 * g2是否类似于transformer中的两个矩阵的点积,他们之间的值越大,代表他们越类似。g1 减去g1和g2类似的部分就是g1和g2不同的地方,g2加上g1不类似的部分,就是不同尺度的不同语义信息,后面的g3,g4同理。

edge-guided fusion
用于融合edge-aware和语义信息。edge体现在对gt进行canny操作,将生成的结果和edge-aware特征进行拼接和sigmoid。原始的RGB和进过sigmoid之后的edge分支相乘,相当于突出RGB的边缘信息,下面的分支进行了一个注意力操作。
在这里插入图片描述
注意在原图中GT生成了一个edge map用于监督edge-aware特征。

multi-level feature fusion
在这里插入图片描述
损失
对于分割损失使用交叉熵损失,对于边界损失使用L1损失。
在这里插入图片描述

实验
在sunrgb-d上结果:
在这里插入图片描述
在nyu上结果:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_43733107/article/details/128885118