SRNet-图推理高效率语义分割网络 | Towards Efficient Scene Understanding via Squeeze Reasoning

论文地址:https://arxiv.org/pdf/2011.03308.pdf

在这里插入图片描述

Abstract:

基于图的卷积模型(例如non-local块)已显示出可有效增强卷积神经网络(CNN)中的上下文建模能力。但是,其按像素计算的开销非常高,这使其不适用于高分辨率图像。在本文中,我们探索了上下文图推理的效率,并提出了一种称为Squeeze Reasoning的新颖框架。首先,我们不是在空间图上传播信息,而是先学习将输入特征压缩为逐个通道的全局向量,并在单个向量内执行推理,从而可以显着降低计算成本。具体来说,我们在向量中构建节点图,其中每个节点代表一个抽象的语义概念。同一语义类别内的优化特征可以保持一致,因此对于下游任务很有用。我们表明,我们的方法可以模块化为端到端训练的模块,并且可以轻松插入现有网络。尽管其简单性和轻巧性,我们的策略仍使我们能够建立一种新的语义分割技术,并在包括对象在内的各种其他如检测,实例分割和全景分割场景理解任务上,相对于强大的,最先进的基准显示出显着的改进。

Introduction:

现有的全局上下文信息获取的方法,如non-local、各种注意力机制,由于其参数成本太高,无法应用于高分辨率输入的场景中。

因此,本文提出一个问题:我们是否可以找到另一种方法来消除高成本空间信息的局限性,同时获取全局上下文信息

Motivation:
在这里插入图片描述

本文首先使用预训练好的的Deeplabv3 +模型进行toy实验,计算出最终归一化特征(分类前为512维度)上的像素,并给出了激活值超过0.8的gt mask。

如上图所示,作者发现稀疏的类别沿着通道分布在不同的组中。意味着类别与通道index组关系更大,从而可以避免空间特征图的处理

为了简单起见,这里仅显示三个类。 这启发了作者,可以仅在每个组代表一个特定的语义类别的同时在通道上构建信息传播模块,同时可以避免空间分辨率的成本。首先将特征压缩到一个紧凑的全局向量中,然后对该紧凑的向量执行推理操作。 得益于squeeze操作,与以前的工作相比,可以显着降低计算成本。 本文提出的方法的示意图如下图所示:
在这里插入图片描述

Method:

在这里插入图片描述

如上图所示:SR模块主要包含3个部分:Node Squeezing,Node Graph Reasoning, Feature Resconstruction

A.Node Squeezing

目的是为了获取通道维度上的全局统计信息。具体操作,论文采用了两种:GAP和GHP。其中GAP就是全局平均池化层,GHP是Hadamard 点乘,可以获取更复杂的二阶统计量信息。论文也对这两种squeeze方式进行了消融实验。

B.Node Graph Reasoning

这里主要采用了GCN和SA两种方式。具体来说,GCN就是图卷积,SA是使用自注意力机制来进行信息交换。其中Node Squeezing和Node Graph Reasoning的消融实验如下图:
在这里插入图片描述

C.Feature Resconstruction

也很简单,就是节点图推理的通道权重对输入进行加权融合。

Experiments:

1.推理效率:
在这里插入图片描述
在这里插入图片描述
2.SOTA:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42096202/article/details/109629908
今日推荐