BiSeNet:

Abstract:双边分割网络

首先设计了Spatial Path(SP) with a small stride,用于得到spatial information and 生成 high-resolution features。然后,Context Path(CP) with a fast 下采样策略,获得做够的receptive field。并在两条路径顶端引入新的Feature Fusion Module
提出的结构平衡了速度和性能。Cityscapes数据集上2048x1024输入得到了68.4%miou,105FPS(Titan xp)。

Introduction

实时语义分割加快模型的几种方法:
1.减少input size,简单有效,但损失spatial details,尤其是边缘信息
2. 减少 channel , 削弱了 spatial capacity
3. Enet 放弃模型的最后一个阶段,由于ENet在最后阶段放弃了下采样操作,模型的感受野不足以覆盖较大的对象,导致识别能力较差。
为了解决spatial details的损失,采用Unet结构。但有两个缺点:1.由于在高分辨率的特征图上引入额外计算,会减少模型速度;2.大部分空间信息并不能很容易的通过浅层恢复。
提出的BiSeNet有SPCP,分别处理空间信息的损失和感受野。SP只有3个卷积layers得到1/8的特征图,保留丰富的空间细节。CP在Xception尾部添加一个GAP。为了在不损失speed的情况下追求精度,研究了两条路径的融合以及最终预测的refinement,提出了Feature FusionModule (FFM) and Attention Refinement Module (ARM) 。

在这里插入图片描述

BiSeNet

在这里插入图片描述
由于输入尺寸缩小,丢失了原始图像的大部分空间信息,而轻量级模型由于通道剪纸而破坏了空间信息。
SP: 三个layers,每个stride为2,得到1/8的feature map。由于 large spatial size of feature maps 编码了丰富的空间信息
**CP:**由于SP编码了丰富的空间信息,CP被设计为提供足够多的感受野。采用Xception,并在尾部添加GAP。
ARM:在CP中,我们是用ARM来refine 每一阶段的特征。ARM使用GAP来capture global context 来计算一个注意力vector 来指导特征学习。它很容易的整合了global context information,而没有任何 up-sampling operation.计算cost几乎可以不计。

首先关注计算:SP虽然输入尺寸较大,但只有三个卷积layers,不会有太多的计算消耗。CP则采用轻量级模型来快速下采样。然后关注准确率: SP编码丰富的空间信息,CP提供large 感受野。他们在提高性能方面是互补的。
Feature fusion module:两条路径在特征图上是不同的,不能简单的sum。SP得到更多的details information,CP得到context information,换句话说,SP输出的特征是low level,CP输出的特征是high level。(有点像SENet)
8倍上采样(双线性插值)不用反卷积。
**loss:**一个主要的loss,还有2个辅助loss(在CP),loss都是Softmax loss. lp是concatenated output的损失函数,li是stage i 的辅助loss,本文 a=1,K = 3. 只在训练中使用辅助loss。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_41997237/article/details/109577054