BiSeNet:

Abstract:双边分割网络

首先设计了Spatial Path（SP） with a small stride,用于得到spatial information and 生成 high-resolution features。然后，Context Path（CP） with a fast 下采样策略，获得做够的receptive field。并在两条路径顶端引入新的Feature Fusion Module。
提出的结构平衡了速度和性能。Cityscapes数据集上2048x1024输入得到了68.4%miou，105FPS（Titan xp）。

Introduction

实时语义分割加快模型的几种方法：
1.减少input size，简单有效，但损失spatial details，尤其是边缘信息
2. 减少 channel ，削弱了 spatial capacity
3. Enet 放弃模型的最后一个阶段，由于ENet在最后阶段放弃了下采样操作，模型的感受野不足以覆盖较大的对象，导致识别能力较差。
为了解决spatial details的损失，采用Unet结构。但有两个缺点：1.由于在高分辨率的特征图上引入额外计算，会减少模型速度；2.大部分空间信息并不能很容易的通过浅层恢复。
提出的BiSeNet有SP和CP，分别处理空间信息的损失和感受野。SP只有3个卷积layers得到1/8的特征图，保留丰富的空间细节。CP在Xception尾部添加一个GAP。为了在不损失speed的情况下追求精度，研究了两条路径的融合以及最终预测的refinement，提出了Feature FusionModule (FFM) and Attention Refinement Module (ARM) 。

在这里插入图片描述

BiSeNet

在这里插入图片描述
由于输入尺寸缩小，丢失了原始图像的大部分空间信息，而轻量级模型由于通道剪纸而破坏了空间信息。
SP： 三个layers，每个stride为2，得到1/8的feature map。由于 large spatial size of feature maps 编码了丰富的空间信息。
**CP：**由于SP编码了丰富的空间信息，CP被设计为提供足够多的感受野。采用Xception，并在尾部添加GAP。
ARM：在CP中，我们是用ARM来refine 每一阶段的特征。ARM使用GAP来capture global context 来计算一个注意力vector 来指导特征学习。它很容易的整合了global context information，而没有任何 up-sampling operation.计算cost几乎可以不计。

首先关注计算：SP虽然输入尺寸较大，但只有三个卷积layers，不会有太多的计算消耗。CP则采用轻量级模型来快速下采样。然后关注准确率： SP编码丰富的空间信息，CP提供large 感受野。他们在提高性能方面是互补的。
Feature fusion module：两条路径在特征图上是不同的，不能简单的sum。SP得到更多的details information，CP得到context information，换句话说，SP输出的特征是low level，CP输出的特征是high level。（有点像SENet）
8倍上采样（双线性插值）不用反卷积。
**loss：**一个主要的loss，还有2个辅助loss（在CP），loss都是Softmax loss. lp是concatenated output的损失函数，li是stage i 的辅助loss，本文 a=1，K = 3. 只在训练中使用辅助loss。
在这里插入图片描述

Abstract:双边分割网络

Introduction

BiSeNet

猜你喜欢