BiSeNet：用于实时语义分割的双边分割网络——BiSeNet:Bilateral Segmentation Network for Real-time Semantic Segmentation

0.摘要

语义分割需要丰富的空间信息和较大的感受野。然而，现代的方法通常为了实现实时推断速度而牺牲空间分辨率，导致性能下降。本文提出了一种新的双边分割网络（BiSeNet）来解决这个问题。我们首先设计了一个具有小步长的空间路径来保留空间信息并生成高分辨率特征。同时，采用快速下采样策略的上下文路径用于获取足够的感受野。在两个路径之上，我们引入了一个新的特征融合模块来有效地组合特征。所提出的架构在Cityscapes、CamVid和COCO-Stuff数据集上在速度和分割性能之间取得了适当的平衡。具体而言，对于2048×1024的输入，在一张NVIDIA Titan XP卡上实现105 FPS的速度，在Cityscapes测试数据集上实现68.4％的平均IOU，比现有的具有相似性能的方法快得多。

关键词：实时语义分割·双边分割网络

1.引言

语义分割的研究是计算机视觉中的基本任务之一，它涉及为每个像素分配语义标签。它可以广泛应用于增强现实设备、自动驾驶和视频监控等领域。这些应用对于快速交互或响应具有高效推断速度的需求。

最近，实时语义分割算法[1,17,25,39]表明了加速模型的主要三种方法。

1）[34,39]尝试通过裁剪或调整大小来限制输入大小，以减少计算复杂度。虽然该方法简单有效，但是空间细节的丢失会破坏预测结果，特别是在边界周围，导致度量和可视化的准确性下降。

2）一些工作并不调整输入图像的大小，而是裁剪网络中的通道以提高推断速度[1,8,25]，特别是在基础模型的早期阶段。然而，这会削弱空间能力。

3）对于最后一种情况，ENet[25]提议丢弃模型的最后一阶段，以追求一个极其紧凑的框架。然而，这种方法的缺点是显而易见的：由于ENet放弃了最后一阶段中的下采样操作，因此模型的感受野不足以覆盖大的物体，导致较差的区分能力。总的来说，上述所有方法都是在准确性和速度之间做出了妥协，实际上的效果较差。图1（a）给出了说明。

为了解决上述空间细节丢失的问题，研究人员广泛使用U形结构[1,25,35]。通过融合主干网络的分层特征，U形结构逐渐增加了空间分辨率并填充了一些缺失的细节。然而，这种技术有两个缺点。

1）完整的U形结构会因在高分辨率特征图上引入额外的计算而降低模型的速度。

2）更重要的是，大多数在裁剪或调整大小中丢失的空间信息不能通过涉及浅层来轻松恢复，如图1(b)所示。换句话说，U形技术更适合作为一种缓解措施，而不是必要的解决方案。基于上述观察，我们提出了一个双边分割网络（BiSeNet），它由两部分组成：空间路径（SP）和上下文路径（CP）。正如它们的名称所示，这两个组件分别设计为应对空间信息的丢失和感受野的缩小。这两条路径的设计理念很清晰。对于空间路径，我们只堆叠了三个卷积层，以获得1/8的特征图，保留了丰富的空间细节。对于上下文路径，我们在Xception [8]的尾部添加了一个全局平均池化层，其中感受野是主干网络的最大值。图1(c)显示了这两个组件的结构。

为了追求更好的准确性而不损失速度，我们还研究了两条路径的融合和最终预测的细化，并提出了特征融合模块（FFM）和注意力细化模块（ARM）。正如我们接下来的实验所显示的那样，这两个额外的组件可以进一步提高Cityscapes [9]、CamVid [2]和COCO-Stuff [3]基准测试的整体语义分割准确性。我们的主要贡献总结如下：- 我们提出了一种新颖的方法，将空间信息保留和感受野提供的功能分解为两条路径。具体而言，我们提出了一个双边分割网络（BiSeNet），其中包括一个空间路径（SP）和一个上下文路径（CP）。- 我们设计了两个特定的模块，即特征融合模块（FFM）和注意力细化模块（ARM），以进一步提高准确性，成本可接受。- 我们在Cityscapes、CamVid和COCO-Stuff基准测试上取得了令人印象深刻的结果。具体而言，我们在Cityscapes测试数据集上获得了68.4%的准确率，速度为105 FPS。

图1.加速架构和我们提出的方法的示意图。

(a)展示了在输入图像上进行裁剪或调整大小操作以及通过裁剪通道或删除阶段来实现轻量级模型的情况。

(b)表示U形结构。

(c)演示了我们提出的双边分割网络（BiSeNet）。黑色虚线代表破坏空间信息的操作，而红色虚线代表缩小感受野的操作。绿色块是我们提出的空间路径（SP）。

在网络部分中，每个块代表不同下采样大小的特征映射。块的长度代表空间分辨率，而厚度代表通道数。

2.相关工作

最近，基于FCN [22]的许多方法在语义分割任务的不同基准测试中取得了最先进的性能。这些方法大多旨在编码更多的空间信息或扩大感受野。空间信息：卷积神经网络（CNN）[16]通过连续的下采样操作编码高级语义信息。然而，在语义分割任务中，图像的空间信息对于预测详细的输出至关重要。现代现有的方法致力于编码丰富的空间信息。DUC [32]、PSPNet [40]、DeepLab v2 [5]和Deeplab v3 [6]使用扩张卷积来保留特征图的空间大小。全局卷积网络 [26]利用“大卷积核”来扩大感受野。

U形结构方法：U形结构[1,10,22,24,27]可以恢复一定程度的空间信息。原始的FCN [22]网络通过跳跃连接网络结构对不同级别的特征进行编码。一些方法将它们特定的细化结构引入到U形网络结构中。[1,24]使用反卷积层创建一个U形网络结构。U-net [27]引入了有用的跳跃连接网络结构。全局卷积网络 [26]将U形结构与“大卷积核”相结合。LRR [10]采用拉普拉斯金字塔重建网络。RefineNet [18]添加了多路径细化结构来细化预测。DFN [36]设计了一个通道注意力块来实现特征选择。然而，在U形结构中，一些丢失的空间信息无法轻松恢复。

上下文信息：语义分割需要上下文信息来生成高质量的结果。大多数常见方法扩大感受野或融合不同的上下文信息。[5,6,32,37]在卷积层中采用不同的膨胀率来捕获多样的上下文信息。受图像金字塔的驱动，多尺度特征集合始终被应用于语义分割网络结构中。在[5]中，提出了一个“ASPP”模块来捕获不同感受野的上下文信息。PSPNet [40]应用了一个包含几个不同尺度平均池化层的“PSP”模块。[6]设计了一个带有全局平均池化的“ASPP”模块来捕获图像的全局上下文。[38]通过一个尺度自适应卷积层来改进神经网络，以获得自适应场上下文信息。DFN [36]在U形结构的顶部添加全局池化来编码全局上下文。

注意机制：注意机制可以利用高级信息来指导前向网络[23,31]。在[7]中，CNN的注意力取决于输入图像的尺度。在[13]中，他们将通道注意力应用于识别任务，并取得了最先进的效果。与DFN [36]类似，他们将全局上下文作为注意力学习，并修正特征。

实时分割：实时语义分割算法需要一种快速生成高质量预测的方法。SegNet [1]利用小型网络结构和跳跃连接方法实现快速速度。E-Net [25]从零开始设计了一个轻量级网络，并提供了极高的速度。ICNet [39]使用图像级联来加速语义分割方法。[17]采用级联网络结构来减少“易区域”的计算量。[34]设计了一种新颖的双列网络和空间稀疏性来降低计算成本。不同的是，我们提出的方法采用轻量级模型来提供足够的感受野。此外，我们设置一个浅但宽的网络来捕获足够的空间信息。

3.双边分割网络

在本节中，我们首先详细介绍了我们提出的具有空间路径和上下文路径的双边分割网络（BiSeNet）。此外，我们分别阐述了这两个路径的有效性。最后，我们演示如何使用特征融合模块将这两个路径的特征结合起来，并展示了我们BiSeNet的整体架构。

图2.双边分割网络的概述。

(a)网络架构。块的长度表示空间大小，而厚度表示通道数。

(b)注意力细化模块(ARM)的组成部分。

(c)特征融合模块(FFM)的组成部分。读取线表示只在测试时进行该过程。

3.1.空间路径

在语义分割任务中，一些现有方法 [5、6、32、40]试图通过膨胀卷积来保留输入图像的分辨率，以编码足够的空间信息，而少数方法 [5、6、26、40]则尝试使用金字塔池化模块、空洞空间金字塔池化或“大内核”来捕获足够的感受野。这些方法表明，空间信息和感受野对于实现高精度非常关键。然而，同时满足这两个要求是很难的。特别是在实时语义分割的情况下，现有的现代方法 [1、25、39]利用小输入图像或轻量级基础模型来加速。小输入图像的尺寸使得大部分空间信息丢失，而轻量级模型通过通道剪枝破坏了空间信息。

基于这个观察结果，我们提出了一个空间路径来保留原始输入图像的空间尺寸并编码丰富的空间信息。空间路径包含三个层。每层都包括一个步幅为2的卷积，后跟批量归一化 [15]和ReLU [11]。因此，该路径提取的输出特征图是原始图像的1/8。由于特征图的空间大小较大，它编码了丰富的空间信息。图2(a)展示了结构的详细信息。

3.2.上下文路径

虽然空间路径编码了丰富的空间信息，但上下文路径旨在提供足够的感受野。在语义分割任务中，感受野对性能非常重要。为了扩大感受野，一些方法利用金字塔池化模块 [40]、空洞空间金字塔池化 [5、6]或“大内核”[26]的优势。然而，这些操作计算要求高，内存消耗大，导致速度较慢。考虑到同时具有大的感受野和高效的计算，我们提出了上下文路径。上下文路径利用轻量级模型和全局平均池化[5、6、21]来提供大的感受野。在本工作中，轻量级模型像Xception [8]一样可以快速向下采样特征图以获得大的感受野，从而编码高层语义上下文信息。然后，我们在轻量级模型的尾部添加了全局平均池化，它可以提供具有全局上下文信息的最大感受野。最后，我们将全局池化的上采样输出特征和轻量级模型的特征相结合。在轻量级模型中，我们采用U形结构 [1、25、35]来融合最后两个阶段的特征，这是不完整的U形式样。图2(c)展示了上下文路径的整体视角。

注意力细化模块：在上下文路径中，我们提出了一种特定的注意力细化模块(ARM)来优化每个阶段的特征。如图2(b)所示，ARM采用全局平均池化来捕获全局上下文，并计算一个注意力向量来指导特征学习。这种设计可以优化上下文路径中每个阶段的输出特征。它可以轻松地集成全局上下文信息，而不需要任何上采样操作。因此，它的计算成本可以忽略不计。

3.3.网络架构

通过空间路径和上下文路径，我们提出了BiSeNet用于实时语义分割，如图2(a)所示。我们使用预训练的Xception模型作为上下文路径的主干，使用三个带有步幅的卷积层作为空间路径。然后，我们融合这两条路径的输出特征以进行最终预测。它可以同时实现实时性能和高精度。首先，我们关注实际计算方面。虽然空间路径具有较大的空间尺寸，但它只有三个卷积层。因此，它的计算成本不高。至于上下文路径，我们使用轻量级模型进行快速下采样。此外，这两个路径同时计算，大大提高了效率。其次，我们讨论了该网络的准确性方面。在我们的论文中，空间路径编码丰富的空间信息，而上下文路径提供大的感受野。它们互相补充，以获得更高的性能。

特征融合模块：两个路径的特征在特征表达的层次上不同。因此，我们不能简单地将这些特征相加。空间路径捕获的空间信息主要编码了丰富的细节信息。此外，上下文路径的输出特征主要编码上下文信息。换句话说，空间路径的输出特征是低级别的，而上下文路径的输出特征是高级别的。因此，我们提出了一个特定的特征融合模块来融合这些特征。鉴于特征的不同级别，我们首先连接空间路径和上下文路径的输出特征。然后，我们利用批量归一化 [15]来平衡特征的尺度。接下来，我们将连接的特征池化为一个特征向量，并计算一个权重向量，类似于SENet [13]。这个权重向量可以重新加权特征，相当于特征选择和组合。图2(c)展示了这个设计的细节。

损失函数：在本文中，我们还利用辅助损失函数来监督我们提出的方法的训练。我们使用主要的损失函数来监督整个BiSeNet的输出。此外，我们添加了两个特定的辅助损失函数来监督上下文路径的输出，类似于深度监督 [35]。所有的损失函数都是Softmax损失，如公式1所示。此外，我们使用参数α来平衡主要损失和辅助损失的权重，如公式2所示。在我们的论文中，α等于1。联合损失使优化器更容易优化模型。

其中，l_p是连接输出的主要损失。Xi是Xception模型第i阶段的输出特征。li是第i阶段的辅助损失。在我们的论文中，K等于3。L是联合损失函数。在这里，我们只在训练阶段使用辅助损失。

4.实验结果

我们采用修改后的Xception模型[8]，Xception39，用于实时语义分割任务。我们的实现代码将公开发布。我们在Cityscapes [9]、CamVid [2]和COCO Stuff [3]基准数据集上评估我们提出的BiSeNet。首先介绍数据集和实现协议。接下来，我们详细描述了与其他方法相比的速度策略。然后，我们研究了我们提出的方法的每个组件的效果。我们在Cityscapes验证集上评估了所有性能结果。最后，我们报告了与其他实时语义分割算法相比，在Cityscapes、CamVid和COCO-Stuff数据集上的准确性和速度结果。

Cityscapes: Cityscapes [9]是一个从汽车视角拍摄的大型城市街景数据集。它包含2,975张用于训练的精细注释图像和另外500张用于验证的图像。在我们的实验中，我们只使用了精细的数据集。在测试中，它提供了1,525张没有地面真实值的图像，以进行公平比较。这些图像的分辨率都为2,048×1,024，每个像素都被注释为预定义的19个类别。 CamVid: CamVid [2]是另一个从驾驶汽车视角的街景数据集。它总共包含701张图像，其中367张用于训练，101张用于验证，233张用于测试。这些图像的分辨率为960×720，有11个语义类别。 COCO-Stuff: COCO-Stuff [3]扩充了流行的COCO [20]数据集的所有164,000张图像，其中118,000张用于训练，5,000张用于验证，20,000张用于测试-dev，20,000张用于测试-challenge。它涵盖了91个物品类别和1个“未标记”的类别。

4.1.实现协议

在本节中，我们详细阐述了我们的实现协议。网络：我们将三个卷积应用于Spatial Path和Xception39模型的Context Path。然后，我们使用Feature Fusion模块来组合这两个路径的特征以预测最终结果。Spatial Path和最终预测的输出分辨率为原始图像的1/8。

训练细节：我们在训练中使用批量大小为16、动量为0.9和权重衰减为1e-4的小批量随机梯度下降（SGD）[16]。类似于[5,6,21]，我们采用“poly”学习率策略，其中初始速率乘以(1 - max iter iter)的幂每次迭代都有0.9的幂。初始学习率为2.5e-2。数据增强：我们在训练过程中对输入图像进行均值减法、随机水平翻转和随机缩放来增强数据集。缩放包括{0.75, 1.0, 1.5, 1.75, 2.0}。最后，我们将图像随机裁剪成固定大小进行训练。

4.2.消融实验

在本小节中，我们逐步详细研究了我们提出的BiSeNet中每个组件的影响。在接下来的实验中，我们使用Xception39作为基础网络，并在Cityscapes验证数据集[9]上评估我们的方法。基线模型：我们使用在ImageNet数据集[28]上预训练的Xception39网络作为Context Path的骨干，并直接上采样网络的输出作为原始输入图像，类似于FCN [22]。我们将基础模型的性能作为我们的基线，如表1所示。

U-shape组件的消融实验：我们提出Context Path来提供足够的感受野。我们使用轻量级模型Xception39作为Context Path的骨干，以快速下采样。同时，我们使用U-shape结构[1,25,35]来结合Xception39网络中的最后两个阶段的特征，称为U-shape-8s，而不是标准的U-shape结构，称为U-shape-4s。数字表示输出特征的下采样因子，如图2所示。使用U-shape-8s结构的原因有两个。首先，U-shape结构可以恢复一定程度的空间信息和空间大小。其次，与U-shape-4s相比，U-shape-8s结构更快，如表2所示。因此，我们使用U-shape-8s结构，将性能从60.79%提高到66.01%，如表2所示。空间路径组件的消融实验：正如第1节所述，现有的实时语义分割任务的现代方法面临着空间信息丢失的挑战。因此，我们提出了空间路径来保留空间大小并捕获丰富的空间信息。空间路径包含三个步长为2的卷积，后跟批量归一化[15]和ReLU[11]。这将性能从66.01%提高到67.42%，如表3所示。空间路径编码了丰富的空间信息细节。图3显示BiSeNet可以获得更详细的空间信息，例如一些交通标志。

注意力细化模块的消融实验：为了进一步提高性能，我们特别设计了一个注意力细化模块（ARM）。该模块包含全局平均池化，将输出特征编码为向量。然后，我们利用卷积、批量归一化[15]和ReLU单元[11]计算注意力向量。原始特征将通过注意力向量进行重新加权。对于原始特征，它可以轻松捕捉全局上下文信息，而无需复杂的上采样操作。ARM的效果如表3所示。

特征融合模块的消融实验：基于空间路径和Context Path，我们需要融合这两个路径的输出特征。考虑到特征的不同层次，空间路径的特征属于低层次，Context Path的特征属于高层次，因此我们提出了特征融合模块来有效地组合这些特征。首先，我们评估了这些特征的简单加和和我们提出的特征融合模块的效果，如表3所示。比较性能的差距解释了两个路径的特征属于不同层次。全局平均池化的消融实验：我们期望Context Path可以提供足够的感受野。虽然原始的Xception39模型理论上可以覆盖输入图像的大部分区域，但我们仍然使用全局平均池化[21]进一步扩大感受野。这可以确保有效的感受野足够大。在本文中，我们在Xception39模型的末尾添加全局平均池化。然后，我们上采样全局平均池化的输出，并将其与Xception39模型中最后一个阶段的输出相加，类似于DFN [36]。这将性能从67.42%提高到68.42%，表明这种设计的效果，如表3所示。

表1.我们基线模型Xception39和Res18在Cityscapes验证数据集上的准确性和参数分析。这里我们使用FCN-32s作为基本结构。FLOPS是针对3×640×360的输入进行估计。

表2.U-shape-8s和U-shape-4s在一张NVIDIA Titan XP卡上的速度分析。图像尺寸为W×H。

图3.添加空间路径前和添加空间路径后的输出示例结果。输出的BiSeNet比U-shape的输出具有更多的细节信息。

表3.我们提出的BiSeNet中每个组件的详细性能比较。CP：Context Path；SP：Spatial Path；GP：全局平均池化；ARM：注意力细化模块；FFM：特征融合模块。

表4.我们基线模型Xception39和Res18在Cityscapes验证数据集上的准确性和参数分析。这里我们使用FCN-32s作为基本结构。FLOPS是针对3×640×360的输入进行估计。

表5.我们方法与其他最先进的方法的速度比较。图像尺寸为W×H。Ours1和Ours2是基于Xception39和Res18模型的BiSeNet。

表6.我们方法在Cityscapes测试数据集上与其他最先进的方法的准确性和速度比较。我们在NVIDIA Titan XP上以2048×1024分辨率输入进行训练和评估。“-”表示该方法没有给出相应的准确性速度结果。

4.3.速度和准确率分析

本节中，我们首先分析了我们算法的速度。然后，我们与其他算法在Cityscapes [9]、CamVid [2]和COCO-Stuff [3]基准测试上的最终结果进行了报告。

速度分析：速度是算法的一个重要因素，特别是当我们将其应用于实践时。我们在不同的设置下进行实验，以进行彻底的比较。首先，我们在表4中展示了我们的FLOPS和参数状态。FLOPS和参数表示处理这个分辨率的图像所需操作的数量。为了公平比较，我们选择了640×360作为输入图像的分辨率。同时，表5呈现了我们方法与其他方法在不同分辨率的输入图像和不同硬件基准测试上的速度比较。最后，我们在Cityscapes测试数据集上报告了我们的速度和相应的准确性结果。从表6中，我们可以发现我们的方法在速度和准确性方面都取得了显著进展。在评估过程中，我们首先将2048×1024分辨率的输入图像缩放为1536×768分辨率，以测试速度和准确性。同时，我们使用[33]中描述的在线bootstrap ping策略计算损失函数。在这个过程中，我们没有采用任何测试技术，如多尺度或多裁剪测试。

准确性分析：实际上，我们的BiSeNet也可以在其他非实时语义分割算法上实现更高的准确性结果。在这里，我们将展示在Cityscapes [9]、CamVid [2]和COCO-Stuff [3]基准测试上的准确性结果。同时，为确保我们方法的有效性，我们还将其应用于不同的基础模型，如标准ResNet18和ResNet101 [12]。接下来，我们将详细说明一些训练细节。 Cityscapes:如表7所示，我们的方法在不同模型上也取得了令人印象深刻的结果。为提高准确性，我们随机选择1024×1024裁剪作为输入。图4展示了我们结果的一些视觉示例。 CamVid:表8显示了CamVid数据集上的统计准确性结果。为了测试，我们使用训练数据集和验证数据集来训练我们的模型。在这里，我们使用960×720的分辨率进行训练和评估。 COCO-Stuff:我们还在表9中报告了我们在COCO-Stuff验证数据集上的准确性结果。在训练和验证过程中，我们将输入裁剪为640×640分辨率。为了公平比较，我们没有采用多尺度测试。

图4：基于Xception39、Res18和Res101模型的BiSeNet在Cityscapes数据集上的示例结果。

表7：我们的方法在Cityscapes测试数据集上与其他最先进方法的准确性比较。 "-"表示该方法没有给出相应的结果。

表8：CamVid测试数据集上的准确性结果。Ours1和Ours2表示基于Xception39和Res18网络的模型。表9：在COCO-Stuff验证数据集上的准确性结果。

5.结论

本论文提出了双边分割网络（BiSeNet），旨在同时提高实时语义分割的速度和准确性。我们提出的BiSeNet包含两个路径：空间路径（SP）和上下文路径（CP）。空间路径旨在保留原始图像的空间信息。而上下文路径则利用轻量级模型和全局平均池化[6,21,40]快速获取可观的感受野。通过富有细节的空间信息和大的感受野，我们在105 FPS的速度下在Cityscapes [9]测试数据集上实现了68.4％的平均IOU结果。

参考文献

Badrinarayanan, V., Kendall, A., Cipolla, R .: SegNet:一种用于图像分割的深度卷积编码器-解码器体系结构。IEEE模式分析和机器智能交易39（12），2481-2495（2017）2,4,5,6,9,11,12

Brostow，G.J.，Shotton，J.，Fauqueur，J.，Cipolla，R .：使用运动点云的结构进行分割和识别。欧洲计算机视觉会议上的pp.44-57（2008）3,7,8,12

Caesar，H.，Uijlings，J.，Ferrari，V .：Coco-stuff：上下文中的物品和材料类别。在：IEEE计算机视觉和模式识别会议（2018）3,7,8,12

Chen，L.C.，Papandreou，G.，Kokkinos，I.，Murphy，K.，Yuille，A.L.：使用深度卷积网络和完全连接的CRF进行语义图像分割。ICLR（2015）13

Chen，L.C.，Papandreou，G.，Kokkinos，I.，Murphy，K.，Yuille，A.L .：使用深度卷积网络，atrous卷积和完全连接的CRF进行语义图像分割。arXiv（2016）3,4,5,6,8,13

Chen，L.C.，Papandreou，G.，Schroff，F.，Adam，H.：重新思考语义图像分割的atrous卷积。arXiv（2017）3,4,5,6,8,14

Chen，L.C.，Yang，Y.，Wang，J.，Xu，W.，Yuille，A.L.：注意规模：规模感知的语义图像分割。在：IEEE计算机视觉和模式识别会议（2016）4

Chollet，F.：Xception：使用深度可分离卷积进行深度学习。IEEE计算机视觉和模式识别会议（2017）2,3,6,7

Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson，R.，Franke，U.，Roth，S.，Schiele，B .：用于语义城市场景理解的Cityscapes数据集。在：IEEE计算机视觉和模式识别会议（2016）3,7,8,12,14

Ghiasi，G.，Fowlkes，C.C.：Laplacian金字塔重建和细化语义分割。在：欧洲计算机视觉会议（2016）4,13

Glorot，X.，Bordes，A.，Bengio，Y .：深度稀疏整流器神经网络。在：人工智能和统计国际会议上。PP.315-323（2011）5,9,10

He，K.，Zhang，X.，Ren，S.，Sun，J.：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议（2016）12

Hu，J.，Shen，L.，Sun，G .：挤压和激励网络。arXiv（2017）4,7

Iandola，F.N.，Moskewicz，M.W.，Ashraf，K.，Han，S.，Dally，W.J.，Keutzer，K .：Squeezenet：具有50倍少的参数和¡1mb模型大小的Alexnet级准确性。arXiv abs/1602.07360（2016）12

Ioffe，S.，Szegedy，C .：批归一化：通过减少内部协变量移位加速深度网络训练。在：国际机器学习会议上。PP.448-456（2015）5,7,9,10

Krizhevsky，A.，Sutskever，I.，Hinton，G.E.：使用深度卷积神经网络进行Imagenet分类。在：神经信息处理系统（2012）3,8

Li，X.，Liu，Z.，Luo，P.，Loy，C.C.，Tang，X.：并非所有像素都是相等的：通过深层级联进行难度感知的语义分割。IEEE计算机视觉和模式识别会议（2017）2,4,12