Res2Net：一种新的多尺度主干架构

摘要-

在众多视觉任务中，以多种尺度表示特征非常重要。骨干卷积神经网络（CNN）的最新进展不断显示出更强大的多尺度表示能力，从而在整个应用范围内获得了一致的性能。然而，大多数现有方法都代表了多层尺度的多尺度特征。在本文中，我们通过在单个残差块内构造类似于残差的分层连接，为CNN提出了一种新颖的构造块，即Res2Net。

Res2Net在粒度级别上代表了多尺度功能，并增加了每个网络层的接受域范围。可以将建议的Res2Net块插入最新的主干CNN模型中，例如ResNet，ResNeXt和DLA。我们在所有这些模型上评估Res2Net块，并在广泛使用的数据集（例如CIFAR-100和ImageNet）上展示了优于基线模型的一致性能提升。

有关代表性计算机视觉任务（例如，对象检测，类激活映射和显着对象检测）的进一步消融研究和实验结果，进一步验证了Res2Net相对于最新基线方法的优越性。源代码和训练模型可在https://mmcheng.net/res2net/获得。

简介

图1：多尺度表示对于各种视觉任务至关重要，例如感知目标对象的边界，区域和语义类别。即使对于最简单的识别任务，也可以从非常不同的尺度上感知信息，以理解零件，物体（例如，在此示例中是沙发，桌子和杯子）及其周围的背景（例如，“在桌子上”的背景）也有助于识别黑色斑点。

如图1所示，在自然场景中，视觉模式会以多比例出现。首先，对象在单个图像中可能会出现不同大小的图像，例如，沙发和杯子的大小不同。其次，对象的基本上下文信息可能比对象本身占据更大的区域。例如，我们需要以大桌子为背景，以更好地判断放在桌子上的黑色小斑点是杯子还是笔筒。第三，感知不同尺度的信息对于理解零件和对象（如细粒度分类和语义分割）至关重要。因此，为视觉识别任务的多尺度刺激设计良好的功能至关重要，包括图像分类[28]，目标检测[43]，注意力预测[45]，目标跟踪[63]，动作识别[46] ]，语义分割[6]，显着目标检测[2]，[24]，目标提议[12]，[43]，骨架提取[67]，立体匹配[42]和边缘检测[37]，[57 ]。

毫不奇怪，多尺度特征已广泛用于常规特征设计[1] [39]和深度学习[10] [51]中。在视觉任务中获得多尺度表示需要特征提取器使用大量的接受域来描述不同尺度的对象/零件/上下文。卷积神经网络（CNN）通过一堆卷积运算符自然地学习了从粗到细的多尺度特征。 CNN固有的多尺度特征提取能力可以有效地解决众多视觉任务。如何设计更有效的网络架构是进一步提高CNN性能的关键。

在过去的几年中，例如[10]的几个骨干网络在众多具有先进性能的视觉任务中取得了显着进步。诸如AlexNet [28]和VGGNet [47]的早期体系结构可堆叠卷积运算符，从而使数据驱动的多尺度特征学习成为可能。随后，通过使用具有不同内核大小的转换层（例如，InceptionNets [50]，[51]，[52]），剩余模块（例如，ResNet [23]），快捷方式连接（例如，），提高了多尺度能力的效率，DenseNet [26]）和分层层聚合（例如DLA [60]）。骨干CNN架构的进步表明了一种朝着更有效，更高效的多尺度表示方式发展的趋势。

图2：瓶颈块与拟议的Res2Net模块之间的比较（比例尺尺寸s = 4）。

在这项工作中，我们提出了一种简单而有效的多尺度处理方法。与大多数现有的增强CNN的分层多尺度表示强度的方法不同，我们在更精细的水平上提高了多尺度表示能力。与一些并发著作[5]，[9]，[11]通过利用具有不同分辨率的特征来提高多尺度能力的方法不同，我们提出的方法的多尺度是指更细粒度的多个可用接收场。为了实现这个目标，我们用一组较小的过滤器组替换n通道的3×3过滤器1，每个过滤器组都有w个通道（在不失一般性的情况下，我们使用n = s×w）。如图2所示，这些较小的过滤器组以类似分层的残差样式连接，以增加输出特征可以表示的标度数量。具体来说，我们将输入要素图分为几组。一组过滤器首先从一组输入特征图中提取特征。然后将上一组的输出要素与另一组输入要素图一起发送到下一组过滤器。重复此过程几次，直到处理完所有输入要素图。最后，将所有组的特征图连接起来，然后发送到另一组1×1过滤器以完全融合信息。随着输入特征转换为输出特征的任何可能路径，当等效接收场通过3×3滤波器时，等效接收场就会增加，由于组合效应，会导致许多等效特征尺度。

Res2Net策略揭示了一个新的维度，即规模（Res2Net块中要素组的数量），它是除现有深度[47]，宽度2和基数[56]之外的重要因素。我们在秒。 4.4扩大规模比增加其他规模更有效。

注意，所提出的方法在更细粒度的水平上利用了多尺度潜力，这与利用分层操作的现有方法正交。因此，可以很容易地将建议的构建块，即Res2Net模块插入许多现有的CNN架构中。大量的实验结果表明，Res2Net模块可以进一步改善CNN的性能，例如ResNet [23]，ResNeXt [56]和DLA [60]。

2相关工作

2.1骨干网

近年来，见证了无数的骨干网[15]，[23]，[26]，[28]，[47]，[51]，[56]，[60]达到了最新水平在各种视觉任务中表现出色，并具有更强的多尺度表示能力。按照设计，由于输入信息遵循从细到粗的方式，CNN具备基本的多尺度特征表示功能。 AlexNet [28]按顺序堆叠过滤器，与传统的视觉识别方法相比，可显着提高性能。但是，由于过滤器的网络深度和内核大小有限，AlexNet的接收域相对较小。 VGGNet [47]增加了网络深度，并使用了内核大小较小的过滤器。更深的结构可以扩展接受域，这对于从更大范围提取特征很有用。与使用大型内核相比，通过堆叠更多的层来扩大接收域更为有效。这样，VGGNet提供了比AlexNet更强大的多尺度表示模型，并且参数更少。但是，AlexNet和VGGNet都直接堆叠过滤器，这意味着每个要素层都有一个相对固定的接受域。

网络中网络（NIN）

[31]将多层感知器作为微网络插入到大型网络中，以增强接收域中本地补丁的模型可分辨性。 NIN中引入的1×1卷积是融合功能的流行模块。 GoogLeNet [51]利用内核大小不同的并行滤波器来增强多尺度表示能力。但是，由于其有限的参数效率，这种能力通常受到计算约束的限制。初始网[50] [52]在GoogLeNet的平行路径的每个路径中堆叠更多的过滤器，以进一步扩大接收范围。另一方面，ResNet [23]引入了短连接网络，从而减轻了梯度消失的问题，同时获得了更深的网络结构。在特征提取过程中，短连接允许卷积运算符的不同组合，从而导致大量等效特征尺度。类似地，DenseNet [26]中紧密连接的层使网络能够在很大范围内处理对象。 DPN [10]将ResNet与DenseNet相结合，以实现ResNet的特征重用能力和DenseNet的特征探索能力。最近提出的DLA [60]方法在树状结构中合并了图层。分层树结构使网络能够获得更强大的分层多尺度表示能力。

2.2视觉任务的多尺度表示

CNN的多尺度特征表示对于许多视觉任务非常重要，包括目标检测[43]，面部分析[4]，[41]，边缘检测[37]，语义分割[6]，显着目标检测[ 34]，[65]和骨架检测[67]，提高了这些领域的模型性能。

2.2.1对象检测。

有效的CNN模型需要在场景中定位不同比例的对象。诸如R-CNN [18]之类的早期作品主要依赖于骨干网络（即VGGNet [47]）来提取多个尺度的特征。他等。提出了一种SPP-Net方法[22]，该方法在主干网络之后利用空间金字塔池来增强多尺度能力。 Faster R-CNN方法[43]进一步提出了区域提议网络，以生成各种规模的边界框。 FPN [32]基于Faster R-CNN，引入了特征金字塔以从单个图像中提取具有不同比例的特征。 SSD方法[36]利用不同阶段的特征图来处理不同比例的视觉信息。

2.2.2语义分割。

提取对象的基本上下文信息需要CNN模型来处理各种规模的特征，以进行有效的语义分割。 Long等。 [38]提出了最早的方法之一，该方法使全卷积网络（FCN）的多尺度表示能够实现语义分割任务。在DeepLab中，Chen等人。 [6]，[7]引入了级联原子卷积模块，以在保持空间分辨率的同时进一步扩展接收场。最近，全球上下文信息通过PSPNet中的金字塔池方案从基于区域的功能中聚合[64]。

2.2.3显着物体检测。

精确定位图像中的显着对象区域需要了解用于确定对象显着性的大规模上下文信息，以及需要精确定位对象边界的小规模特征[66]。早期方法[3]利用手工制作的全局对比度[13]或多尺度区域特征[53]表示。 Li等。 [29]提出了一种最早的方法，该方法能够为显着物体检测提供多尺度深度特征。后来，提出了多上下文深度学习[68]和多级卷积特征[62]，以改善显着目标检测。最近，侯等人。 [24]在各阶段之间引入密集的短连接，以在每一层提供丰富的多尺度特征图，用于显着物体检测。

2.3并行工作

最近，有一些并发的工作旨在通过利用多尺度特征[5]，[9]，[11]，[49]来提高性能。

Big-Little Net [5]是由具有不同计算复杂度的分支组成的多分支网络。 Octave Conv [9]将标准卷积分解为两种分辨率，以不同频率处理特征。 MSNet [11]利用高分辨率网络通过使用低分辨率网络学习的上采样低分辨率特征来学习高频残差。除了当前工作中的低分辨率表示之外，HRNet [48]，[49]在网络中引入了高分辨率表示，并反复执行多尺度融合以增强高分辨率表示。 [5]，[9]，[11]，[48]，[49]中的一种常见操作是它们都使用池化或上采样将特征图的大小重新调整为原始比例的2n倍，以保存特征图。计算预算，同时保持甚至改善性能。在Res2Net块中时，单个残差块模块中的分层残差状连接使接收域的变化更加细化，以捕获细节和全局特征。

实验结果表明，Res2Net模块可以与那些新颖的网络设计集成在一起，从而进一步提高性能。

3 RES2NET

3.1 Res2Net模块

图2（a）所示的瓶颈结构是许多现代骨干CNN体系结构的基本构建块，例如ResNet [23]，ResNeXt [56]和DLA [60]。作为替代，在瓶颈块中使用一组3×3过滤器来提取功能，我们寻求具有更强结构的替代结构。多尺度特征提取能力，同时保持类似的计算负荷。具体来说，将3×3个过滤器组替换为较小的过滤器组，同时将不同的过滤器组以类似残差的样式进行连接。由于我们提出的神经网络模块在单个残差块中涉及类似残差的连接，因此我们将其命名为Res2Net。

图2显示了瓶颈模块和所建议的Res2Net模块之间的区别。经过1×1卷积后，我们将特征图均匀地分为s个特征图子集，用xi表示，其中i∈{1,2，...，s}。与输入特征图相比，每个特征子集xi具有相同的空间大小，但通道数为1 / s。除x1外，每个xi都有一个对应的3×3卷积，用Ki（）表示。我们用yi表示Ki（）的输出。特征子集xi与Ki-1（）的输出相加，然后馈入Ki（）。为了在增加s的同时减少参数，我们忽略了x1的3×3卷积。因此，yi可以写成：

请注意，每个3×3卷积运算符Ki（）都可能从所有特征分割{xj，j≤i}接收特征信息。每次特征拆分xj经过3×3卷积运算符时，输出结果都比xj具有更大的接受域。由于组合爆炸效应，Res2Net模块的输出包含不同数量和不同接受域大小/尺度的组合。

在Res2Net模块中，拆分以多尺度方式处理，这有利于提取全局信息和局部信息。要在不同尺度上融合信息，我们将所有拆分连接起来并通过1×1卷积传递。拆分和串联策略可以强制进行卷积以更有效地处理特征。为了减少参数的数量，我们省略了第一次分割的卷积，也可以将其视为特征重用的一种形式。

在这项工作中，我们使用s作为比例尺尺寸的控制参数。较大的s可能允许学习具有更丰富的接收字段大小的功能，而级联引入的计算/内存开销可以忽略不计。

3.2与现代模块集成

近年来，已经提出了许多神经网络模块，包括Xie等人介绍的基数维。 [56]，以及Hu等人提出的挤压和激发（SE）块。 [25]。建议的Res2Net模块引入了与这些改进正交的比例尺尺寸。如图3所示，我们可以轻松地将基数维度[56]和SE块[25]与提出的Res2Net模块集成在一起。

3.2.1维度基数。

维数基数表示过滤器中的组数[56]。此维将过滤器从单分支更改为多分支，并提高了CNN模型的表示能力。在我们的设计中，我们可以将3×3卷积替换为3×3组卷积，其中c表示组数。刻度尺寸和基数之间的实验比较在Sec中进行了介绍。 4.2和秒 4.4。

图3：Res2Net模块可以与维数基数[56]（用conv组替换conv）和SE [25]块集成在一起。

3.2.2 SE块。

SE模块通过显式地建模通道之间的相互依赖性来自适应地重新校准通道方式的特征响应[25]。类似于[25]，我们在剩余连接软件heRes2Netmodule之前添加SE块。我们的Res2Net模块可以从SE块的集成中受益，这已在Sec中进行了实验证明。 4.2和秒 4.3。

3.3集成模型

由于所提出的Res2Net模块对整体网络结构没有特定要求，并且Res2Net模块的多尺度表示能力与CNN的分层特征聚合模型正交，因此我们可以轻松地将所提出的Res2Net模块集成到状态中最先进的模型，例如ResNet [23]，ResNeXt [56]，DLA [60]和Big-Little Net [5]。相应的模型分别称为Res2Net，Res2NeXt，Res2Net-DLA和bLRes2Net-50。

提议的比例尺尺寸与先前工作的基数[56]尺寸和宽度[23]尺寸正交。因此，在设置比例尺后，我们调整基数和宽度的值，以保持总体模型的复杂性与其对应模型相似。由于这项工作需要更细致的设计，例如深度可分离卷积[40]，模型修剪[19]和模型压缩[14]，因此我们不着重于减小模型大小。

对于ImageNet [44]数据集上的实验，我们主要使用ResNet-50 [23]，ResNeXt-50 [56]，DLA-60 [60]和bLResNet-50 [5]作为基线模型。所提出模型的复杂度大约等于基线模型的复杂度，基线模型的参数数量约为25M，而对于50层网络，224×224像素图像的FLOP数量约为4.2G。对于CIFAR [27]数据集上的实验，我们使用ResNeXt-29、8c×64w [56]作为我们的基准模型。关于模型复杂性的建议评估模型的实证评估和讨论在第4.4节中进行介绍。

4 实验

4.1实施细节

我们使用Pytorch框架实施建议的模型。为了进行公平的比较，我们使用ResNet [23]，ResNeXt [56]，DLA [60]以及bLResNet50 [5]的Pytorch实现，并且仅用提议的Res2Netmodule.Similartopriorwork替换ImageNet数据集上的原始瓶颈块[44]。，则每个图像的大小均为224×224像素，是从调整大小后的图像中随机裁切而来的。我们使用与[23]，[52]相同的数据论证策略。类似于[23]，我们在4个Titan Xp GPU上使用SGD训练网络，其权重衰减为0.0001，动量为0.9，最小批量为256。最初将学习率设置为0.1，然后每30个时代除以10。

ImageNet的所有模型（包括基线模型和建议模型）都使用相同的训练和数据论证策略进行了100个时期的训练。为了进行测试，我们使用与[23]相同的图像裁剪方法。在CIFAR数据集上，我们使用ResNeXt-29 [56]的实现。对于所有任务，我们使用基线的原始实现，并且仅使用建议的Res2Net替换主干模型。

4.2 ImageNet

我们对ImageNet数据集[44]进行了实验，其中包含128万个训练图像和来自1000个类别的50k验证图像。我们使用大约50层构建模型，以针对最新技术方法进行性能评估。在CIFAR数据集上进行了更多的消融研究。

4.2.1性能提升。

表1显示了ImageNet数据集的top-1和top-5测试错误。为简单起见，表1中的所有Res2Net模型的标度s =4。与ResNet-50相比，Res2Net-50的top-1错误改善了1.84％。与ResNeXt-50相比，Res2NeXt-50的top-1误差提高了0.85％。此外，就top-1错误而言，Res2Net-DLA-60优于DLA-60 1.27％。就top-1误差而言，Res2NeXt-DLA-60优于DLA-X-60 0.64％。 SE-Res2Net-50比SENet-50改进了1.68％。 bLRes2Net-50在top-1错误方面比bLResNet-50改进了0.73％。

Res2Net模块进一步提高了bLResNet的多尺度能力，即使bLResNet被设计为利用Sec中讨论的具有不同尺度的特征也是如此。 2.3。请注意，ResNet [23]，ResNeXt [56]，SE-Net [25]，bLResNet [5]和DLA [60]是最新的CNN模型。与这些强大的基准相比，与Res2Net模块集成的模型仍具有一致的性能提升。

我们还将我们的方法与InceptionV3 [52]模型进行了比较，该模型利用具有不同内核组合的并行滤波器。为了进行公平的比较，我们使用ResNet-50 [23]作为基线模型，并使用InceptionV3模型中使用的299×299像素的输入图像尺寸训练模型。建议的Res2Net-50-299在top-1错误方面比InceptionV3高出1.14％。

我们得出结论，在处理多尺度信息时，Res2Net模块的分层残差状连接比InceptionV3的并行过滤器更有效。虽然InceptionV3中的过滤器组合模式是专门设计的，但是Res2Net模块提供了一个简单但有效的组合模式。

4.2.2使用Res2Net更深入。

更深层的网络已被证明具有更强的视觉任务表示能力[23]，[56]。为了更深入地验证我们的模型，我们将Res2Net和ResNet的分类性能（共101层）进行了比较。如表2所示，就top-1误差而言，Res2Net-101的性能比ResNet-101显着提高了1.82％。请注意，就top-1错误而言，与ResNet-50相比，Res2Net-50的性能提高了1.84％。这些结果表明，具有附加尺寸比例的拟议模块可以与更深的模型集成，以实现更好的性能。我们还将我们的方法与DenseNet [26]进行了比较。与官方提供的DenseNet系列的最佳性能模型DenseNet-161相比，Res2Net-101的top-1错误改善了1.54％。

4.2.3规模尺度的有效性。

为了验证我们提出的尺寸比例尺，我们通过实验分析了不同比例尺的影响。如表3所示，性能随着规模的增加而提高。随着规模的扩大，在top1误差方面，具有14w×8s的Res2Net-50相对于具有1.99％的ResNet-50的性能有所提高。请注意，在保留复杂度的情况下，Ki（）的宽度随比例的增加而减小。我们进一步评估了随着模型复杂度的增加而规模扩大的性能增益。具有26w×8s的Res2Net-50相对于具有3.05％的软件间内部错误1的ResNet-50获得了显着的性能提升。具有18w×4s的Res2Net-50也比ResNet50好0.93％intermsoftop-1错误，只有69％FLOP。表3显示了不同比例下的运行时，这是推断ImageNet验证集大小为224×224的平均时间。由于分层连接，需要按顺序计算功能拆分{yi}，通常可以忽略Res2Net模块引入的额外运行时间。由于GPU中可用张量的数量是有限的，因此对于Res2Net的典型设置，即s = 4，在单个GPU时钟周期内通常有足够的并行计算。

表3：ImageNet数据集上具有不同比例的Res2Net-50的Top-1和Top-5测试误差（％）。参数w是滤波器的宽度，其大小为等式（1）。

表4：CIFAR-100数据集的Top-1测试误差（％）和模型大小。参数c表示基数的值，w是滤波器的宽度。

4.3 CIFAR

我们还对CIFAR-100数据集[27]进行了一些实验，该数据集包含来自100个类别的50k训练图像和10k测试图像。ResNeXt-29,8c×64w [56]使用的是基线模型。我们只用建议的Res2Net模块替换原始的基本块，同时保持其他配置不变。表4显示了CIFAR-100数据集的top-1测试错误和模型大小。实验结果表明，我们的方法以较少的参数超过了基线和其他方法。我们提出的Res2NeXt-29、6c×24w×6s优于基线1.11％。 Res2NeXt-29、6c×24w×4s甚至比仅35％参数的ResNeXt-29、16c×64w好。与DenseNet-BC（k = 40）相比，我们还可以用更少的参数获得更好的性能。与Res2NeXt-29 6c×24w×4s相比，Res2NeXt-29 8c×25w×4s具有更好的宽度和基数效果，表明尺寸比例尺与尺寸宽度和基数正交。我们还将最近提出的SE块集成到我们的结构中。由于参数较少，我们的方法仍优于ResNeXt-29、8c×64w-SE基线。

图4：使用ResNet-50和Res2Net-50作为骨干网络，可视化类激活映射[45]。

图5：通过更改基数（ResNeXt-29），深度（ResNeXt）和比例（Res2Net-29），在CIFAR-100数据集上针对模型大小的测试精度。

4.4尺度变化

与谢等人相似。 [56]，我们通过增加不同的CNN尺寸（包括比例（等式（1）），基数[56]和深度[47]）来评估基线模型的测试性能。在使用一个维度增加模型容量的同时，我们修复了所有其他维度。根据这些变化，对一系列网络进行了培训和评估。因为[56]已经表明，增加基数比增加宽度更有效，所以我们仅将拟议的尺度与基数和深度进行比较。

图5显示了CIFAR-100数据集关于模型大小的测试精度。基线模型的深度，基数和比例分别为29.6和1。实验结果表明，比例尺是提高模型性能的有效尺度，这与我们在Sec中的ImageNet数据集上观察到的一致。 4.2。此外，扩大规模比其他维度更有效，从而可以更快地获得性能。如公式（1）和图2所述，对于比例s = 2的情况，我们仅通过添加更多1×1滤波器参数来增加模型容量。因此，s = 2的模型性能比增加基数的性能稍差。对于s = 3,4，我们的分层残差状结构的组合效应产生了一组丰富的等效标度，从而显着提高了性能。但是，比例为5和6的模型具有有限的性能提升，为此，我们假设CIFAR数据集中的图像太小（32×32），无法具有多个比例。

表5：在PASCAL VOC07和COCO数据集上的对象检测结果，使用AP（％）和AP@IoU=0.5（％）进行测量。与同类产品相比，Res2Net具有相似的复杂性。

表6：COCO数据集上具有不同大小的对象检测的平均精度（AP）和平均召回率（AR）。

4.5类激活映射

为了了解Res2Net的多尺度能力，我们使用Grad-CAM [45]可视化类激活映射（CAM），该类通常用于定位区分区域以进行图像分类。在图4所示的可视化示例中，较强的CAM区域被浅色覆盖。与ResNet相比，基于Res2Net的CAM结果在诸如“棒球”和“企鹅”之类的小物体上的激活图更加集中。两种方法在中等尺寸的对象（例如“冰淇淋”）上都有类似的激活图。由于强大的多尺度能力，Res2Net的激活图倾向于覆盖大对象（例如“ bulbul”，“ mountain dog”，“ ballpoint”和“ mosque”）上的整个对象，而ResNet的激活图仅覆盖对象。这种精确定位CAM区域的能力使Res2Net在弱监督的语义分割任务中对于对象区域挖掘具有潜在的价值[54]。

表7：使用具有不同比例的Res2Net-50在PASCAL VOC12 val集上进行语义分割的性能。与同类产品相比，Res2Net具有相似的复杂性。

4.6目标检测

对于对象检测任务，我们使用Faster RCNN [43]作为基线方法，在PASCAL VOC07 [17]和MS COCO [33]数据集上验证Res2Net。我们使用ResNet-50vs.Res2Net-50的骨干网络，并遵循[43]的所有其他实现细节进行公平比较。表5示出了对象检测结果。在PASCAL VOC07数据集上，基于Res2Net50的模型的平均精度（AP）优于同类模型2.3％。在COCO数据集上，基于Res2Net-50的模型在AP上的性能优于其同类产品，在AP@IoU=0.5上优于2.2％。

我们进一步测试了不同大小的对象的AP和平均召回（AR）得分，如表6所示。根据[33]，根据大小将对象分为三类。基于Res2Net的模型在小型，中型和大型对象的AP上分别比其对应模型有0.5％，2.9％和4.9％的大幅改进。小型，中型和大型物体的AR改善分别为1.4％，2.5％和3.7％。由于强大的多尺度能力，基于Res2Net的模型可以覆盖大范围的接收场，从而提高了不同尺寸对象的性能。

4.7语义分割

语义分割需要CNN强大的多尺度能力来提取对象的基本上下文信息。因此，我们使用PASCAL VOC12数据集评估了Res2Net在语义分割任务上的多尺度能力[16]。我们遵循先前的工作来使用增强的PASCAL VOC12数据集[20]，其中包含10582个训练图像和1449个val图像。我们使用Deeplab v3 + [8]作为分割方法。除了将骨干网替换为ResNet和我们建议的Res2Net外，所有实现都与Deeplabv3 + [8]相同。训练和评估中使用的输出步幅均为16。如表7所示，基于Res2Net-50的方法的平均IoU优于同类方法1.5％。基于Res2Net101的方法的平均IoU优于其同类方法1.2％。图6显示了在具有挑战性的示例上语义分割结果的视觉比较。基于Res2Net的方法倾向于分割对象的所有部分，而与对象大小无关。

4.8实例分割

实例分割是对象检测和语义分割的结合。它不仅需要正确检测图像中各种大小的对象，还需要每个对象的精确分割。如第二节所述。 4.6和秒 4.7，对象检测和语义分割都需要强大的CNN多尺度能力。因此，多尺度表示非常有利于实例分割。我们使用Mask RCNN [21]作为实例分割方法，并用我们提出的Res2Net-50替换ResNet-50的骨干网络。表8中显示了MS COCO [33]数据集上实例分割的性能。基于Res2Net-26w×4s的方法在AP上的性能比同类产品高1.7％，在AP50上的性能优于2.4％。还展示了不同尺寸对象的性能提升。小型，中型和大型物体的AP改善分别为0.9％，1.9％和2.8％。表8还显示了Res2Net在相同复杂度和不同规模下的性能比较。随着规模的增加，表现总体上呈上升趋势。请注意，与Res2Net-50-48w×2s相比，Res2Net-50-26w×4s的APL改善了2.8％，而Res2Net-50-48w×2s与ResNet-50的APL相同。我们假设大型物体的性能提升是通过额外的比例来实现的。当规模相对较大时，性能提升并不明显。 Res2Net模块能够学习合适的接收范围。当Res2Net模块中可用的接收域已经覆盖了图像中对象的比例时，性能增益将受到限制。由于固定的复杂性，缩放比例的增加导致每个接受域的通道减少，这可能会降低处理特定比例尺特征的能力。

表8：使用具有不同比例的Res2Net-50在COCO数据集上进行实例细分的性能。与同类产品相比，Res2Net具有相似的复杂性。

表9：在不同数据集上的显着目标检测结果，使用F度量和平均绝对误差（MAE）进行了测量。与同类产品相比，Res2Net具有相似的复杂性。

4.9显着物体检测

像素级任务（例如显着物体检测）还需要CNN强大的多尺度能力，以定位整体物体及其区域细节。在这里，我们使用最新方法DSS [24]作为基准。为了进行公平的比较，我们只用ResNet-50和建议的Res2Net50替换主干，同时保持其他配置不变。接下来[24]，我们使用MSRA-B数据集训练这两个模型[35]，并在ECSSD上评估结果[58]， PASCAL-S [30]，HKU-IS [29]和DUT-OMRON [59]数据集。 F度量和平均绝对误差（MAE）用于评估。如表9所示，与所有数据集上的对应模型相比，基于Res2Net的模型具有一致的改进。与基于ResNet的模型相比，在DUT-OMRON数据集（包含5168张图像）上，基于Res2Net的模型在F量度上改进了5.2％，在MAE上改进了2.1％。基于Res2Net的方法在DUT-OMRON数据集上实现了最大的性能提升，因为与该数据集相比，该数据集包含最大的对象尺寸变化其他三个数据集。图7显示了在具有挑战性的示例上对显着目标检测结果的一些视觉比较。

图6：使用ResNet-101和Res2Net-101作为骨干网的语义分割结果的可视化[8]。

图7：显着对象检测的示例[24]结果，分别使用ResNet-50和Res2Net-50作为骨干网。

4.10关键点估计

人体部位大小不同，需要关键点估计方法来定位具有不同比例的人体关键点。为了验证Res2Net的多尺度表示能力是否可以满足关键点估计的任务，我们使用SimpleBaseline [55]作为关键点估计方法，并且仅用建议的Res2Net替换主干。所有的实现，包括培训和测试策略，都与SimpleBaseline相同[55]。我们使用COCO关键点检测数据集[33]训练模型，并使用COCO验证集评估模型。按照通用设置，我们在SimpleBaseline [55]中使用同一个人检测器进行评估。表10显示了使用Res2Net在COCO验证集上进行关键点估计的性能。基于Res2Net-50和Res2Net-101的模型分别比AP的基准性能高3.3％和3.0％。同样，与基线相比，基于Res2Net的模型在不同规模的人身上都有可观的性能提升。

表10：在COCO验证集上关键点估计的性能。Res2Net与它的对应物相比具有相似的复杂性。

depth, width, and cardinality

5结论与未来工作

我们提供了一个简单有效的功能块，即Res2Net，以在更细粒度的层次上进一步探索CNN的多尺度能力。

Res2Net揭示了一个新的维度，即“比例”，它是现有深度，宽度和基数维度之外的一个重要且更有效的因素。我们的Res2Net模块可以毫不费力地与现有的最新技术集成。在CIFAR-100和ImageNet基准测试中的图像分类结果表明，我们的新骨干网始终与包括ResNet，ResNeXt，DLA等在内的最先进竞争者保持一致。

尽管在几个代表性的计算机视觉任务（包括类激活映射，对象检测和显着对象检测）的背景下已经证明了所提出的骨干模型的优越性，但我们认为多尺度表示对于更广泛的应用领域至关重要。为了鼓励将来的工作来利用Res2Net强大的多尺度能力，可从https://mmcheng.net/res2net/获得源代码。

致谢

这项研究得到了国家自然科学基金委员会（No. 61620106008，61572264），国家青年人才支持计划和天津自然科学基金（17JCJQJC43700，18ZXZNGX00110）的支持。

Res2Net: A New Multi-scale Backbone Architecture（Res2Net 论文机翻）

摘要-

简介