针对图像识别的深度残差学习

Abstract(摘要)

更深的神经网络更难训练。我们提出了一个残差的学习框架，以便于对比以前使用的网络深度更深的网络进行训练。我们参考层的输入明确地将层重新表示为学习残差函数，代替学习没有参考的函数。我们提供全面的经验证据表明这些残差网络更容易优化，并且可以从显著增加的深度获得准确性。在ImageNet数据集上，我们评估了残差网络，其深度最多为152层-比VGG网络深8倍，但仍具有较低的复杂度。这些残差网络的集合在ImageNet测试机上实现了3.57%的误差。该结果在ILSVRC 2015分类中获得第一名。我们还提供了100和1000层的CIFAR-10分析。

表示的深度对于许多视觉识别任务而言至关重要。仅仅由于我们及其深的表示，我们在COCO对象检测数据集上获得了28%的提升。深度残差网络是我们向ILSVRC和COCO 2015竞赛提交的基础，我们还在ImageNet检测，ImageNet定位，COCO检测和COCO分割任务中获得了第一名。

1. Introduction(介绍)

深层卷积神经网络[22,21]在图像分类方面取得了一系列突破[21,50,40]。深层网络自然地集成低/中/高级特征，并且以端到端的多层方进行分类，而且还可以通过堆叠层的数量(深度)来丰富特征的“级别"。最近的证据[41,44]揭示了网络深度至关重要，而具有挑战性的ImageNet数据集[36]的主要结果[41,44,13,16]都利用了”深层“[41]模型，深度为16[41]到30[16]。其他的有挑战的视觉识别任务[8,12,7,32,27]也在非常深的模型中获得好的结果。

在深度的重要性的驱动下，一个问题出现了：学习更好的网络和堆叠更多的层一样容易吗？回答这个问题的一个障碍是众所周知的梯度消失/梯度爆炸问题[1, 9],这从一开始就阻碍了收敛。然后，这个问题主要通过归一化初始化[23,9,37,13]和中间归一化层[16]来解决的，这使得具有数十层的网络能够使用随机梯度下降(SGD)和反向传播[22]让网络开始收敛。

当更深的网路能够开始收敛时，就会出现退化问题：随着网络深度的增加，准确度变得饱和(这可能不足为奇),然后迅速退化。出乎意料的是，这种退化不是由于过度拟合造成的，并且在适当深度模型中添加更多层会导致更高的训练误差，如[11, 42]中所报道，并且通过我们的实验进行了彻底验证。图1显示了一个经典的例子。

图1：在具有20层和56层”普通“网络的CIFAR-10上训练误差(左)测试误差(右)。更深的网络具有更高的训练误差，测试误差也是如此。ImageNet上类似的现象如图4所示。

训练精度的退化表明并非所有系统都同样容易优化。让我们考虑一个更浅的体系结构和一个在上面添加了更多层的更深层的对应结构。对于更深层次的模型，存在一种构造解决方案：添加的层是全等映射，其他层是从学习的较浅的模型复制的。该解的存在性表明，较深的网络不应产生比较浅的模型更高的训练误差。但是实验表明，我们现有的求解方法无法找到比构建的解决方案更好或更好的解决方案(或者在可行的时间内无法做到这一点)。

在文本中，我们通过引入深度残差学习框架来解决退化问题。我们不希望每个少数堆叠层直接拟合所需的底层映射，而是显式地让这些层拟合残差映射。形式上，将期望的底层映射表示为H(x)，我们让堆叠的非线性层拟合另一个映射F(x) :=H(x) - x。将原始映射重新转换为F(x) + x。我们假设优化残差映射比优化原始的未引用映射更容易。在极端情况下，如果全等映射是最优的，则将残差比通过一堆非线性层拟合全等映射更容易。

F(x) + x的公式可以通过具有"捷径连接“的前馈神经网络来实现(图2)。捷径连接是跳过一个或多个层的连接。在我们的例子中，捷径连接只是执行全等映射，它们的输出被添加到堆叠层的输出中(图2）。全等捷径连接既不增加额外参数也不增加计算复杂度。整个网络仍然可以通过反向传播由SGD端到端的进行训练，并且可以使用公共库，而无需修改求解方法。

图2：残差学习：残差块

我们在ImageNet上进行了全面的实验[36]，以显示退化问题并评估我们的方法。我们表明：1）我们极深的残差网很容易优化，但对应的”下层“(简单堆叠层)在深度增加时表现出更高的训练误差；2）我们的深度残差网络可以很容易的增加网路的深度，并获得准确性的增益，从而产生了以以前的网络更好的结果。

类似的现象也显示在CIFAR-10数据集[20]上，这表明优化的困难和我们方法的效果不仅仅适用于一个特定的数据集。我们在这个数据集上成功地展示了经过训练的100层以上的模型，并探索了1000层以上的模型。

在ImageNet分类数据集[36]上，我们通过极深的残差网络获得了很好的结果。我们的152层残差网络时有史以来在ImageNet出现的最深的网络，但其复杂性仍低于VGG网络[41]。我们的团队在ImageNet测试集上由3.57%的top-5错误率，并在ILSVRC 2015分类竞赛中获得第一名。在其他识别任务上，极深的网路也有好的泛化性能，使我们在ILSVRC%COCO2015比赛中，在图像检测、图像定位、COCO检测、COCO分割等方面进一步获得第一名。这一有利的证据表明，残差学习原则时通用的，我们期望它适合于其他视觉和非视觉问题。

2. Related Work(相关工作)

残差表示：在图像识别中，VLAD[18]是一种由残差向量相对于字典进行编码的表示。并且Fisher Vector[30]可以表示为VLAD的概率版本[18]。它们都是图像检索和分类的强大浅层表示[4, 48]。对于矢量量化，编码残差矢量[17]被证明比编码原始矢量更有效。

在低级视觉和计算机图形学中，为了求解偏微分方程(PDEs)，广泛使用的多重网格方法[3]将系统重新表述为多个尺度的子问题，其中每个子问题负责较粗和较细尺度之间的残差解。多重网格的另一种选择时层次基础预处理[45,46]，它依赖于表示两个尺度之间残差向量的变量。已经证明[3,45,46]这些求解器比不知道解的残差性质的标准求解器收敛的快得多。这些方法表明良好的重构或预处理可以简化优化。

捷径连接：导致捷径连接的实践和理论[2, 34, 49]已经研究了很长时间。训练多层感知器(MLP)的早期实践是将线性层从网络输入连接到网络输出[34, 49]。在[44,24]中，一些中间层直接连接到辅助分类器以处理梯度消失/爆炸。[39,38,31,47]的论文提出了通过捷径连接实现的中心层响应，梯度和传播误差的方法。在[44]中，“Inception”层由捷径分支和一些较深的分支组成。

与我们工作的同时，“高速公路网络"[42,43]提出了具有门控功能的捷径连接[15]。与我们的无参数全等捷径方式相比，这些门是数据相关的并且具有参数。当门控捷径方式“关闭”(接近零)时，公路网络中的层表示非残差函数。相反，我们的表述总是学习残差函数。我们的全等快捷方法是永远不会关闭的，并且所有的信息都会通过，还需要学习额外的残差函数。此外，高速网络没有显示出具有极大增加深度(例如，超过100层)的精度增益。

3. Deep Residual Learning(深度残差学习)

3.1 Residual Learning(残差学习)

让我们将H(x)视为期望映射，使其被拟合靠几个堆叠起来的网络(不一定是整个网络)，x表示这些层中第一层的输入。如果假设多个非线性层可以渐进逼近复杂函数，那么它等价于假设它可以渐进逼近残差函数，即H(x) - x(假设输入和输出具有相同的维度)。因此，我们明确的让这些层近似于残差函数F(x):=H(x) - x,而不是期望堆叠层接近H(x)。因此原始函数变为F(x) + x。虽然两种形式都应该能够渐进地逼近所需的函数(如假设的),但学习的容易程度可能会有所不同。

这种改变的动机是关于退化问题的有悖常理的现象(图1，左)。正如我们在介绍中所讨论的，如果添加的层可以构造为全等映射，则更深层次的模型应该具有不大于其较浅网络的训练误差。退化问题表明求解器可能难以通过多个非线性层来近似全等映射。利用残差学习重构，如果全等映射是最优的，则求解器可以简单地将多个非线性层的权重朝向0驱动以接近全等映射。

在实际情况下，全等映射不太可能是最优的，但我们的改变可能有助于预先解决问题。如果最优函数更接近于身份映射而不是零映射，则求解器应该更容易参考全等映射来查找扰动，而不是将该函数作为新映射来学习。我们通过实验(图7)表明，学习的残差函数通常具有较小的响应，这表明全等映射提供了合理的预处理。

3.2 Identity Mapping by Shortcuts(通过捷径方式进行全等映射)

我们对每个堆叠层采用残差学习。构建块如图2所示。在本文中，我们认为构建块定义为： $y = F(x,{W}_{i})+x$ (1)。这里x和y是所考虑的层的输入和输出向量。函数 $F(x,{W_{i}})$ 表示要学习的残差映射。对于图2中具有两层的示例， $F=W_{2}\sigma (W_{1}x)$ ，其中 $\sigma$ 表示ReLU[29]，并且为了化简符号省略了偏差。通过捷径连接和逐元素添加来执行操作F+x。我们采用加法后的第二个非线性(即 $\sigma (y)$ ,见图2)。

方程(1)中的捷径连接方式既不引入额外参数也不引入计算复杂度。这不仅在实践中具有吸引力，而且在我们对普通网络和残差网络之间的比较中也很重要。我们可以公平地比较同时具有相同数量的参数、深度、宽度和计算成本的普通/残差网络(除了可忽略的元素添加之外)。

公式（1）中x和F的尺寸必须相等。如果不是这种情况(例如，在更改输入/输出通道时),我们可以通过捷径连接来执行线性投影 $W_{s}$ 以匹配尺寸： $y=F(x,{W_{i}})+W_{s}x$ （2）。我们也可以在方程(1)中使用方阵 $W_{s}$ 。但是我们将通过实验证明，全等映射足以解决退化问题并且是经济的，因此 $W_{s}$ 仅在匹配维度时使用。

残差函数F的形式是灵活的。本文中的实验涉及具有两层或三层的函数F(图5),而更多层是可能的。但是如果F只有一层，则方程(1)类似于线性层： $y=W_{1}x+x$ ,我们没有观察到它们的优点。

我们还注意到，尽管为简单起见，上述符号是关于全连接层，但它们适用于卷积层。函数 $F(x,{W_{i}})$ 可以表示多个卷积层。逐个元素的添加是在两个特征映射上逐个通道执行的。

图3：ImageNet的示例网络体系结构。左图：VGG-19模型[41]（19.6亿FLOP）作为参考。中：具有34个参数层(3.6亿FLOP)的普通网络。右：具有34个参数层(3.6亿FLOP)的残差网络。虚线捷径方式增加了尺寸，表1显示了更多细节和其他变体。

3.3 Network Architectures(网络架构)

我们已经测试了各种普通/残差网，并且具有一致的现象。为了提供讨论的实例，我们为ImageNet描述了两个模型，如下所示。

普通网络： 我们的普通基线（图3，中间）主要受到VGG网络哲学的启发[41]（图3，左）。卷积层大多具有3×3滤波器并遵循两个简单的设计规则：（i）对于相同的输出特征映射大小，这些层具有相同数量的滤波器; （ii）如果特征映射大小减半，则过滤器的数量加倍，以便保持每层的时间复杂度。我们直接通过步幅为2的卷积层进行下采样。网络以全局平均池层和带有softmax的1000路全连接层结束。在图3（中间）中，加权层的总数是34。

值得注意的是，我们的模型比VGG网络具有更少的过滤器和更低的复杂性[41]（图3，左）。我们的34层基线有3.6亿FLOP（乘法-加法），仅为VGG-19（19.6亿FLOP）的18％。

残差网络：基于上述普通网络，我们插入了快捷连接（图3，右），将网络转换为对应的残差版本。当输入和输出具有相同的尺寸时，可以直接使用全等捷径方式（公式（1））（图3中的实线捷径方式）。当尺寸增加时（图3中的虚线捷径连接），我们考虑两个选项：（A）捷径连接方式仍然执行全等映射，为增加尺寸填充额外的零条目。此选项不引入额外参数; （B）方程（2）中的投影捷径方式用于匹配尺寸（由1×1卷积完成）。对于这两个选项，当捷径连接方式跨越两种尺寸的要素图时，它们的步幅为2。

3.4 Implementation(实现)

我们对Image net的实现遵循[21,41]中的实践。调整图像的大小，其短边在[256,480]中随机采样以进行尺度增强[41]。从图像或其水平翻转中随机采样224x224裁剪，减去每像素平均值[21]。使用[21]中的标准颜色增强。我们采用批量归一化(BN)[16]在每次卷积之后和激活之前，我们在[13]中初始化权重，并从头开始训练所有普通/残差网。我们使用小批量256的SGD。学习率从0.1开始，当误差平稳时除以10，并且模型训练最多60x1023次迭代。我们使用0.0001的权重衰减和0.9的动量。按照[16]中的实践，我们不使用dropout。

在测试中，对于比较研究，我们采用标准的10种裁剪测试[21]。为了获得更好的结果，我们采用[41,13]的完全卷积形式，并在多个尺度上平局得分(图像被调整大小以使得短边在{224，256，384，480，640}中)。

4. Experiments(实验)

4.1 ImageNet Classification(imagenet分类)

我们在由1000个类组成的ImageNet 2012分类数据集[36]上评估我们的方法。模型在128万个训练图像上进行训练，并在50K验证图像上进行评估。我们还获得了测试服务器报告的100K测试图像的最终结果。我们评估top-1和top-5错误率。

普通网络：我们首先评估18层和34层普通网。34层普通网在图3(中间)。18层普通网具有类似的形式。有关详细的体系结构，请参阅表1。表2中的结果表明，较深的34层比较浅的普通网络具有更高的验证误差，为了揭示原因，在图4（左）中我们比较了它们在训练过程中的训练/验证误差。我们观察到了退化问题-即使18层普通网络的解空间是34层网络的子空间，34层普通网络在整个训练过程中也有较高的训练误差。

表1：ImageNet的架构。括号中显示了构建块(另请参见图5)，堆叠的块数。下采样有Conv3_1,Conv4_1和Conv5_1以步幅2执行。

图4：在ImageNet上进行训练。细曲线表示训练误差，粗体曲线表示中心裁剪的验证误差。左图：18层和34层的普通网络。右：18层和34层的ResNets。在该图中，与普通网络相比，残差网络没有额外的参数。

表2：ImageNet验证的top-1错误(%,10个裁剪)。与简单的同行相比，ResNets没有额外的参数。图4显示了训练程序。

我们认为这种优化难度不是梯度消失造成的。这些普通网络采用BN[16]进行训练，确保前向传播信号具有非零方差。我们还验证了后向传播的梯度与BN表现了健康的标准。因此，前向和后向信号都不会消失。事实上，34层普通网络仍然能够达到竞争准确性(表3)，这表明求解器在某种程度上起作用，我们推测深度普通网络可能具有指数级低的收敛速度，这回影响训练误差减少。将来将研究这种优化困难的原因。

残差网络：接下来，我们评估18层和34层的残差网络(ResNets)。基本架构与上述普通网络相同，期望在每对3x3滤波器中添加捷径连接，如图3(右)所示。在第一次比较中(表2和图4右),我们对所有捷径方式使用全等映射，为增加维度使用零填充(选项A)。因此，与普通网络相比，它们没有额外的参数。

我们从表2和图4中得到了三个主要观察结果。首先，情况与残差学习相反-34层ResNet优于18层ResNet(2.8%)。更重要的是，34层ResNet表现出相当低的训练误差，并且可以推广到验证数据。这表明在这种情况下很好地解决了退化问题，并且我们设法从增加深度获得准确度增益。

其次，与普通网络相比，34层ResNet将top-1误差减小了3.5%(表2),这是由于成功减少了训练误差(图4右侧与左侧)。该比较验证了极深系统上残差学习的有效性。

表3：ImageNet验证的错误率(%, 10裁剪测试)。VGG-16基于我们的测试。ResNet-50/101/152是选项B，仅使用功能投影来赞呢国家尺寸。

表4：ImageNet验证集上单模型结果的错误率（％）（除了在测试集上报告的）

表5：合并的错误率（％）。前5个错误出现在ImageNet的测试集上，并由测试服务器报告。

最后，我们还注意到18层普通/残差网络相对准确(表2),但18层ResNet收敛速度更快(图4右侧与左侧)。当网络"不太深"(此处为18层)时，当前的SGD优化器仍然能够找到普通网络的良好解决方法。在这种情况下，ResNet通过在早期阶段提供更快的收敛来简化优化。

Idenity vs. Projection Shortcuts(全等与投影捷径方法)：我们已经证明，无参数的全等捷径方式有助于训练。接下来我们研究投影捷径方式(方程2)。在表3中，我们比较了三个选项：（A）零填充捷径方式有助于增加尺寸，所有捷径方式都是无参数的(与表2和图4相同)；（B）投影快捷方式用于增加尺寸，其他捷径方式是全等的；（C）所有捷径方式都是投影。

图5：ImageNet的更深余数函数F. 左图：ResNet-34的构建块（在56×56特征图上），如图3所示。右：ResNet-50/101/152的“瓶颈”构件。

表3显示所有三个选项都明显优于普通网络对应选项。B稍好于A，我们认为这是因为A中的零填充维度确实没有残差学习。C略微优于B，我们将其归因于许多(13个)投影捷径方式引入的额外参数。但A/B/C之间的微小差异表明，投影捷径对解决退化问题并不重要。因此，我们在本文的其余部分不使用选项C来减少内存/时间复杂度和模型大小。全等捷径方式对于不增加下面介绍的瓶颈架构的复杂性特别重要。

Deeper Bottleneck Architectures(更深层次的瓶颈架构：接下来，我们将为ImageNet描述更深层次的网络。由于担心我们能够承受的训练时间，我们将构建块解码为瓶颈设计。每个残差函数F，我么使用3层而不是2层的堆叠(图5)。三层是1x1，3x3，和1x1卷积，其中1x1层卷积负责减小然后增加(恢复)尺寸，使3x3层成为具有较小输入/输出的瓶颈。图5显示除了一个示例，其中两种设计具有相似的时间复杂度。

无参数全等捷径连接对于瓶颈架构尤为重要。如果投影替换图5(右)中的全等捷径方式，则可以显示时间复杂度和模型大小加倍，因为捷径方式连接到两个高维端。因此，全等捷径可以为瓶颈设计带来更高效的模型。

50-layer ResNet：我们用这个3层的瓶颈块替换34层网络中的每个2层块，产生50层ResNet(表1)。我们使用选项B来增加尺寸。这个模型右3.8亿FLOP。

101-layer and 152-layer ResNets：我们通过使用更多层块构建101层和152层ResNets(表1)。值得注意的是，虽然深度增加，但152层ResNet(11.3亿FLOP)的复杂度仍低于VGG-16/19网络(15.3/19.6亿FLOP）。

50/101/152层Resnets比34层ResNets网更准确，有相当大的余量(表3和4)。我们没有观察到退化问题，因此从显著增加的深度获得显著的准确性增益。所有评估指标都见证了深度的好处(表3和表4)。

Comparisons with State-of-thr-art Methods(与最先进的方法进行比较)：在表4中，我们与之前的最佳单模型结果进行了比较。我们的基本的34层ResNets实现了非常有竞争力的准确性。我们的152层ResNet的单模型top-5验证误差为4.49%。该单模型结果优于所有先前的整体结果(表5)。我们将六种不同深度的模型组合成一个整体(在提交时只有两个152层的模型)。这导致测试集上的top-5误差为3.57%(表5)。此项目在2015年ILSVRC中获得第一名。

4.2 CIFAR-10 and Analysis

我们对CIFAR-10数据集[20]进行了更多的研究，其中包括10个训练图像和10个类别的10K测试图像。我们提供在训练集上训练的实验并在测试集上进行评估。我们的重点是极端深度网络行动，而不是推动最先进的结果，因此我们有意使用如下的简单架构。

普通/残差架构遵循图3(中/右)中的形式。网络输入为32x32图像，减去每像素平均值。第一层是3x3卷积，然后我们在尺寸{32，16，8}的特征图上分别使用具有3x3卷积的6n层的堆叠，每个特征图尺寸具有2n个层。过滤器的数量分别为{16，32，64}。子采样由步幅为2的卷积执行。网络以全局平均池化，10路全连接层和softmax结束。总共有6n+2个堆叠加权层。下表总结该体系结构：

使用捷径方式连接时，它们连接到一对3x3层(总共3n个捷径连接)。在这个数据集中，我们在所有情况下使用全等捷径方式(即选项A),因此我们的残差模型与普通网络完全有相同的深度、宽度和参数数量。

表6. CIFAR-10测试集上的分类错误。所有方法都有数据扩充。对于ResNet-110，我们运行它5次并显示“最佳（平均值±标准）”，如[43]。

我们使用0.0001的权重衰减和0.9的动量，并采用[13]和BN]16]中的权重初始化，但是我们使用dropout。这些模型在两个GPU上进行小批量128批量上进行训练。我们从学习率0.1开始，在32K和48K迭代时将其除以10，并在64K迭代时终止训练，这是在45K/5k训练/验证集分割后确定的。我们遵循[24]中用于训练的简单数据增强：每侧填充4个像素，并且从填充图像或其水平翻转中随机采样32x32裁剪图像。为了测试，我们仅评估原始32x32图像的单个视图。

我们比较n={3,5,7,9},生成20，32，44，56层网络。图6(左)显示了普通网络的行为。深度普通网络受深度增加的影响，表现出更高的训练误差。这种现象类似于ImageNet(图4，左)和MNIST(见[42]),表面这种优化难度时一个根本问题。

图6(中)显示了ResNets的行为，与ImageNets案例类似(图4，右图)，我们的ResNets设法克服优化难度并在深度增加时展示准确度增益。

图6. CIFAR-10的培训。虚线表示训练错误，粗线表示测试错误。左：普通网络。 plain-110的错误高于60％而不显示。中：ResNets。右：具有110和1202层的ResNets。

图7. CIFAR-10层响应的标准偏差（std）。响应是每个3×3层的输出，在BN之后和非线性之前。顶部：图层以原始顺序显示。底部：响应按降序排列

表7.使用基线更快的R-CNN在PASCAL VOC 2007/2012测试集上的对象检测mAP（％）。有关更好的结果，请参见表10和表11

我们进一步探索n=18,生成110层ResNets。在这种情况下，我们发现0.1的初始学习率有带你太大而无法收敛。所以我们使用0.01来训练，直到训练误差低于80%(大约400次迭代)，然后回到0.1并继续训练。其余学习计划如前所述。这个100层网络收敛良好(图6，中间)。它比其他深度和瘦型网络(如FitNet[35]和Highway[42]（表6）)的参数更少，但却是最先进的结果之一(6.43%,表6)。

Analysis of Layer Responses:图显示了层响应的标准偏差(std)。响应是每个3x3层的输出，在BN之后和其他非线性之前(ReLU/加法)。对于Resnets，该分析揭示了残差函数的响应强度。图7显示ResNets通常具有比普通对应网络更小的响应。这些结果支持我们的基本动机(Sec.3.1)，残差函数通常可能比非残差函数更接近于0.我们还注意到，更深层次的ResNet具有更小的响应幅度，如图7中ResNets-20，56和110之间的比较所证明的。当存在更多层时，单个ResNets层倾向于更少地修改信息。

Exploring Over 1000 layers(探索超过1000层)：我们探索了超过1000层的深层模型。我们将n=200设置生成1202层网络，其如上所述进行训练。我们的方法没有显示优化难度，这个103层网络能够达到<0.1%的训练误差(图6，右)。它的测试误差仍然相当不错(7.93%，表6)。

但是，这种及其深的模型仍然存在未解决的问题。这个1202层网络的测试结果比我们的110层网络差，尽管两者都有类似的训练误差。我们认为这是因为过度拟合。对于这个小数据集，1202层网络可能不必要地大(19.4M）。应用强正则化（例如maxout[10]或dropout[14]）以获得该数据集的最佳结果（[10,25,24,35])。在本文种，我们不使用Maxout/dropout，只是简单地通过设计的深层的瘦层架构进行正则化，而不会分散对优化难度的关注。但结合更强的正则化可能会改善结果，我们将在未来研究。

4.3 Object Detection on PASCAL and MS COCO

我们的方法在其他识别任务上具有良好的泛化性能。表7和表8显示了PASCAL VOC 2007和2013 [5]以及COCO[26]的物体检测结果。我们采用更快的R-CNN[32]作为检测方法。在这里，我们感兴趣的时用ResNet-101取代VGG-16[41]的改进。使用两种模型的检测实现(见附录)是相同的,因此增益只能归功于更好的网络。最值得注意的是，在具有挑战性的COCO数据集种，COCO标准度量(mAP@[.5,.95])增加了6.0%，相对改善了28%。这一收益完全归功于所学的表述。

基于深度残差网络，我们在ILSVRC和COCO 2015竞赛的几个赛事种获得了第一名：ImageNet检测，ImageNet定位，COCO检测和COCO分割。详情见附录。

参考：

[1] Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural
Networks, 5(2):157–166, 1994.
[2] C. M. Bishop. Neural networks for pattern recognition. Oxford
university press, 1995.
[3] W. L. Briggs, S. F. McCormick, et al. A Multigrid Tutorial. Siam,
2000.
[4] K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman. The devil
is in the details: an evaluation of recent feature encoding methods.
In BMVC, 2011.
[5] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The Pascal Visual Object Classes (VOC) Challenge. IJCV,
pages 303–338, 2010.
[6] S. Gidaris and N. Komodakis. Object detection via a multi-region &
semantic segmentation-aware cnn model. In ICCV, 2015.
[7] R. Girshick. Fast R-CNN. In ICCV, 2015.
[8] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In
CVPR, 2014.
[9] X. Glorot and Y. Bengio. Understanding the difficulty of training
deep feedforward neural networks. In AISTATS, 2010.
[10] I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and
Y. Bengio. Maxout networks. arXiv:1302.4389, 2013.
[11] K. He and J. Sun. Convolutional neural networks at constrained time
cost. In CVPR, 2015.
[12] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep
convolutional networks for visual recognition. In ECCV, 2014.
[13] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers:
Surpassing human-level performance on imagenet classification. In
ICCV, 2015.
[14] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and
R. R. Salakhutdinov. Improving neural networks by preventing coadaptation of feature detectors. arXiv:1207.0580, 2012.
[15] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural
computation, 9(8):1735–1780, 1997.
[16] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep
network training by reducing internal covariate shift. In ICML, 2015.
[17] H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest
neighbor search. TPAMI, 33, 2011.
[18] H. Jegou, F. Perronnin, M. Douze, J. Sanchez, P. Perez, and
C. Schmid. Aggregating local image descriptors into compact codes.
TPAMI, 2012.
[19] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick,
S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for
fast feature embedding. arXiv:1408.5093, 2014.
[20] A. Krizhevsky. Learning multiple layers of features from tiny images. Tech Report, 2009.
[21] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification
with deep convolutional neural networks. In NIPS, 2012.
[22] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard,
W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989.
[23] Y. LeCun, L. Bottou, G. B. Orr, and K.-R. Muller. Efficient backprop. ¨
In Neural Networks: Tricks of the Trade, pages 9–50. Springer, 1998.
[24] C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeplysupervised nets. arXiv:1409.5185, 2014.
[25] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv:1312.4400,
2013.
[26] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan,
P. Dollar, and C. L. Zitnick. Microsoft COCO: Common objects in ´
context. In ECCV. 2014.
[27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks
for semantic segmentation. In CVPR, 2015.
[28] G. Montufar, R. Pascanu, K. Cho, and Y. Bengio. On the number of ´
linear regions of deep neural networks. In NIPS, 2014.
[29] V. Nair and G. E. Hinton. Rectified linear units improve restricted
boltzmann machines. In ICML, 2010.
[30] F. Perronnin and C. Dance. Fisher kernels on visual vocabularies for
image categorization. In CVPR, 2007.
[31] T. Raiko, H. Valpola, and Y. LeCun. Deep learning made easier by
linear transformations in perceptrons. In AISTATS, 2012.
[32] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards
real-time object detection with region proposal networks. In NIPS,
2015.
[33] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection
networks on convolutional feature maps. arXiv:1504.06066, 2015.
[34] B. D. Ripley. Pattern recognition and neural networks. Cambridge
university press, 1996.
[35] A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and
Y. Bengio. Fitnets: Hints for thin deep nets. In ICLR, 2015.
[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma,
Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet
large scale visual recognition challenge. arXiv:1409.0575, 2014.
[37] A. M. Saxe, J. L. McClelland, and S. Ganguli. Exact solutions to
the nonlinear dynamics of learning in deep linear neural networks.
arXiv:1312.6120, 2013.
[38] N. N. Schraudolph. Accelerated gradient descent by factor-centering
decomposition. Technical report, 1998.
[39] N. N. Schraudolph. Centering neural network gradient factors. In
Neural Networks: Tricks of the Trade, pages 207–226. Springer,
1998.
[40] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection
using convolutional networks. In ICLR, 2014.
[41] K. Simonyan and A. Zisserman. Very deep convolutional networks
for large-scale image recognition. In ICLR, 2015.
[42] R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks.
arXiv:1505.00387, 2015.
[43] R. K. Srivastava, K. Greff, and J. Schmidhuber. Training very deep
networks. 1507.06228, 2015.
[44] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.
[45] R. Szeliski. Fast surface interpolation using hierarchical basis functions. TPAMI, 1990.
[46] R. Szeliski. Locally adapted hierarchical basis preconditioning. In
SIGGRAPH, 2006.
[47] T. Vatanen, T. Raiko, H. Valpola, and Y. LeCun. Pushing stochastic gradient towards second-order methods–backpropagation learning with transformations in nonlinearities. In Neural Information
Processing, 2013.
[48] A. Vedaldi and B. Fulkerson. VLFeat: An open and portable library
of computer vision algorithms, 2008.
[49] W. Venables and B. Ripley. Modern applied statistics with s-plus.
1999.
[50] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional neural networks. In ECCV, 2014.

Deep Residual Learning for Image Recognition(ResNet)