里程碑的残差结构|ResNet(一)

用于图像识别的深度残差学习

论文题目:Deep Residual Learning for Image Recognition

paper 是微软研究院发表在 CVPR2016 的工作

论文地址:链接

Abstract

越深层的神经网络越难训练。本文提出了一个残差学习框架,以简化比以前使用的网络更深的网络的训练。将层变为学习关于层输入的残差函数,而不是学习未参考的函数。本文提供了全面的实验论证,表明这些残差网络更容易优化,并且可以从显著增加的深度中提高准确性。在ImageNet数据集上,作者评估了深度高达 152 层的残差网络——比 VGG 网络深 8 倍,但复杂度仍然较低。这些残差网络的集合在ImageNet测试集上实现了3.57%的误差率。该结果在 ILSVRC 2015 分类任务中获得第一名。作者还在CIFAR-10上分析了100层和1000层的残差网络。

表示的深度对于许多视觉识别任务至关重要。仅因为深入的表示,作者在COCO目标检测数据集上获得了28%的相对提升。深度残差网络是作者提交 ILSVRC 和 COCO 2015 比赛的基础,网络还在 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割任务中获得了第一名。

1. Introduction

深度卷积神经网络为图像分类带来了一系列突破。深度网络以端到端的多层次方式自然地集成了低/中/高级特征和分类器,并且特征的“级别”可以通过堆叠层数(深度)来丰富。最近的研究[41, 44]表明网络深度至关重要,在具有挑战性的 ImageNet 数据集上的领先结果都利用了“非常深”的模型,具有十六到三十层的深度。许多其他重要的视觉识别任务在非常深的模型中也受益匪浅。

在深度重要性的驱动下,出现了一个问题:学习更好的网络是否像堆叠更多层一样容易?回答这个问题的一个障碍是梯度消失/爆炸问题,这从一开始就阻碍了收敛。而这个问题已经通过归一化初始化和中间归一化层在很大程度上得到解决,使得具有数十层的网络能够开始收敛以实现具有反向传播的随机梯度下降 (SGD)。

当更深层次的网络能够开始收敛时,就会暴露出一个退化问题:随着网络深度的增加,精度会达到饱和(这可能并不奇怪),然后迅速退化。出乎意料的是,这种退化并不是由过度拟合引起的,向适当深度的模型中添加更多层会导致更高的训练误差,如[11,42]所述,并通过本文的实验得到了彻底验证。图1显示了一个典型示例。

图1

图 1. 具有 20 层和 56 层“plain”网络的 CIFAR-10 上的训练错误(左)和测试错误(右)。更深的网络有更高的训练误差,因此也有测试误差。 ImageNet 上的类似现象如图 4 所示。

训练精度的下降表明并非所有系统都同样容易优化。让我们考虑一个更浅的架构和它的更深的对应物,它增加了更多的层。通过构建更深的模型存在一种解决方案:添加的层是恒等映射,其他层是从学习的较浅模型中复制的。这种构造解决方案的存在表明,较深的模型不应比其较浅的模型产生更高的训练误差。但是实验表明,现有的求解器无法找到与构建的解决方案相当或更好的解决方案(或无法在可行的时间内这样做)。

本文通过引入深度残差学习框架来解决退化问题。作者没有希望每几个堆积层直接适合所需的底层映射,而是明确地让这些层适合一个残差的映射。将所需的底层映射表示为 H ( x ) \mathcal{H}(\mathbf{x}) H(x),让堆叠的非线性层拟合另一个映射 F ( x ) : = H ( x ) − x \mathcal{F}(\mathbf{x}):=\mathcal{H}(\mathbf{x})-\mathbf{x} F(x):=H(x)x。原始映射被重新构造成 F ( x ) + x \mathcal{F}(\mathbf{x})+\mathbf{x} F(x)+x。假设优化残差映射比优化原始的、未引用的映射更容易。极端情况下,如果恒等映射是最优的,则将残差推至零要比通过一堆非线性层拟合恒等映射更容易。

公式 F ( x ) + x \mathcal{F}(\mathbf{x})+\mathbf{x} F(x)+x可以通过具有“快捷连接”的前馈神经网络来实现(图 2)。快捷连接是那些跳过一层或多层的连接。在本文的例子中,快捷连接只是简单地执行恒等映射,它们的输出被添加到堆叠层的输出中(图 2)。恒等快捷连接既不增加额外的参数,也不增加计算复杂性。整个网络仍然可以通过带有反向传播的 SGD 进行端到端训练,并且可以使用通用库(例如 Caffe)轻松实现,而无需修改求解器。

图2

图2。残差学习:一个构建块。

在ImageNet上进行了全面的实验来展示退化问题并评价本文的方法。结果表明:1)极深残差网易于优化,而相对的“plain”网络(简单叠加层)在深度增加时训练误差较大;2)深度残差网络可以很容易地从深度的大幅增加中获得精度增益,产生的结果大大优于以前的网络。

在CIFAR-10集上也出现了类似的现象,这表明本文方法的优化难度和效果并不只是在特定的数据集上有效。作者在这个数据集上成功地展示了超过100层的训练模型,并探索了超过1000层的模型。

在ImageNet分类数据集上,通过极深的残差网络获得了出色的结果。152层残差网络是ImageNet上有史以来最深的网络,同时仍然比VGG 网络具有更低的复杂性。作者的模型集合在ImageNet测试集上有 3.57% 的 top-5 误差率,并在 ILSVRC 2015 分类竞赛中获得第一名。极深的表示在其他识别任务上也具有出色的泛化性能,并带领作者在 ILSVRC & COCO 2015 竞赛中进一步赢得:ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割的第一名。这一强有力的证据表明,残差学习原理是通用的,希望它适用于其他视觉和非视觉问题。

2. Related Work

Residual Representations. 在图像识别中,VLAD是一种通过残差向量对字典进行编码的表示,而Fisher V-ector可以表示为VLAD的概率版本。它们都是用于图像检索和分类的强大的浅层表示。对于向量量化,编码残差向量被证明比编码原始向量更有效。

在低级视觉和计算机图形学中,为了求解偏微分方程 (PDE),广泛使用的 Multigrid 方法将系统重新表述为多个尺度的子问题,其中每个子问题负责粗略和精细之间的残差解规模。 Multigrid 的一种替代方法是分层基础预处理,它依赖于表示两个尺度之间的残差向量的变量。[3,45,46]已经证明,这些解算器比不知道解的残差性质的标准解算器收敛得更快。这些方法表明,良好的重构或预处理可以简化优化。

Shortcut Connections. 快捷连接的实践和理论已经研究了很长时间。训练多层感知器 (MLP) 的早期实践是添加一个从网络输入连接到输出的线性层。在 [44, 24] 中,一些中间层直接连接到辅助分类器以解决消失/爆炸梯度。 [39, 38, 31, 47] 的论文提出了通过快捷连接来实现层响应、梯度和传播误差的中心化方法。在[44]中,“inception”层由一个快捷分支和一些更深的分支组成。

同时,“highway网络”提供了与门控功能的快捷连接。与本文的无参数恒等快捷方式相比,这些门依赖于数据并具有参数。当门控捷径“关闭”(接近零)时,highway网络中的层表示非残差函数。与之相反,本文的公式总是学习残差函数,恒等捷径永远不会关闭,所有信息都通过,还有额外的残差函数需要学习。此外,highway网络没有表现出随着深度的极大增加(例如,超过 100 层)的准确性提高。

参考文献

[3] W. L. Briggs, S. F. McCormick, et al. A Multigrid Tutorial. Siam, 2000.

[11] K. He and J. Sun. Convolutional neural networks at constrained time cost. In CVPR, 2015.

[24] C.-Y . Lee, S. Xie, P . Gallagher, Z. Zhang, and Z. Tu. Deeplysupervised nets. arXiv:1409.5185, 2014.

[31] T. Raiko, H. V alpola, and Y . LeCun. Deep learning made easier by linear transformations in perceptrons. In AISTATS, 2012.

[38] N. N. Schraudolph. Accelerated gradient descent by factor-centering decomposition. Technical report, 1998.

[39] N. N. Schraudolph. Centering neural network gradient factors. In Neural Networks: Tricks of the Trade, pages 207–226. Springer, 1998.

[41] K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition. In ICLR, 2015.

[42] R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks. arXiv:1505.00387, 2015.

[44] C. Szegedy, W. Liu, Y . Jia, P . Sermanet, S. Reed, D. Anguelov, D. Erhan, V . V anhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.

[45] R. Szeliski. Fast surface interpolation using hierarchical basis functions. TPAMI, 1990.

[46] R. Szeliski. Locally adapted hierarchical basis preconditioning. In SIGGRAPH, 2006.

[47] T. V atanen, T. Raiko, H. V alpola, and Y . LeCun. Pushing stochastic gradient towards second-order methods–backpropagation learning with transformations in nonlinearities. In Neural Information Processing, 2013.

猜你喜欢

转载自blog.csdn.net/wl1780852311/article/details/123113449
今日推荐