VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNTION（翻译）

0 - ABSTRACT

　　在这个工作中，我们研究了卷积网络的深度对于它在大规模图像识别设置上的准确率的效果。我们的主要贡献是对使用非常小的卷积核（3×3）来增加深度的网络架构进行彻底评估，这说明了通过将深度增加到16-19层能够比之前最好的业界水平更好。这些发现是我们参加ImageNet Challenge 2014的基础，在这个比赛中我们团队在定位和分类追踪任务上分别获得了第一和第二的名次。我们也表明了我们的模型可以很好的扩展到其他数据集上，并都达到了最佳的水平。我们已经将我们的两个效果最好的卷积网络模型开源，以此希望能够促进计算机视觉中深度视觉表达的更进一步的研究。

1 - INTRODUCTION

　　卷积网络（ConvNets）最近在大规模图像和视频识别上面取得了很大的成功，这可能得益于大型的开源图像库，例如ImageNet，以及高性能的计算系统，例如GPUs或者大规模分布式集群。特别是在深度视觉识别架构发展中扮演重要角色的ImageNet Large-Scale Visual Recognition Challenge (ILSVRC)，从高维浅层特征编码到深度卷积网络，它为几代大规模图像分类系统提供了测试平台。

　　随着卷积网络在计算机视觉领域中的应用越来越广，越来越多人尝试在Krizhevsky等人提出的原始架构上进行改进从而获得更高的准确率。例如，ILSVRC-2013最好的参赛模型在第一个卷积层上使用了较小的接收窗口以及较小的步长。另一种改进方案是在增幅图像和它的几个尺寸上进行训练和测试网络。在本文中，我们关注了另一个卷积网络架构设计的重要方面——它的深度。为此，我们固定了网络架构中的其他参数，并且通过添加更多的卷积层有规则地增加网络的深度，因为沃恩所有层使用的是非常小的卷积核（3×3），因此这是可行的。

　　因此，我们提出了有着更高精度的卷积网络架构，这个架构不仅实现了在ILSVRC分类和定位任务中的最好效果，而且在其他图像识别数据集上也表现了优异的性能，即时只是用来作为一个相对简单框架的一部分（例如作为无需微调的线性SVM的深度特征分类）。我们开源了两个性能最好的模型来促进进一步的研究。

　　本文剩下的部分将被组织成如下几部分。在Sect. 2中，我们描述我们的卷积网络结构。Sect. 3将介绍图像分类任务的训练和评估的细节。Sect. 4将对在ILSVRC分类任务上的不同架构进行比较。Sect. 5总结这篇文章。为了文章的完整性，我们也在Appendix A部分描述和评估我们的ILSVRC-2014目标定位系统，并在Appendix B部分讨论了非常深的特征在其他数据集的泛化能力。最后，Appendix C部分包括了本文的主要修订记录。

2 - CONVNET CONFIGURATIONS

　　为了公平的衡量由增加的卷积层深度所带来的性能提高，我们所有的卷积层都采用相同的方式设计，这由Ciresan等人（2011）Krizhevsky等人（2012）提出。在这个部分，我们首先描述我们卷积网络结构中的通用层（Sect. 2.1），然后描述在评估中具体的配置细节（Sect. 2.2）。在Sect. 2.3中讨论了我们的设计选择并且与向前最好的技术进行比较。

2.1 - ARCHITECTURE

　　在训练阶段，卷积网络的输入为固定的244×244尺寸的RGB图像。我们唯一做的预处理是对每一个像素减去训练集中的RGB均值。图像通过堆叠起来的卷积层，这些层我们使用了非常小的接收域：3×3（这是用来获取左右、上下以及中心信息的最小尺寸）。在我们的一种配置中，我们也使用了1×1卷积过滤器，这可以看成对于输入通道的一个线性变换（其后面接一个非线性变换）。卷积的步长固定为1像素；卷积层的空间填充（spatial padding）用来保持卷积后的图像的空间分辨率，对于3×3卷积核填充为1个像素。空间池化包含5个最大池化层，它们接在部分卷积层后面（并不是全部卷积层都后接有池化层）。最大池化层是通过2×2像素的窗口，步长为2来表现的。

　　在堆叠卷积层（在不同架构有着不同的深度）之后接着三个全连接层：前面两个全连接层有4096个通道，第三个用来做1000类的ILSVRC的分类因此包含1000个通道（每一个类别一个通道）。最后一层是soft-max层。全连接层的配置在所有网络中是一致的。

　　全部的隐藏层都是用非线性修正（ReLU）。注意到我们的网络（除了一个）都不包含了局部响应标准化（LRN）：这将在Sect. 4中展示，这个标准化并不会提高网络在ILSVRC数据集上的表现，但是反而增加了内存的消耗以及计算时间。在适用的情况下，LRN层的参数都是那些（Krizhevsky等人在2012提出的）。