摘要

本文研究了大规模图像识别中卷积网络深度对其精度的影响。我们的主要贡献是使用一种非常小(3×3)卷积滤波器的结构对增加深度的网络进行了彻底的评估，这表明通过将深度推进到16-19层，可以实现对现有技术配置的显著改进。这些发现是我们的ImageNet 2014年挑战报告的基础，我们的团队分别在本地化和分类轨道上获得了第一名和第二名。我们还表明，我们的表示很好地推广到了其他数据集，在这些数据集中，它们取得了最先进的结果。我们已将我们的两种性能最好的ConvNet模型公诸于众，以便于进一步研究在计算机视觉中使用深度视觉表示的问题。

1、引言

卷积网络(卷积网)最近在大规模图像和视频识别方面取得了巨大成功，这是由于大型公共图像存储库(ImageNet(邓等人，2009年)和高性能计算系统(如GPU或大规模分布式集群)(Dean等人，2012年)而成为可能的。特别是，ImageNet大规模视觉识别挑战(ILSVRC)(russakovsky等人，2014年)在深度视觉识别体系的发展中发挥了重要作用，它为几代大型图像分类系统提供了实验平台，从高维浅层特征编码(perronnin等人)开始。2010年)(ILSVRC-2011年的获胜者)至深对流网(Krizhevsky等人，2012年)(ILSVRC-2012年的获胜者)。

随着ConvNets成为计算机视觉领域的一种代表，人们对Krizhevsky等人的原有体系结构进行了大量的改进。(2012年)为了达到更高的准确性。例如，对ilsvrc 2013的最佳提交使用了较小的接收窗口大小和第一卷积层的较小步幅。另一项改进涉及在整个图像和多个尺度上密集地对网络进行训练和测试(sermanet al.，2014年；Howard，2014年)。在本文中，我们讨论了ConvNet架构设计的另一个重要方面-深度。为此，我们确定了该体系结构的其他参数，并通过增加更多的卷积层来稳定地增加网络的深度，这是可行的，因为在所有层中都使用了非常小的(3×3)卷积滤波器。

因此，我们提出了更加精确的ConvNet体系结构，它不仅在ILSVRC分类和本地化任务上达到了最先进的精度，而且还适用于其他图像识别数据集，即使作为一个相对简单的管道的一部分使用，它们也能获得优异的性能(例如，在没有微调的情况下，线性svm分类的深度特性)。为了便于进一步研究，我们已经发布了两款性能最好的模型。

论文的其余部分组织如下。在第二部分我们描述了我们的ConvNet结构。然后详细介绍了图像分类、训练和评价的内容。第三部分对ILSVRC分类任务的配置进行了比较。第四部分对ILSVRC分类任务的配置进行了比较。第五部分总结了整篇文章。为了完整起见，我们还在附录a中描述和评估了我们的ILSVRC-2014对象定位系统，并讨论了附录b中对其他数据集的非常深入的特性的概括。最后，附录c载有主要文件修订清单。

2、ConvNet的结构

为了在公平的环境下测量ConvNet深度的增加所带来的改善，受ciresan等人启发，我们所有的ConvNet层配置都是使用相同的原则设计。

2.1、层次

在训练过程中，我们的ConvNet的输入是一个固定大小的224×224的RGB图像.。我们所做的唯一的预处理是从每个像素中减去平均rgb值(根据训练集计算)。图像通过一堆卷积(conv.)层，在这里，我们使用一个非常小的感受野：3×3的卷积核。（这是捕捉左/右、上/下、中的最小大小。）在其中一种配置中，我们还使用了1×1卷积滤波器，这可以看作是输入通道的线性变换(其次是非线性)。层输入使卷积后的空间分辨率保持不变，即3×3层的填充为1个像素。空间池由五个最大池化层组成，这些层在一些conv层之后。(并不是所有的conv层都跟着最大池化层)。最大池化通过2×2像素窗口执行，步长为2.。

一堆卷积层(在不同的体系结构中有不同的深度)后面是三个全连接(FC)层：前两个有4096个通道，第三个执行1000路ILSVRC分类，因此包含1000个通道(每个类一个)。最后一层是软最大层。在所有网络中，全连接层的结构是相同的。

所有隐藏层都配有relu激活(relu(Krizhevsky等人，2012年)。我们注意到，我们的网络(除一个网络外)都没有地方响应正常化(LRN)正常化(Krizhevsky等人，2012年)：如第四部分所述：这种规范化不会提高ILSVRC数据集上的性能，但会增加内存消耗和计算时间。

2.2、结构

本文中评估的ConvNet配置在表1中列出，每列一个。在下面，我们将按其名称(a-e)来提及这些网络。所有配置都遵循第2.1节中提出的通用设计，仅在深度上有所不同： A网中第11层的权重(8 conv. and 3 FC layers)和E网中的19层权重(16 conv. and 3 FC layers)。Conv层的宽度(信道数)相当小，从第一层的64开始，然后在每个最大池化层之后增加2倍，直到达到512。

在表2中，我们报告了每个配置的参数。尽管有很大的深度，但我们网络中的权重数并不比较浅的网络中的权重数大，因为网络中的控制层宽度和接收域较大(144M weights in (Sermanet et al., 2014))。

2.3、讨论

我们的ConvNet配置与在ILSVRC-2012(Krizhevsky et al., 2012)和ILSVRC-2013s (Zeiler & Fergus, 2013; Sermanet et al., 2014)竞赛中表现最好的参赛作品中使用的配置非常不同。与第一层使用相对较大的接受域相比(例如，11×11步长为4(Krizhevsky等人，2012年) ，或者在第一层使用7×7的步长2(Zeiler & Fergus,2013; Sermanet et al., 2014))，我们是在整个网络中使用非常小的3×3接受域，那可以在每个像素处与输入相结合。很容易看出，2层3×3(中间没有空间池)的有效接收场为5×5；

表1：ConvNet配置(列中显示)。配置的深度从左(A)增加到右(E)，因为添加了更多的层(添加的层以粗体显示)。卷积层参数表示为“沟道尺寸的卷积场数”。为了简洁起见，不显示relu激活函数。

三个这样的层有一个7×7的有效接受场。那么，我们通过使用三层3×3层而不是单一的7×7层得到了什么呢？首先，我们用三个非线性校正层代替一个单一的校正层，使得决策函数更具判别性。其次，我们减少了参数的数量：假设三层3×3卷积层的输入和输出通道都为C。这3层的权重参数就为 $(3^2C^2)=27C^2$ ；同时一个单一的7×7的卷积层需要 $(7^2C^2)=49C^2$ 个参数，超过了81%。这可以看作是对7×7 的卷积滤波器施加了正则化，迫使它们通过3×3的卷积核进行分解(其间注入非线性)。

1×1的卷积层(配置c，表1)是一种在不影响Conv层的接收场的情况下增加决策函数的非线性的方法。即使在这种情况下，1×1卷积实质上是在相同维数(输入和输出通道数相同)的空间上的线性投影，由校正函数引入一个额外的非线性。值得注意的是，最近在LIN等人的“网络中的网络”体系结构中使用了1×1的卷积层。(2014年)

小型卷积滤波器以前曾被ciresan等人使用过(2011年) ，但他们的网远不如我们的深，他们没有对大规模ILSVRC数据集进行评估。古德费罗等人(2014年)将深ConvNets(11个权重层)应用于街道号码识别任务，并表明，增加的深度导致了更好的性能。Google LeNet(Szegedy等人，2014年)是ILSVRC-2014分类任务中表现最好的一个，它是独立于我们的工作开发的，但它类似于基于非常深的卷积网(22个权重层)和小卷积滤波器(除了3×3，它们还使用1×1和5×5卷积)。然而，它们的网络拓扑比我们的要复杂，而且在第一层中，特征映射的空间分辨率被更积极地降低，以减少计算量。如第4.5节所示，我们的模型在单网络分类精度方面优于Szegedy等人(2014)。 .

3、分类框架

在上一节中，我们介绍了我们的网络配置的细节。在这一部分中，我们描述了分类ConvNet训练和评估的细节。

3.1 训练

ConvNet的训练过程一般遵循Krizhevsky等人的原则，（2012）(如下文所述，除了从多尺度训练图像中取样作为输入样本外)。即训练是通过使用带有动量的小批梯度下降(基于反向传播(Le村等人，1989)来优化多项式Logistic回归目标来进行的。批次大小设置为256，动量设置为0.9。训练通过权重衰减(L2正则设置为 $5*10^{-4}$ )和前两个全连接层的归一化(归一率设置为0.5)加以调整。学习率最初设置为 $10^{-2}$ ，当验证集精度停止提高时，学习率下降了10倍。经370千次迭代(74个周期)后，学习率下降3倍，学习停止。我们猜想，与(Krizhevsky等人，2012年)相比，尽管我们的网络参数更多、深度更深，但由于(A)较大深度和较小的Conv所施加的隐式正则化，这些网需要更少的时间就能收敛。过滤尺寸；(B)某些层的预初始化。

网络权值的初始化是很重要的，因为由于深度网中梯度的不稳定性，错误的初始化会阻碍学习。为了避免这个问题，我们开始训练配置a(表1)，足够浅，可以通过随机初始化进行训练。然后，在对更深层次的体系结构进行训练时，我们初始化了前四个卷积层和最后三个全连接层(中间层是随机初始化的)。我们没有降低预初始化层的学习速度，允许它们在学习过程中发生变化。对于随机初始化(在适用的情况下)，我们从均值为0方差为0.01的正态分布抽取权重。这些偏差被初始化为零。值得注意的是，在提交论文后，我们发现可以使用glorot的随机初始化程序，不进行预训练就可以初始化权重。

为了获得固定大小的224×224的ConvNet输入图像，从重新标度的训练图像中随机裁剪它们(每个SGD迭代一幅图像)。为了进一步扩大训练集，crop进行了随机水平翻转和随机RGB色移(Krizhevsky等人，2012年)。训练图像重标度说明如下。

训练图像大小：让我们做一个同向重标度训练图像的最小边，从中裁剪ConvNet输入(我们也称s为训练尺度)。虽然crop大小固定在224×224，但原则上s可以承担不少于224的任何值：当s=224时，crop将捕获整个图像统计数据，完全跨越训练图像最小的一面；对于s≫224，该裁剪将对应于图像的一小部分，其中包含一个小对象或一个对象部分。

我们考虑了两种确定训练规模的方法，第一种是修正s，它对应于单尺度的训练(注意，采样crop中的图像内容仍然可以表示多尺度图像统计)。在我们的实验中，我们评估了在两个固定尺度上训练的模型：s=256(在现有技术中已广泛使用)(Krizhevsky等人，2012年；Zeiler和Fergas，2013年；sermanet等人，2014年)和s=384。给定ConvNet的结构，我们首先使用s=256训练网络。为了加速s=384网络的训练速度，我们用s=256预先训练的权重初始化了它，我们使用了较小的初始学习速率( $10^{-3}$ )。

第二种设置s的方法是多尺度训练，通过从一定范围内随机采样s[SMIN，smax](我们使用SMIN=256和smax=512)对每个训练图像进行个别重标度。由于图像中的物体可以有不同的大小，因此在训练中考虑到这一点是有益的。这也可以被看作是通过规模抖动来增强训练集，其中一个模型被训练来识别范围很广的对象。由于速度原因，我们通过微调具有相同配置的单尺度模型的所有层来训练多尺度模型，用固定的s=384预先训练。

3.2 测试

在测试时，给定经过训练的ConvNet和输入图像，按以下方式对其进行分类：首先，它是同向重新标度到一个预定义的最小图像边，表示为q(我们也称它为测试标度)。我们注意到，q不一定等于训练规模s(如我们将在第四节中显示的那样)。对每个s使用多个q值可以提高性能。然后，以类似于sermanet al.(sermanet al.，2014)的方式在重标度的测试图像上密集地应用网络。即全连接层首先转换为卷积层(第一层FC层为7×7 Conv)，最后两个FC层为1×1卷积层。生成的全卷积网络然后应用于整个(未裁剪)图像。结果是一个类别分数图，其通道数等于类别个数，空间分辨率随输入图像大小而变化。最后，为了获得图像的固定大小的分类分数向量，对类得分映射进行空间平均(和-集合)。我们还增加了水平翻转图像的测试集；对原始图像和翻转图像的软-最大类后验值进行平均，以获得图像的最终分数。

由于全卷积网络应用于整个图像，因此不需要在测试时取样多个crop（krizhevsky等人，2012年)，这是不太有效的，因为它需要对每一个crop进行网络重新计算。同时，使用大量的crop，如Szegedy等人所做的。(2014)可以提高精度，因为与全卷积网络相比，它可以使输入图像的采样更精细。此外，由于卷积边界条件不同，多crop评价也是对密集评价的补充：将ConvNet应用于crop时，旋转的特征映射用零填充，而在密集评估的情况下，同一作物的填充自然来自图像的邻近部分(由于卷积和空间池)，这大大增加了整个网络接收场，因此捕获了更多的上下文。虽然我们认为，在实践中，多个crop的计算时间的增加并不能证明精度的潜在提高是合理的，但作为参考，我们还使用50种crop(5×5规则网格，有2个翻转)来评估我们的网络，在3个尺度上总共有150种crop，相当于Szegedy等人在4个尺度上使用的144种crop。(2014年)。

3.3实施细节

我们的实现来源于公开提供的caffe工具箱(ja，2013年)(2013年12月开始使用)，但包含了一些重要的修改，使我们能够对安装在单个系统中的多个GPU进行训练和评估，以及在多个尺度上对全尺寸(未裁剪)图像进行训练和评估(如上文所述)。多GPU训练利用数据并行性，将每一批训练图像分割成多个GPU批次，在每个GPU上并行处理。在计算GPU批处理梯度后，对它们进行平均，以获得整个批处理的梯度。梯度计算在GPU上是同步的，因此结果与在单个GPU上进行训练的结果完全相同。

虽然最近有人提出了更复杂的加速ConvNet训练的方法(Krizhevsky，2014年)，该方法对网络的不同层采用了模型和数据并行，但我们发现，与使用单个GPU相比，我们在概念上要简单得多的方案已经在现成的4-GPU系统上提供了3.75倍的加速比。在一个配备了四个NVIDIA Titan Black GPU的系统上，一个网络的训练要花费2-3周的时间，这取决于它的体系结构。

4、分类实验

数据集在本节中，我们将介绍描述的ConvNet体系结构在ILSVRC-2012数据集上所取得的图像分类结果(用于ILSVRC 2012-2014年挑战)。该数据集包含1000个类的图像，并分为三组：训练(130万张图像)、验证(50k图像)和测试(100 k图像保留类标签)。分类性能采用两个衡量标准：顶部-1和顶-5误差。前者是一个多类分类误差，即错误分类图像的比例；后者是ILSVRC中使用的主要评价标准，被计算为图像的比例，使得ground-truth类别超出了前5个预测类别。

对于大多数实验，我们使用验证集作为测试集。还在测试集上进行了某些实验，并将其作为一个“vgg”小组进入ILSVRC-2014年竞赛(russakovsky等人，2014年)，作为正式的ILSVRC服务器提交给ILSVRC服务器。

4.1单尺度评价

我们首先评估单个ConvNet模型的性能，并在Sect.Sets中描述了层的配置。2.2.测试图像大小设置为：固定s为q=s，抖动s∈为q=0.5(SMIN Smax)[sMIN，smax]。结果见表3。

首先，我们注意到使用本地响应正常化(a-lrn网络)在没有任何标准化层的模型a上没有改进。因此，我们没有在更深层次的体系结构(b-e)中使用规范化。

其次，我们观察到，分类误差随着ConvNet深度的增加而减小：从a中的11层下降到e中的19层。值得注意的是，尽管深度相同，配置c(包含三个1×1 Conv)。)，执行性能比配置d差，配置d使用3×3 COV。整个网络的层次。这表明，虽然附加的非线性确实有帮助(c优于b)，但使用conv捕获空间上下文也很重要。具有非平凡接收域的滤波器(d优于c)。当深度达到19层时，我们的体系结构的错误率会达到饱和，但是更深的模型可能对较大的数据集有好处。并将B网与5 5×5 Conv的浅网进行了比较。每一对3×3 Conv由b衍生而来的层数。层数为5×5。层(具有与节中解释的相同的接收字段)。2.3)。测得浅层网的顶1误差比b(中心作物)高7%，这证实了小滤波器的深网优于较大滤波器的浅网。

最后，训练时的尺度抖动(s∈[256；512])比固定最小边(s=256或s=384)的图像上的训练结果要好得多，即使在测试时使用单一尺度。这证实了训练集的尺度抖动增强确实有助于捕获多尺度图像统计。

4.2多尺度评价

在对ConvNet模型进行单尺度评估之后，我们现在评估了测试时尺度抖动的影响。它包括在一个测试映像的几个重标度版本上运行一个模型(对应于不同的Q值)，然后对结果的类后验进行平均。考虑到训练和测试尺度之间的巨大差异导致性能下降，用固定s训练的模型被评估超过三个测试图像大小，接近于训练图像的Q={s−32，s，s 32}。同时，训练时的尺度抖动允许网络在测试时间应用于更大范围的尺度，因此在较大的训练范围q={smin，0.5(Sminsmax)，smax}上对变量s∈[smin；smax]训练的模型进行了评估。

表4所示的结果表明，测试时的标度抖动会带来更好的性能(与表3所示的在单标度下评估同一模型相比)。和以前一样，最深的配置(d和e)表现最好，规模抖动优于固定最小侧的训练。我们在验证集上的最佳单网络性能是24.8%/7.5%top-1/top-5错误(在表4中以粗体突出显示)。在测试集上，配置e达到7.3%的顶部-5错误.。

4.3多crop评价

在表5中，我们比较了密集ConvNet评价和多crop评价(见第三节)。3.2详细情况)。我们还通过对这两种评价技术的最大输出进行平均，来评估它们的互补性。可以看出，使用多种作物的效果略好于密集评价，这两种方法确实是相辅相成的，因为它们的组合优于每一种方法。如上所述，我们假设这是由于对卷积边界条件的不同处理。

4.4 ConvNet融合

到目前为止，我们对单个ConvNet模型的性能进行了评估。在这部分实验中，我们结合了几种模型的输出，平均它们的软-最大类后验。由于模型的互补性，这提高了性能，并在2012年(Krizhevsky等人，2012年)和2013年(Zeiler)提交的最高ILSVRC文件中使用。

结果见表6。在ILSVRC提交时，我们只训练了单尺度网络，以及多尺度模型d(通过微调只对完全连接的层而不是所有层进行微调)。7个网络的集成具有7.3%的ILSVRC测试误差。提交后，我们只考虑了两个性能最好的多尺度模型(配置d和e)的集合，这使得使用密集评估的测试误差降低到7.0%，使用密集和多作物联合评估的测试误差降低到6.8%。作为参考，我们最好的单一模型的误差为7.1%(模型e，表5).

4.5与技术现状的比较

最后，我们将我们的结果与表7中的最新情况进行了比较。在ILSVRC-2014挑战(russakovsky等人，2014年)的分类任务中，我们的“vgg”团队使用7种模型组合，以7.3%的测试误差获得了第二名。提交后，通过两个模型的集成，我们将误差率降低到6.8%。

从表7可以看出，我们非常深的对流层明显优于上一代模型，在ILSVRC-2012和ILSVRC-2013竞赛中取得了最好的结果。我们的结果在分类任务获奖者(错误6.7%的谷歌网)方面也具有竞争力，并且大大超过了ILSVRC-2013获奖提交的Clarifai，后者通过外部训练数据获得11.2%的成绩，在没有它的情况下达到11.7%。这是值得注意的，考虑到我们最好的结果是通过合并两个模型-大大少于大多数ILSVRC提交的模型。在单网性能方面，我们的架构获得了最好的结果(7.0%的测试错误)，比单一的Google网高出0.9%。值得注意的是，我们并没有偏离经典的ConvNet的Le村等人的体系结构。(1989)，但通过大幅度增加深度来改进它。

5 结论

在这项工作中，我们评估了非常深的卷积网络(多达19个权重层)用于大规模图像分类。研究表明，表示深度有利于分类的准确性，而且使用传统的ConvNet体系结构(Le村等人，1989年；Krizhevsky等人，2012年)可以在ImageNet挑战数据集上实现最先进的性能。在附录中，我们还展示了我们的模型能够很好地概括到广泛的任务和数据集，匹配或优于构建在较低深度图像表示上的更复杂的识别管道。我们的结果再次证实了深度在视觉表现中的重要性。

ACKNOWLEDGEMENTS This work was supported by ERC grant VisRec no. 228180. We gratefully acknowledge the support of NVIDIA Corporation with the donation of the GPUs used for this research.

REFERENCES Bell, S., Upchurch, P., Snavely, N., and Bala, K. Material recognition in the wild with the materials in context database. CoRR, abs/1412.0623, 2014. Chatfield, K., Simonyan, K., Vedaldi, A., and Zisserman, A. Return of the devil in the details: Delving deep into convolutional nets. In Proc. BMVC., 2014. Cimpoi, M., Maji, S., and Vedaldi, A. Deep convolutional filter banks for texture recognition and segmentation. CoRR, abs/1411.6836, 2014. Ciresan, D. C., Meier, U., Masci, J., Gambardella, L. M., and Schmidhuber, J. Flexible, high performance convolutional neural networks for image classification. In IJCAI, pp. 1237–1242, 2011. Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., Ranzato, M., Senior, A., Tucker, P., Yang, K., Le, Q. V., and Ng, A. Y. Large scale distributed deep networks. In NIPS, pp. 1232–1240, 2012. Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. Imagenet: A large-scale hierarchical image database. In Proc. CVPR, 2009. Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E., and Darrell, T. Decaf: A deep convolutional activation feature for generic visual recognition. CoRR, abs/1310.1531, 2013. Everingham, M., Eslami, S. M. A., Van Gool, L., Williams, C., Winn, J., and Zisserman, A. The Pascal visual object classes challenge: A retrospective. IJCV, 111(1):98–136, 2015. Fei-Fei, L., Fergus, R., and Perona, P. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. In IEEE CVPR Workshop of Generative Model Based Vision, 2004. Girshick, R. B., Donahue, J., Darrell, T., and Malik, J. Rich feature hierarchies for accurate object detection and semantic segmentation. CoRR, abs/1311.2524v5, 2014. Published in Proc. CVPR, 2014. Gkioxari, G., Girshick, R., and Malik, J. Actions and attributes from wholes and parts. CoRR, abs/1412.2604, 2014. Glorot, X. and Bengio, Y. Understanding the difficulty of training deep feedforward neural networks. In Proc. AISTATS, volume 9, pp. 249–256, 2010. Goodfellow, I. J., Bulatov, Y., Ibarz, J., Arnoud, S., and Shet, V. Multi-digit number recognition from street view imagery using deep convolutional neural networks. In Proc. ICLR, 2014. Griffin, G., Holub, A., and Perona, P. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. He, K., Zhang, X., Ren, S., and Sun, J. Spatial pyramid pooling in deep convolutional networks for visual recognition. CoRR, abs/1406.4729v2, 2014. Hoai, M. Regularized max pooling for image categorization. In Proc. BMVC., 2014. Howard, A. G. Some improvements on deep convolutional neural network based image classification. In Proc. ICLR, 2014. Jia, Y. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/, 2013. Karpathy, A. and Fei-Fei, L. Deep visual-semantic alignments for generating image descriptions. CoRR, abs/1412.2306, 2014. Kiros, R., Salakhutdinov, R., and Zemel, R. S. Unifying visual-semantic embeddings with multimodal neural language models. CoRR, abs/1411.2539, 2014. Krizhevsky, A. One weird trick for parallelizing convolutional neural networks. CoRR, abs/1404.5997, 2014. Krizhevsky, A., Sutskever, I., and Hinton, G. E. ImageNet classification with deep convolutional neural networks. In NIPS, pp. 1106–1114, 2012. LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., and Jackel, L. D. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4):541–551, 1989. Lin, M., Chen, Q., and Yan, S. Network in network. In Proc. ICLR, 2014. Long, J., Shelhamer, E., and Darrell, T. Fully convolutional networks for semantic segmentation. CoRR, abs/1411.4038, 2014. Oquab, M., Bottou, L., Laptev, I., and Sivic, J. Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks. In Proc. CVPR, 2014. Perronnin, F., S´anchez, J., and Mensink, T. Improving the Fisher kernel for large-scale image classification. In Proc. ECCV, 2010. Razavian, A., Azizpour, H., Sullivan, J., and Carlsson, S. CNN Features off-the-shelf: an Astounding Baseline for Recognition. CoRR, abs/1403.6382, 2014. 9 Published as a conference paper at ICLR 2015 Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A. C., and Fei-Fei, L. ImageNet large scale visual recognition challenge. CoRR, abs/1409.0575, 2014. Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., and LeCun, Y. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. In Proc. ICLR, 2014. Simonyan, K. and Zisserman, A. Two-stream convolutional networks for action recognition in videos. CoRR, abs/1406.2199, 2014. Published in Proc. NIPS, 2014. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., and Rabinovich, A. Going deeper with convolutions. CoRR, abs/1409.4842, 2014. Wei, Y., Xia, W., Huang, J., Ni, B., Dong, J., Zhao, Y., and Yan, S. CNN: Single-label to multi-label. CoRR, abs/1406.5726, 2014. Zeiler, M. D. and Fergus, R. Visualizing and understanding convolutional networks. CoRR, abs/1311.2901, 2013. Published in Proc. ECCV, 2014.

在本文的主体部分，我们考虑了ILSVRC挑战的分类任务，并对不同深度的ConvNet体系结构进行了深入的评价。在这一节中，我们将转到挑战的本地化任务，我们在2014年以25.3%的错误获胜。它可以看作是对象检测的一种特例，在这种情况下，应该为前5个类中的每个类预测一个对象边界框，而不管类的实际对象数如何。为此，我们采用了sermanet al.的方法。(2014年)，ILSVRC-2013年本地化挑战的获胜者，仅作了一些修改。我们的方法在第一节中作了描述。A.1并在第三节中进行了评价。A.2.

A.1本地化ConvNet用于执行对象定位，我们使用非常深的ConvNet，其中最后一个完全连接的层预测边界框位置，而不是类分数。bounding box由一个四维矢量表示，它存储中心坐标、宽度和高度.可以选择是在所有类之间共享边界框预测(单级回归、SCR(sermanet al.，2014)还是特定于类(每类回归，PCR)。在前一种情况下，最后一层是4-d，而后者是4000-d(因为数据集中有1000个类)。除了最后的包围盒预测层，我们使用ConvNet体系结构d(表1)，它包含16个权重层，在分类任务(Sectect)中表现最好。4)

训练。局部化卷积网的训练与分类卷积网的训练相似。3.1)。其主要区别在于用欧氏损失代替Logistic回归目标，从而惩罚了预测的包围盒参数与地面真实值的偏差。我们培训了两个本地化模型，每一个都是单一的：s=256和s=384(由于时间限制，我们没有在ILSVRC-2014提交中使用训练尺度抖动)。训练由相应的分类模型初始化(在相同的尺度上训练)，初始学习率设置为10−3。我们探索了微调所有层和只微调前两个完全连接的层，如在(sermanet al.，2014)中所做的。最后一个完全连接的层被随机初始化并从头开始训练。

测试。我们考虑两个测试协议。第一种方法用于比较验证集上不同的网络修改，并且只考虑地面真相类的bounding box预测(以剔除分类错误)。仅将网络应用于图像的中央裁剪，即可获得bounding box。第二个完整的测试过程是基于密集的本地化ConvNet应用于整个图像，类似于分类任务。3.2)。区别在于，最后一个完全连接的层的输出不是类得分图，而是一组边界框预测。为了得到最终的预测，我们利用了sermanet al的贪婪合并过程。(2014)，它首先将空间闭合预测合并(通过平均其坐标)，然后根据从分类ConvNet获得的班级分数对它们进行评级。当使用几个本地化卷积网时，我们首先获取它们的包围盒预测集的联合，然后在联合上运行合并过程。我们没有使用sermanet等人的多重池偏移技术。(2014)，它提高了包围盒预测的空间分辨率，并能进一步改进结果。

用于大规模图像识别的深度卷积网络

摘要