Very Deep Convolutional Networks for Large-Scale Image Recognition

仅供参考，个人水平有限，如有不足谢谢指正。
原文地址：Very Deep Convolutional Networks for Large-Scale Image Recognition

摘要

在这项工作中，我们研究了卷积网络的深度对大规模图像识别任务精度的影响。我们的主要贡献是使用非常小（3×3）卷积滤波器架构来对加深的网络进行全面评估，这也表明通过将卷积层加深到16-19层可以让结果得到显著的提高。这些发现是基于我们在2014年ImageNet挑战赛中所提交结果的基础之上的，我们的团队分别获得了定位赛和分类赛的第一名和第二名。我们还发现，我们的网络可以很好地适用于其他数据集，并可以取得最先进的(state-of-the-art)结果。我们已经公开了两个性能最佳的ConvNet模型，以便进一步研究在计算机视觉中的深度视觉表示。

1、引言

卷积神经网络（ConvNets）最近在大规模图像和视频识别领域取得了巨大成功(Krizhevsky et al., 2012; Zeiler & Fergus, 2013; Sermanet et al., 2014; Simonyan & Zisserman, 2014)，很大的功劳来自于大规模图像数据集如ImageNet(Deng et al., 2009)，以及高性能计算系统（如GPU或者大规模分布式集群）。特别是，ImageNet打过视觉识别挑战赛（ILSVRC）(Russakovsky et al., 2014)在深度视觉识别框架的发展中发挥了重要的作用，它已经成为了几代大规模图像分类系统的试验台，从高维度浅层特征编码(Perronnin et al., 2010) (the winner of ILSVRC-2011)到深度卷积神经网络(Krizhevsky et al., 2012) (the winner of ILSVRC-2012)。

随着ConvNets在计算机视觉领域变得越来越常见，许多人尝试着去改进Krizhevsky et al.(2012)提出的原始网络框架，以取得更好的准确率。例如，ILSVRC-2013 (Zeiler & Fergus, 2013; Sermanet et al., 2014)的最佳结果使用了更小的接收窗口以及在第一层的更小的步长。另一种改进方案是在整个图像和多尺度的图像上作训练和测试(Sermanet et al., 2014; Howard, 2014)。在本文中，我们处理的是ConvNet架构设计中的另一个重要因素——网络深度。为此，我们修改了框架的其他参数，并通过添加更多的卷积层来稳定地增加网络的深度，由于在所有的层里面都使用了较小的卷积核（3×3），所以这也是可行的。

因此，我们提出了更精确的ConvNet架构，它不仅实现了ILSVRC分类和定位任务的最优结果，而且还适用于其他的图像识别数据集，甚至在用作相对简单的流水线时（比如，使用一个不需要微调的线性SVM进行分类的深度特征）可以实现卓越的性能。我们已经开源了两个性能最好的模型，以便于进一步研究。

本文的剩余部分安排如下。在第二节，我们会描述我们的卷积神经网络框架结构。图像分类的训练和评估细节会在第三节中介绍。在第四节中会将在ILSVRC分类任务的实验结果进行比较。

2、卷积神经网络（简称为ConvNets）配置

为了度量在近似条件下卷积神经网络深度增加带来的改进，我们所有的卷积层配置都采用了同样的准则（受Ciresan et al. (2011) ; Krizhevsky et al. (2012) 启发）。在这一节中，我们首先会描述卷积神经网络配置的一般布局（2.1节），然后会详细介绍评估时采用的特定配置（2.2节）。再接着讨论我们的设计选择，并将其与第2.3节中的现有算法进行比较。

2.1、架构

在训练过程中，我们的ConvNets的输入是固定尺寸的224*224的RGB图像。我们所做的唯一预处理操作是从每个像素中减去训练集中所有图像的RGB均值。图像经过了一层层的接受视野非常小且卷积核大小为3*3的卷积层（这是捕获左/右、上/下、中心信息的最小尺寸）。在其中一种配置中，我们也使用了1*1的卷积核，也可以看做是对输入通道的一个线性变换（随后是非线性变换）。卷积步长（stride）被固定为1个像素；对卷积层输入的空间填充（padding）会在卷积操作后仍然保留之前的空间分辨率，比如：对于卷积核为3*3的卷积层padding为1个像素。空间池化（pooling）是由5个最大池化层完成，通常会放在一些卷积层之后（不是所有的卷积层之后都会接上最大池化层）。最大池化（Max-pooling）是在一个2*2的像素窗口中执行，步长为2。

一堆卷积层（在不同的架构中有不同的深度）之后是三个全连接层（FC）：前两个各有4096个通道，第三个会进行1000种ILSVRC分类，因此有1000个通道（每个对应一个类）。最后一层是soft-max层。全连接层的配置在所有网络中都是相同的。

所有的隐含层都配套放置了一个非线性校正单元（ReLU (Krizhevsky et al., 2012)）。我们注意到我们的网络（除了一个之外）都没有包含局部响应归一化（LRN）(Krizhevsky et al., 2012)。在第四节中会说明，这种归一化并不会提高网络在ILSRVC数据集上的性能，却会导致内存的消耗以及计算时间的增加。在适用的情况下，LRN层的参数都是(Krizhevsky et al., 2012)的参数。

2.2、配置

本文中评估的卷积神经网络（ConvNet）的配置在表1中列出了，每列一个。下面我们将用他们的名2.字（A-E）来代指网络。所有的配置都遵循2.1节中所提到的方法设计，仅仅在网络的深度上有所不同：从网络A的11个权重层（8个卷积层和3个全连接层）到网络E的19个权重层（16个卷积层和3个全连接层）。卷积层的宽度（通道数）相对较小，从第一层的64开始，随后在每个最大池化层（max-pooling）后都会增加2倍，知道最后达到512。

在表2中，我们报告了没种配置的参数数量。尽管深度很大，我们的网络的权重参数数量并不多于网络更浅卷积层和感受视野更大的网络(144M weights in (Sermanet et al., 2014))的参数。

2.3、讨论

我们的ConvNet配置与ILSVRC-2012 (Krizhevsky et al., 2012)和ILSVRC-2013比赛(Zeiler & Fergus, 2013; Sermanet et al., 2014)的最佳参赛作品中所使用的配置截然不同。我们在整个网络中使用了非常小的3*3感受野，并会对输入的每个像素都做卷积操作（步长stride为1），而不是在第一个卷积层中使用相对更大的感受野（比如，在(Krizhevsky et al., 2012)中采用11*11的卷积核，步长为4；在(Zeiler & Fergus, 2013; Sermanet et al., 2014)中采用7*7的卷积核，步长为2）。很容易看出堆叠两个3*3的卷积层（之间没有空间池化）的有效感受野为5*5；三个这种层堆叠在一起的有效感受野为7*7.那么，我们通过将三个3*3的而不是7*7的卷积层堆在一起能得到什么？首先，我们合并了三个非线性校正层而不是单独一个，这样可以使得决策函数更有区别性。其次，我们减少了参数的数量：假设一个三层3*3卷积层组成的卷积块的输入和输出都有C个通道，那么这个块有3(3^2 C^2 )=27C^2个权重参数；同时，一个单独的7*7卷积层，有7^2 C^2=49C^2个参数，多出了81%的参数。这一步可以看做对7*7卷积核实行正则化，强迫他们通过3*3的滤波器进行分解（且在各层之间还额外加入了非线性）。

png
png

1*1卷积层的加入（表1中的网络C）是增加决策函数的非线性程度并且不影响卷积层的感受野的一种不错的方法。尽管在我们这个情况下，1*1卷积本质上是对相同维度空间的一个线性映射（输入和输出的通道数相同），但是非线性校正函数又引入了额外的非线性。应该注意的是，1*1卷积最近被用于Lin (2014) 等人提出的“网络的网络”架构中。

Ciresan等人 (2011)曾使用了较小的卷积核，但是他们的网络明显不如我们的深，并且他们没有在大规模ILSVRC数据集行作评估。Goodfellow (2014)等人将深度卷积神经网络（11层）用于街道号识别任务，其结果表明增加网络深度有助于提高性能。GoogLeNet (Szegedy et al., 2014)，是ILSVRC-2014分类任务中表现最好的一个入门框架，它的开发与我们的工作无关，但是有一点很类似：他们的网络也有很深的卷积神经网络（22层）和较小的卷积核（除了3*3卷积核之外，他们还是用了1*1和5*5卷积核）。他们的网络拓扑结构比我们的要复杂得多，并且特征谱（feature map）的空间分别率在第一层就减少了很多，以减少总体的计算开销。如4.5节中的结果表明，我们的模型在但网络分类准确性上超过了Szegedy等人(2014)的结果。

3、分类结构

在之前的章节中，我们介绍了所提出的网络的配置细节。在本节中，我们将介绍ConvNet的训练和评估细节。

3.1、训练

ConvNet的训练过程基本上参考自Krizhevsky et al. (2012)（除了从多尺度的训练图像中抽取样本作为输入，后面会详细介绍）。也就是说，训练是通过使用带动量的小批量梯度下降法（基于反向传播算法(LeCun et al., 1989)）来优化多项式逻辑回归目标。匹配大小设置为256，动量设置为0.9。训练时，通过权重衰减（ $L_2$ 惩罚乘数设置为 $5*10^{-4}$ ）和给前两个全连接层添加dropout（dropout丢失率设置为0.5）来实现正则化。学习率最初设置为 $10^{-2}$ ，随后如果验证集的准确率停止提升就减少10倍。总体来说，学习率减少了3次，并且训练会在370k次迭代之后（74个epoch）停止。我们猜想，尽管与(Krizhevsky et al., 2012)相比，我们的网络的参数量更多也更深，但是我们的网络达到收敛所需的迭代次数更少，因为(a)由跟深和更小的卷积层会带来隐式的正则化；(b)某些特定层的与初始化。
网络权重的初始化很重要，因为如果初始化的参数不好，由于深度网络中的梯度稳定性下降，可能会导致训练停滞。为了避免这个问题，我们首先从训练配置A（如表1所示）开始，这个网络配置足够浅，可以随机初始化参数进行训练。然后，当训练更深的网络结构时，我们使用网络A的参数来初始化前4个卷积层和最后三个全连接层（多出的中间层随机初始化）。我们没有减少预初始化层的学习率，允许他们在训练过程中改变。对于随机初始化（如适用），我们从具有0均值和 $10^{-2}$ 方差的正太分布中随机采样权重。偏差初始化为0。值得注意的是，在提交论文后，我们发现可以通过使用Glorot & Bengio (2010)的随机初始化方法在没有预训练的情况下初始化权重。

为了获得固定尺寸的224*224的输入图像，他们从重新缩放的训练图像中随机裁剪得到（每次SGD迭代每个图像进行一次裁剪）。为了进一步增强训练集，裁剪时，还引入了随机水平翻转与随机的RGB颜色偏移(Krizhevsky et al., 2012)。下面将介绍训练图像的缩放。

训练图像尺寸。设S是各向同性重新调整的训练图像的最小一侧，从中ConvNet的输入图像会被裁剪（我们也称S为训练尺度）。虽然裁剪尺寸被固定为224*224，但原则上S可以取任何不小于224的值：对于S=224，裁剪时会获取整幅图像作为统计数据，完全跨越训练图像的最小侧；对于S≥224，裁剪后将对应与图像的一小部分，包含一个小物体或物体的一部分。

我们考虑了两种设置训练尺度S的方法。第一个是固定S，其对应于单一尺度训练（注意，从样本裁剪区域的图像内容仍然可以表示多尺度图像数据）。在我们的实验中，我们评估了两个固定尺度的模型：S=256（已被广泛用于现有技术中(Krizhevsky et al., 2012; Zeiler & Fergus, 2013; Sermanet et al., 2014))）和S=384。给定一个ConvNe的配置，我们首先使用S=256来进行训练。为了加速S=384时的网络的训练速度，它的参数使用S=256预训练得到的参数来进行初始化，并且我们也采用较小的初始学习率 $10^{-3}$ 。

设置S的第二种方法就是多尺度训练，其中每个训练图像都是通过从一个特定范围 $[S_min,S_max]$ （我们令 $S_min=256$ ， $S_max=512$ ）随机采样S来单独调整。由于图像中的物体可能具有不同的大小，因此在训练时把这一点也考虑进去是有好处的。这也可以看做是缩放比例波动来增强训练集，这样单个模型就可以被训练为可以识别多个尺寸下的物体。出于考虑到速度的原因，我们通过对具有相同配置的单尺度模型的所有层进行微调来训练多尺度模型，并使用固定的S=384作预训练。

3.2、测试

在测试的时候，给定一个训练好的ConvNet和一个输入图像，它会以以下方式进行分类。首先，将其各向同性地重新缩放为预定义的最小图像尺寸，表示为Q（我们也将其称为测试尺度）。我们可以注意到，Q不一定等于训练尺寸S（如我们在第四节所示，对每个S使用几个不同的Q值可以提升性能）。然后，使用类似于(Sermanet et al., 2014)的方法，将重新缩放的测试图像密集地送入网络。也就是说，全连接层首先被转换为卷积层（第一个全连接层转为7*7的卷积层，后面两个转换为1*1卷积层）。然后将所得的全卷积网络应用于整个未裁剪的图像。其结果是一个类别评分谱，其通道数等于类别数，并且一个可变的空间分辨率取决于输入输入图像的大小。最后，为了获得图像的类别评分的固定大小的矢量，类别评分谱要是空间上平均的（sum-pooled）。我们还通过水平翻转图像来增加测试集；对原始和翻转的图像的soft-max输出进行平均以得到图像的最终分数。

由于全连接网络被应用于整个图像，因此不需要再测试时对其进行多次裁剪采样(Krizhevsky et al., 2012)，如果在每次分割都需要网络重新计算这无疑是很低效的。与此同时，使用大量的裁剪图像数据集，如Szegedy等人(2014)所做，可以提升准确率，因为与全卷积网络相比它可以更精细地对图像进行采样。此外，由于卷积的边界条件不同，多尺度切割评估与密集评估是互补的：当应用ConvNet于切割图像时，卷积特征谱使用0来填充，然而在密集评估的情况下，同一个切割图像的填充（padding）自然会出现很多来自图像相邻区域的部分（由于卷积和空间池化），这也大大增加了整个网络的感受野，因此可以捕获到更多的图像信息。尽管我们认为在实际应用中这种会增加计算时间的多尺度图像切割操作不见得能带来准确率的提升，但我们也对每个尺度做了50次图像切割（5*5的常规栅格和2种翻转）来评估我们的网络，总共在3个不同尺度下做了150次图像切割，这与Szegedy等人(2014)的4个不同尺度下的144次图像切割相当。

3.3、实现细节

我们的实现是基于开源的C++ Caffe工具箱(Jia, 2013)（2013年12月推出），但是包含有很多重要的改动，允许我们使用安装在单个系统的多块GPU对多尺度下的全尺寸图像（未分割）进行训练和评估（如上所述）。多GPU训练利用数据并行性，并且通过将每批训练图像分成几个GPU批次并在各个GPU上并行处理。在GPU计算完批梯度之后，对他们求平均来获得整个批次的梯度。梯度计算在GPU中是同步的，因此结果与在单个GPU上进行训练时完全相同。

尽管最近又有人提出了更加复杂的加速ConvNet的训练的方法(Krizhevsky, 2014)，它们针对网络的不用层采用并行的模型与数据，但是我们发现我们的概念更简单的方案（在有4块的GPU系统上），相比于使用单个GPU已经有了3.75倍的加速。在配备了四个NVIDIA Titan Black GPU的系统上，根据架构的不同，训练单个网络需要花费2-3周。

4、分类实验

数据集。在这节中，我们将会给出前面所描述的ConvNet架构的在ILSVRC-2012数据集上的图像分类结果（用于ILSVRC 2012-2014挑战赛）。该数据集包含了1000个类别的图像，并且被分为三组：训练集（1.3M张图像）、验证集（50K张图像）和测试集（不带类标签的100K张图像）。我们使用两种方法来评估分类性能：top-1误差和top-5误差。前者是多分类误差，即错误分类图像的比例；后者是ILSVRC中使用的主要评估标准，并且按照图像的比例计算，以使gound-truth类别超出top-5预测的类别。

对于大多数汇演，我们将验证集作为测试集。当然也在测试集上进行了一些实验，并将其作为ILSVRC-2014竞赛(Russakovsky et al., 2014)的一个“VGG”参赛队伍的作品提交给了ILSVRC官方服务器。

4.1、单尺度评估

我们首先使用2.2节中所描述的网络架构在单一尺度上对独立的ConvNet模型进行评估。测试图像的尺寸如下：对于固定的S，Q=S；对于 $Sϵ[S_{min},S_{max}]$ ， $Q=0.5(S_{min}+S_{max})$ 。结果在表3中给出。

首先，我们注意到使用局部响应归一化（A-LRN网络）相比于不带归一化层的模型A没有带来性能上的提升。因此我们没有在更深的架构（B-E）中采用归一化。

第二，我们观察到，随着ConvNet深度的增加分类误差也在减小：从模型A的11层到模型E的19层。很明显，尽管模型C（包含了3个1*1卷积层）有跟模型D相同的深度，模型C的性能不如模型D（在整个网络中都是用3*3卷积层）。这也说明，尽管额外的非线性层可以起到作用（模型C比模型B好），使用卷积滤波器来捕获有用的感受野也是很重要的（模型D比模型C好）。当网络的深度达到了19层，网络的错误率开始饱和，但是可能使用更深的模型也许更适合更大的数据集。我们还较浅的网络B与5个5*5卷积层的网络（由模型B衍生而来，将其中的一对3*3卷积层替换为了单独的5*5卷积层，这样可以保证有如2.3节中所述的相同的感受野）。浅层网络的top-1误差测出来，比B网络的高出了7%，这也说明一个更深滤波器更小的网络比一个浅层滤波器较大的网络更好。

最后，在训练时尺度波动（ $Sϵ[256;512]$ ），相比于使用固定尺度时（ $S=256$ 或者 $S=512$ ）可以带来相当显著的性功能提升，尽管在测试时仅仅使用单一尺度进行评估。这也证实通过尺度波动进行图像分割的确对获取多尺度图像数据很有用。

png

4.2、多尺度评估

前面已经在单尺度下对ConvNet模型进行了评估，我们现在对测试时的尺度波动的影响作评估。先将几个不同的尺寸缩放的测试图像送入模型（对应于不同的Q值），随后再多输出的类别结果进行平均。考虑到训练和测试的尺度差距过大会导致准确率的下降，使用固定的尺度S进行训练的模型，在评估时使用较接近训练时图像尺寸的三个尺寸的测试图像进行测试： $Q=\{S-32,S,S+32\}$ 。与此同时，训练时的尺度波动也让网络能在测试时应用于更宽范围的尺度，因此在训练模型时 $Sϵ[S_{min},S_{max}]$ ，评估时使用更大范围的尺寸 $Q=\{S_{min},0.5(S_{min}+S_{max} ),S_{max}\}$ 。

实验结果如表4所示，说明在测试时的尺度波动可以带来更好的效果（相比于表3中的使用单一尺度评估相同模型的结果）。跟前面一样，最深的网络（网络D和网络E）表现最出色，并且使用尺度波动也比使用一个固定的尺度S效果更好。我们的最好的单网络表现在验证集上达到了24.8%/7.5%的top-1/top-5错误率（在表4中加粗表示）。在测试集上，网络E实现了7.3%的top-5错误率。

png

4.3、多重裁剪评估

在表5中，我们密集卷积神经网络和多重裁剪评估进行了比较（详细见3.2节）。我们还通过对他们的soft-max输出做平均评估了两种评估技术的互补性。可以看出来，使用多重裁剪比密集平复稍微好一点，并且两种方法实际上是互补的，因为他们两者结合后比他们自身的结果要好。根据以上结果，我们猜想这可能是卷积边界条件的不同处理方法造成的。

png

4.4、卷积神经网络融合

至此，我们已经评估了独立ConvNet模型的结果。在实验的这一部分中，我们通过求取其soft-max输出的均值来结合几个不同模型的输出。由于模型之间的互补性，这能进一步提升模型的性能，这也分别在2012年(Krizhevsky et al., 2012)和2013年(Zeiler & Fergus, 2013; Sermanet et al., 2014)被用于ILSVRC的最好结果之中。

结果在表6中。在提交ILSVRC参赛模型时，我们只是训练了单尺度网络，还有一个多尺度模型D（只对全连接层进行微调而不是所有层）。7个网络的组合结果在ILSVRC上最终达到了7.3%的测试错误率。在提交模型之后，我们又考虑了仅使用两个表现最好的多尺度模型（网络D和网络E），使用密集评估时将测试错误率降低到了7.0%，而使用密集和多重裁剪评估融合时测试错误率降到了6.8%。作为参考，我们的性能最好的单网络模型错误率为7.1%（模型E，见表5）。

png

4.5、与最好的现有技术比较

最后，我们还会将我们的结果与当前最好的技术相比较，见表7。在ILSVRC-2014挑战赛(Russakovsky et al., 2014)的分类任务中，我们“VGG”队融合7个模型的结果得到7.3%的测试错误率取得了第2名的成绩。在提交之后，我们又使用两个模型融合的结果将错误率降低到6.8%。

从表7中可以看出，我们的很深的ConvNet明显超过了此前的其他模型，它们分别在ILSVRC-2012和ILSVRC-2013比赛中取得了最佳结果。我们的结果与分类任务的冠军(GoogLeNet，错误率为6.7%)相比还是很有竞争性的，并且大体上都消耗过了ILVRC-2013的优胜团队提交的模型Clarifai，在使用了外部数据的情况下达到了11.2%，没有使用外部数据的情况下达到了11.7%。值得注意的是，我们的最佳结果是通过融合两个模型实现的，很明显比大多数在ILSVRC提交的模型少得多。在单网络性能上，我们的架构实现了最好的结果（7.0%的测试错误率），超过了单独的GoogLeNet模型0.9%。还要注意到，我们没有偏离ConvNet的经典结构（LeCun et al. (1989)），而是大大增加了网络的深度。

png

5、结论

在这项工作中，我们评估了用于大规模图像分类的非常深的卷积神经网络（多达19层）。已经证明，增加网络深度有助于提高分类的准确率，并且我们可以大幅增加传统ConvNet架构(LeCun et al., 1989; Krizhevsky et al., 2012)的深度来在ImageNet数据集上实现最先进的结果。在附录中，我们还展示了我们的模型可以很好地适用于广泛的任务和数据集，匹配或超过了构建在较深图像表示上的更复杂的图形识别流水线。我们的结果又一次证明了网络深度在视觉表达中的重要性。

VGGNet论文（Very Deep Convolutional Networks for Large-Scale Image Recognition）（译）