VGG Net--《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》阅读翻译

摘要

此论文主要是为了研究卷积网络的深度对大型图像识别中准确率的影响。我们的主要贡献是通过使用3x3这种小卷积核的结构来增加深度，当把深度增加至16-19层时表现出对现有技术的很大改善。这些发现是我们2014年ImageNet挑战赛提交的基础，我们的团队分别获得了本地化和分类赛的第一名和第二名。我们的成果在其他数据集也表现很好，能达到先进的水平。我们已经公开了两个表现最好的卷积网络模型，以推动在计算机视觉在深度视觉更深层次的研究。

1、引言

卷积网络最近在大型图片和视频识别中取得了很大的成功，这可能得益于大型的开源图片库，例如ImageNet，和高性能计算系统，例如GPU和大规模分布式集成器。尤其，ImageNet大规模视觉识别挑战赛（ILSVRC），对深度视觉识别架构的发展起到了很大的作用，它为几代大型图像识别系统提供了实验平台，从高维浅层特征编码（2011年ILSVRC冠军）到深层卷积网络（2012年ILSVRC冠军）。

随着卷积网络在计算机视觉领域越来越流行，一下试验者尝试对Krizhevsky等人在2012年提出的原始架构进行修改，以达到更高的准确率。例如，在2013年ILSVRC比赛中最好的改进方案是在第一层的卷积层中使用更小的视野窗大小和更小的步长。另一个改进是在整个图像和多尺度上更密集的训练网络。这篇文章我们阐述了卷积网络架构中另一个重要的方面—深度。最后，我们固定了网络结构中的其他参数，通过增加更多的卷积层来稳定的增加了网络的深度，可行性是因为我们在所有的层中都增加了非常小的卷积核（3x3）。

最后，我们提出了非常精确的ConvNet结构，它不仅在 ILSVRC classification 和 localisation tasks中取得了迄今最高的准确率，而且也适用于其他图像识别的数据集上。在这些数据集中本文的方法即使是使用相对简单的框架（例如，由没有经过微调的线性SVM分类的深度特征）的一部分，也表现出了非常优秀的性能。我们公布了两个表现最佳的模型，以供

本文的剩余部分是这样布局的：在第2部分，我们描述了ConvNet的结构。第3部分，展现了图像识别中训练和评估的细节。第4部分，关于ILSVRC分类任务的配置比较。第5部分，总结全文。附录A中描述和评估了我们ILSVRC-2014目标定位系统。附录B讨论了对其他数据集的深层特征的泛化能力。附录C包含了主要论文修订的列表。

2、配置

在本节中，首先描述了本ConvNet配置的一般布局（2.1节），然后详细介绍了评估中使用的具体配置（2.2节），在2.3节中，讨论了此设计选择并将其与最先进的最比较。

2.1 架构

在训练中，ConvNet输入的是固定的224x224大小的RGB图像。唯一的预处理：每个像素值减去训练集上计算的平均RGB值。

在这些配置中，使用非常小的3x3的卷积核。在其中一个配置中，使用的是1x1的卷积核（1x1的卷积核对输入通道进行线性变换，下层是非线性变换）。

（先把论文好好看完，稍后再整理）