论文阅读(一)AlexNet(ImageNet Classification with Deep Convolutional Neural Networks)笔记

在ILSVRC-2010和ILSVRC-2012比赛上所使用的ImageNet子集上，训练了到目前为止最大的神经网络之一，并取得了迄今为止在这些数据集报道过的最好的结果；
编写了高度优化的2D卷积GPU实现，以及训练卷积神经网络的其他内部操作，并且公开了。
即便使用了120万个标注的训练样本，我们的网络规模仍然使过拟合成为了一个明显的问题，所以使用一些有效的技术来防止过拟合。
最终的网络包含5个卷积层和３个全连接层，深度似乎很重要：发现移除任何卷积层（每一个卷积层包含的参数不超过模型的1%）都会导致更差的性能。

网络优点

包含了许多新的不寻常的特性，这些特性

能够提高神经网络的性能
能够减少训练时间

网络尺寸受限于

目前GPU的内存容量
我们能够容忍的训练时间

如何提高实验结果

等待更快的GPU和可用数据集

2 数据集

ILSVRC使用ImageNet的一个子集，1000个类别每个类别大约1000张图像。总计，大约120万张训练图像，5万张验证图像。

top-5错误率

在ImageNet上，按照惯例报告两个错误率：top-1和top-5错误率。
top-5错误率是指：测试图像的正确标签不在模型认为的五个最可能的标签之中的概率。

图像处理

ImageNet包含各种分辨率的图像，而我们的系统要求不变的输入维度。因此，我们将图像进行下采样到固定的256*256分辨率。给定一个矩形图像，进行如下操作：

首先缩放图像短边长度为256；
然后从结果图像中裁剪中心的256*256大小的图像块。

除了在训练集上对每一个像素减去平均活跃度外，不对图像做任何其他的预处理。所以我们在(中心的)原始的RGB像素值上训练网络。

3 架构

网络包含八个学习层－－5个卷积层和3个全连接层。下面将描述网络结构中一些新奇的不寻常的特性，以下介绍按重要性排序，最重要的最优先。

3.1 线性修正单元(ReLU)非线性

主要的关注点是：拟合数据集时梯度下降的训练时间

非饱和非线性函数ReLU训练时间比传统的饱和非线性神经元tanh(x)要快几倍
ReLU可以在很大的网络上进行训练，tanh不能
更快的学习对大型数据集上的大型模型的性能有很大影响

3.2 多GPU训练

为什么用双GPU?

单个GTX 580 GPU的3GB内存限制了能在GPU上训练的网络的最大尺寸；
120万个训练样本足以来训练网络，但网络太大不能在单个GPU上进行训练；
现在的GPU非常适合跨GPU并行，因为GPU之间可以直接互相读写内存，而不需要通过主机内存。

本文的双GPU方案

基本上在每个GPU上放置一半的核(或神经元)；
只在某些特定的层上进行GPU通信；

论文阅读(一)AlexNet(ImageNet Classification with Deep Convolutional Neural Networks)笔记

文章目录

摘要

工作内容

实验结果

神经网络架构

创新内容

其他工作

1 引言

如何提高目标识别的性能

小数据集

小图像数据集的缺点

新的大型数据集

目标识别任务的巨大复杂性引起的问题

卷积神经网络(CNNs)

CNNs优点

本文的具体贡献