CNN-2: AlexNet 卷积神经网络模型

1、AlexNet 模型简介

由于受到计算机性能的影响，虽然LeNet在图像分类中取得了较好的成绩，但是并没有引起很多的关注。知道2012年，Alex等人提出的AlexNet网络在ImageNet大赛上以远超第二名的成绩夺冠，卷积神经网络乃至深度学习重新引起了广泛的关注。

2、AlexNet 模型特点

AlexNet是在LeNet的基础上加深了网络的结构，学习更丰富更高维的图像特征。AlexNet的特点：
1）更深的网络结构
2）使用层叠的卷积层，即卷积层+卷积层+池化层来提取图像的特征
3）使用Dropout抑制过拟合
4）使用数据增强Data Augmentation抑制过拟合
5）使用Relu替换之前的sigmoid的作为激活函数
6）多GPU训练

ReLu作为激活函数

在最初的感知机模型中，输入和输出的关系如下：

${y = \sum\limits_i {{w_i}{x_i}} + b}$

只是单纯的线性关系，这样的网络结构有很大的局限性：即使用很多这样结构的网络层叠加，其输出和输入仍然是线性关系，无法处理有非线性关系的输入输出。因此，对每个神经元的输出做个非线性的转换也就是，将上面就加权求和${\sum\nolimits_i {{w_i}{x_i}} + b}$ $\sum_{i} w_{i} x_{i} + b$

在最初，sigmoid和tanh函数最常用的激活函数。

1） sigmoid

${\sigma \left( x \right) = \frac{1}{{1 + {e^{ - x}}}}}$

在网络层数较少时，sigmoid函数的特性能够很好的满足激活函数的作用：它把一个实数压缩至0到1之间，当输入的数字非常大的时候，结果会接近1；当输入非常大的负数时，则会得到接近0的结果。这种特性，能够很好的模拟神经元在受刺激后，是否被激活向后传递信息（输出为0，几乎不被激活；输出为1，完全被激活）。

sigmoid一个很大的问题就是梯度饱和。观察sigmoid函数的曲线，当输入的数字较大（或较小）时，其函数值趋于不变，其导数变的非常的小。这样，在层数很多的的网络结构中，进行反向传播时，由于很多个很小的sigmoid导数累成，导致其结果趋于0，权值更新较慢。

2） ReLu

${ReLU\left( x \right) = max\left( {0\user1{,}x} \right)}$

针对sigmoid梯度饱和导致训练收敛慢的问题，在AlexNet中引入了ReLU。ReLU是一个分段线性函数，小于等于0则输出为0；大于0的则恒等输出。相比于sigmoid，ReLU有以下有点：
1）计算开销下。sigmoid的正向传播有指数运算，倒数运算，而ReLu是线性输出；反向传播中，sigmoid有指数运算，而ReLU有输出的部分，导数始终为1.
2）梯度饱和问题
3）稀疏性。Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

这里有个问题，前面提到，激活函数要用非线性的，是为了使网络结构有更强的表达的能力。那这里使用ReLU本质上却是个线性的分段函数，是怎么进行非线性变换的。这里把神经网络看着一个巨大的变换矩阵M，其输入为所有训练样本组成的矩阵A，输出为矩阵B。

${B = M \cdot A}$

这里的M是一个线性变换的话，则所有的训练样本A进行了线性变换输出为B。那么对于ReLU来说，由于其是分段的，0的部分可以看着神经元没有激活，不同的神经元激活或者不激活，其神经玩过组成的变换矩阵是不一样的。也就是说，每个训练样本使用的线性变换矩阵是不一样的，在整个训练样本空间来说，其经历的是非线性变换。

简单来说，不同训练样本中的同样的特征，在经过神经网络学习时，流经的神经元是不一样的（激活函数值为0的神经元不会被激活）。这样，最终的输出实际上是输入样本的非线性变换。单个训练样本是线性变换，但是每个训练样本的线性变换是不一样的，这样整个训练样本集来说，就是非线性的变换。

数据增强

神经网络由于训练的参数多，表能能力强，所以需要比较多的数据量，不然很容易过拟合。当训练数据有限时，可以通过一些变换从已有的训练数据集中生成一些新的数据，以快速地扩充训练数据。对于图像数据集来说，可以对图像进行一些形变操作：
1) 翻转
2) 随机裁剪
3)平移，颜色光照的变换
...

AlexNet中对数据做了以下操作：
1)随机裁剪，对256×256的图片进行随机裁剪到227×227，然后进行水平翻转。
2)测试的时候，对左上、右上、左下、右下、中间分别做了5次裁剪，然后翻转，共10个裁剪，之后对结果求平均。
3)对RGB空间做PCA（主成分分析），然后对主成分做一个（0, 0.1）的高斯扰动，也就是对颜色、光照作变换，结果使错误率又下降了1%。

CNN-2: AlexNet 卷积神经网络模型

猜你喜欢