【深度学习】cs231n 计算机视觉（2）

计算机视觉（斯坦福2017课程）

饱和神经元将使梯度消失
如果输入的值过大或者过小，就会使得dw为0，使得梯度消失
sigmoid函数的输出是一个非零中心的函数：意味着反向传播时，如果输入值全部为正数或者负数，那么dw就会是x，就会一直保持正数或者负数，在我们更新参数时就会出现如下问题，本来沿着蓝色线的方向可以求解到最优的参数，可是所有梯度方向都是同方向，就无法直接沿着蓝线方向，出现过多折线问题（如红线所示）。
指数运算的代价稍微有点高

归一化数据问题：
在这里插入图片描述
一般来说，对于图片，就是做零均值化的预处理；

初始想法：
权重是小的随机数

在小型网络结构适用，但是对于较深的网络结构不适用；
权重改成很大的随机数也不可以，因为好几种激活函数在数值很大的时候都会趋于1，趋于平稳，整个网络会饱和（saturated）。
针对ReLU时，采用如下初始权重计算方法：
针对tanh时，采用如下初始权重计算方法：

因为了解到归一化在神经网络中非常重要，因此提出了BN层，在神经网络中加入额外的一层以使得中间的激活值均值为0，方差为1。

在深度学习中，因为网络的层数非常多，如果数据分布在某一层开始有明显的偏移，随着网络的加深这一问题会加剧(这在BN的文章中被称之为internal covariate shift)，进而导致模型优化的难度增加，甚至不能优化。所以，归一化就是要减缓这个问题。

BN的作用在于强制把数据转换为单位高思数据。

在这里插入图片描述
也可以把这个过程看作是正则化的一部分；
这并不会改变原有的主体的神经网络结构，因为主要是在对数据进行一些处理，并不是改变网络结构的过程；

如何监视整个训练过程（在过程中调整以上的各种超参数）：

交叉验证：
假如有1000张图片，我们将训练集平均分成5份，其中4份用来训练，1份用来验证。然后我们循环着取其中4份来训练，其中1份来验证，最后取所有5次验证结果的平均值作为算法验证结果；
不能将测试集用于调整超参数

当你完成超参数优化的过程中，一开始可能会处理很大的搜索范围，几次迭代之后，就可以缩小范围，圈定合适的超参数所在的区域，然后在对这个小范围，重复这个过程。学习率一般会被率先确定。

对损失函数画图来观察判断学习率的好坏：
在这里插入图片描述

在损失函数后加上一项正则化部分：
Dropout：
（1）神经网络正则化的常用办法就是dropout，dropout就是在前向传播中，随机的将一些神经元置零，随机被置成0的神经元都不是完全相同的，左边是全连接网络，右边是经过dropout的；
（2）就是将部分激活函数中的值置为零，等到这些数值作为下一个神经元的输入函数时，当中有一部分是0；
（3）一般使用dropout在全连接层，但是有时也会出现在卷积层，出现在卷积层时，是随机的将整个特征映射置零（将一个或几个通道完全置零）；

在训练中加入dropout为了使它不过拟合，而在测试过程中，需要考虑准确性，随机置零可能会出现判断问题，因此使用了p，来解决。
数据增强（data augmentation）
在训练过程中，以某种方式随机的转换、裁剪、色彩抖动原图像，使得标签不变，然后用这些随机转换的图像进行训练。这种方式对网络有正则化效果，因为在训练的过程中，又增加了某种随机性，然后在测试的时候将它们淡化。
BN层批量归一化（batch normalization）
前面已经介绍过，此处不赘述。
随机最大池化操作（Fractional Max Pooling）