改善深层神经网络week2学习笔记

1.Mini-Batch Gradient descent

Mini-batch每次处理训练数据的一部分,即用其子集进行梯度下降,算法速度会执行的更快。

方法分为两个步骤:

  • Shuffle:

洗牌一般同步打乱原来数据集X和对应标签Y中的数据信息,使得数据随机分散到不同的minibatch中

代码中用到了np.random.permutation()方法作为洗牌方法,对于打乱顺序有两种方法。permutation是返回一个新的数组,不对原来数组进行改动,而shuffle不返回值,对原来数组基础上进行打乱顺序操作。

  • Partition:

将对应X,Y划分到各个minibatch中,每个minibatch里数据数量相等,除了最后一个可能略少于其他minibatch。

Mini-batch 大小的选择

  • 在划分时通常采取2的次方项作为minibatch的大小。
  • 如果训练样本的大小比较小时,如 m\leqslant 2000 时 ------ 选择batch梯度下降法;
  • 如果训练样本的大小比较大时,典型的大小为: 2^{6}、2^{7}、\cdots、2^{10} ;
  • Mini-batch的大小要符合CPU/GPU内存。

当minibatch的size选择为1的时候,称为Stochastic Gradient Descent

几个方法效果比较如下:

图中“+”表示损失函数的最小值点

2.指数加权平均

指数加权平均的关键函数:

v_{t} = \beta v_{t-1}+(1-\beta)\theta_{t}

实际温度为蓝色点

=0.5,指数加权平均如黄线所示

=0.9,指数加权平均如红线所示

=0.98,指数加权平均如绿线所示

由图可见,值越大(<1),所的曲线更加平滑。解释如下:

例子,当 \beta =0.9 时:

v_{100} = 0.9v_{99}+0.1\theta_{100}\\v_{99} = 0.9v_{98}+0.1\theta_{99}\\v_{98} = 0.9v_{97}+0.1\theta_{98}\\ \ldots

展开,有:

v_{100}=0.1\theta_{100}+0.9(0.1\theta_{99}+0.9(0.1\theta_{98}+0.9v_{97}))\\=0.1\theta_{100}+0.1\times0.9\theta_{99}+0.1\times(0.9)^{2}\theta_{98}+0.1\times(0.9)^{3}\theta_{97}+\cdots

上式中所有 \theta 前面的系数相加起来为1或者接近于1,称之为偏差修正。

总体来说存在, (1-\varepsilon)^{1/\varepsilon}=\dfrac{1}{e} ,在我们的例子中, 1-\varepsilon=\beta=0.9 ,即 0.9^{10}\approx 0.35\approx\dfrac{1}{e} 。相当于大约10天后,系数的峰值(这里是0.1)下降到原来的 \dfrac{1}{e} ,只关注了过去10天的天气。

可以认为关注了前\frac{1}{1-\beta }的天数,因此\beta越大,曲线越平滑。

如果将前\frac{1}{1-\beta }存储起来将占用比较大的存储空间,但是使用指数加权平均就不需要担心这个问题,减少了计算机的资源占用,提升效率。

然而实际运行时曲线的前一小段会偏低,因为初始并没有那么多先前的数据作为储存,导致理想中的绿线运行结果是紫线。

  • 原因:

v_{0}=0\\v_{1}=0.98v_{0}+0.02\theta_{1}=0.02\theta_{1}\\v_{2}=0.98v_{1}+0.02\theta_{2}=0.98\times0.02\theta_{1}+0.02\theta_{2}=0.0196\theta_{1}+0.02\theta_{2}

如果第一天的值为如 40 ,则 v1=40*0.02=0.8(话说这里吴恩达大佬竟然说成了8。。。) ,得到的值要远小于实际值,后面几天的情况也会由于初值引起的影响,均低于实际均值。

解决方法:

在等式右边除以1-\beta ^{t},因为(1-\beta )*(1+\beta +\beta ^{2}+...+\beta ^{t-1})=1-\beta ^{t},所以1-\beta ^{t}等于等式右边加权平均之和,而随着t的增大1-\beta ^{t}逐渐趋于1。这样就解决了前段曲线过低的问题。

3.Momentum

动量梯度下降,思路是:将上一次的梯度考虑进来,以实现更加平滑的梯度更新,至于上一个梯度参与进来的方法就是上文所提到的指数加权平均。

公式如下:

值得注意的是,v初始化为0,所以算法需要一些迭代来建立起速度然后开始更大的步长更新。\beta越大更新将越平滑然而也不能太大,一般选取在0.8~0.999,如果没有什么特殊需求,0.9是默认的选择。可尝试用多个\beta来确定最佳选择。

4. RMSprop

这里定义了S_{dw}=\beta \cdot S_{dw}+(1-\beta )dW^{2}W=W-\alpha \cdot \frac{dW}{\sqrt{S_{dw}}+\varepsilon }

其中\alpha为学习率,\varepsilon为一个很小的值比如10^{-8}来确保分母不为0。图中W作为横轴,b为纵轴,可以看出dW较小而db较大,所以该方法可以加速横轴的更新减少纵轴上的抖动。当然实际应用情况会更高维。

5.adam

adam优化算法是将 Momentum 和 RMSprop 的结合。

方法如下:

6.学习率衰减

在利用 mini-batch 梯度下降法来寻找Cost function的最小值的时候,如果我们设置一个固定的学习速率 \alpha ,则算法在到达最小值点附近后,由于不同batch中存在一定的噪声,使得不会精确收敛,而一直会在一个最小值点较大的范围内波动,如下图中蓝色线所示。

如果采取一个随着迭代次数衰减的学习率,就可以在保证运行速度的情况下在最后在最小值附近的小区域里波动。如图中绿线所示。

7.局部最优问题

在高维度的神经网络中,梯度为0的点并不一定是左图的局部最优点,而是右图的鞍点(灵魂画师。。。)

在高维度的神经网络中,损失函数如果定义在高维度上,不太可能陷入较差的局部最优点。对于下图中的平滑区,可用adam等算法进行加速。

最后根据作业中给出的样例,可以看出adam效果最好。

adam需要相对少的系统资源(尽管比梯度下降和带动量的梯度下降多),而且在超参数设置略有人为调整的情况下(除了学习率\alpha)仍取得不错结果

猜你喜欢

转载自blog.csdn.net/stezio/article/details/81126018
今日推荐