吴恩达改善深层神经网络章节笔记（二）——优化算法）

1. Mini-batch梯度下降 (Mini-batch Gradient Descent)
2. 指数加权平均 (Exponentially Weighted Averages)
3. 动量梯度下降法 (Gradient Descent with Momentum)
4. RMSprop (Root Mean Square Rrop)
- 4.1 算法实现
- 4.2 原理解释
5. Adam优化算法 (Adam Optimization Algorithm)
- 5.1 算法实现
- 5.2 超参数的选择
6. 学习率衰减 (Learning Rate Decay)
- 6.1 概念解释
- 6.2 学习率衰减的方法
7. 局部最优的问题 (The Problem of Local Optima)

视频课程链接：
https://www.bilibili.com/video/BV1FT4y1E74V?
笔记参考链接：
https://blog.csdn.net/weixin_36815313/article/details/105728919

1. Mini-batch梯度下降 (Mini-batch Gradient Descent)

机器学习的应用是一个高度依赖经验的过程，伴随着大量迭代的过程，你需要训练诸多模型，才能找到最合适的那一个，所以优化算法能够帮助你快速训练模型。
但是深度学习没有在大数据领域发挥最大的效果，我们可以利用一个巨大的数据集来训练神经网络，而在巨大的数据集基础上进行训练，训练速度很慢。因此你会发现，使用快速好用的优化算法能够大大提高你和团队的效率。那么，我们首先来谈谈mini-batch梯度下降法。

1.1 什么是mini-batch？

向量化能够有效地对所有 $m$ 个样本进行计算，允许你处理整个训练集，而无需某个明确的公式。所以我们要把所有的训练样本放大一个巨大的矩阵 $X$ 当中去，即 $X=[x^{(1)}x^{(2)}x^{(3)}\cdots x^{(m)}]$ 。输出 $Y$ 也是如此，即 $Y=[y^{(1)}y^{(2)}y^{(3)}\cdots y^{(m)}]$ 。所以 $X$ 的维数是 $n_x,m)$ ， $Y$ 的维数是 $(1, m)$ ，向量化能够让你相对较快地处理所有 $m$ 个样本。
但是如果 $m$ 很大的话，处理速度仍然缓慢。举例来说，如果 $m$ 是500万，在对整个训练集执行梯度下降法时，你需要做的是处理这500万个训练样本，然后才能进行一步梯度下降法。接着你需要再重新处理这500万个训练样本，才能进行下一步梯度下降法。所以如果你在处理完500万个样本的训练集之前，先让梯度下降法处理一部分，你的算法速度会更快。
你可以把训练集分割为小一点的子集训练，这些子集被取名为mini-batch。假设每一个子集中只有1000个样本，把其中的 $x^{(1)}$ 到 $x^{(1000)}$ 取出来，将其称为第一个子训练集，记作 $X^{\{1\}}$ ，然后你再取出接下来1000个样本，即从 $x^{(1001)}$ 到 $x^{(2000)}$ ，记作 $X^{\{2\}}$ ，然后再取1000个样本，以此类推，最后一个mini-batch记作 $X^{\{5000\}}$ 。如果你的训练样本一共有500万个，那么每个mini-batch都有1000个样本，也就是说，你有5000个mini-batch。
在这里插入图片描述

对 $Y$ 也要进行相同处理，相应地拆分 $Y$ 的训练集，从 $y^{(1)}$ 到 $y^{(1000)}$ 为第一个子集，记作 $Y^{\{1\}}$ ，然后从 $y^{(1001)}$ 到 $y^{(2000)}$ 记作 $Y^{\{2\}}$ ，以此类推，直到 $Y^{\{5000\}}$ 。
在这里插入图片描述

mini-batch的数量 $t$ 组成了 $X^{(t)}$ 和 $Y^{(t)}$ ，这就是1000个训练样本，包含相应的输入输出对。如果 $X^{\{1\}}$ 是一个有1000个样本的训练集，或者说是1000个 $x$ 值，所以维数应该是 $n_x,1000)$ ，同理， $X^{\{2\}}$ 的维数应该是 $n_x,1000)$ 。以此类推，所有的子集维数都是 $n_x,1000)$ ，而 $Y^{\{t\}}$ 的维数都是 $(1, 1000)$ 。
mini-batch梯度下降法，指的是每次同时处理的单个的mini-batch，即 $X^{\{t\}}$ 和 $Y^{\{t\}}$ ，而不是同时处理全部的 $X$ 和 $Y$ 训练集。

1.2 Mini-batch梯度下降法的实现流程

假设训练集中500万个样本，划分成5000个mini-batch，即每个mini-batch中包含1000个训练样本。在训练集上运行mini-batch梯度下降法，因为我们有5000个mini-batch，其中各有1000个样本，因此使用for循环for t in range(1,5000)，对5000个mini-batch $X^{\{t\}}$ 和 $Y^{\{t\}}$ 执行一步梯度下降法。
首先，对输入 $X^{\{t\}}$ 执行前向传播(Forward propagation)。因为现在你需要处理一个mini-batch，而不是一个样本集，因此前向传播过程中的输入 $X$ 变成了 $X^{\{t\}}$ ，即 $Z^{[1]}=W^{[1]}X^{\{t\}}+b^{[1]}$ $A^{[1]}=g^{[1]}(Z^{[1]})$ 之所以用大写的 $Z$ ，是因为这是一个向量，以此类推，直到得到最终的预测值 $\hat{y}$ 。 $\hat{y}=A^{[L]}=g^{[L]}(Z^{[L]})$ 注意这里你需要用到一个向量化的执行命令，这个向量化的执行命令，一次性处理1000个而不是500万个样本。
接下来需要计算损失成本函数 $J$ ，因为子集规模是1000，因此 $J^{\{t\}}=\frac1{1000}\sum_{i=1}^lL(\hat{y}^{(i)},y^{(i)})$ 说明一下， $L(\hat{y}^{(i)},y^{(i)})$ 指的是来自于某一项mini-batch $X^{\{t\}}$ 和 $Y^{\{t\}}$ 中的样本。
如果你用到了正则化，也可以添加正则化项，即 $J^{\{t\}}=\frac1{1000}\sum_{i=1}^lL(\hat{y}^{(i)},y^{(i)})+\frac{\lambda}{2*1000}\sum_l||w^{[l]}||^2_F$ 接下来执行反向传播(Back propagation)来计算 $J^{\{t\}}$ 的梯度，这里使用 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 。然后根据 $d W$ 和 $d b$ 更新 $W$ 和 $b$ ，即 $W^{[l]}:=W^{[l]}-\alpha dW^{[l]}$ $b^{[l]}:=b^{[l]}-\alpha db^{[l]}$ 上述过程是使用mini-batch梯度下降法训练样本的一步，也可被称为进行一代(1 epoch)的训练。一代意味着遍历了一次训练集，也就是说，所有训练样本在神经网络中都进行了一次正向传播和一次反向传播。
使用batch梯度下降法，一次遍历训练集只能让你做一个梯度下降，而使用mini-batch梯度下降法，遍历一次训练集能让你做5000个梯度下降。
在这里插入图片描述

1.3 Batch vs. Mini-batch梯度下降法

在这里插入图片描述

使用batch梯度下降法时，每次迭代你都需要遍历整个训练集，并且每次迭代成本函数 $J$ 都会下降。如果成本函数 $J$ 在某次迭代中增加了，那肯定出了问题，也许是你的学习率(Learning rate)太大。
使用mini-batch梯度下降法时，成本函数 $J$ 并不是在整个过程中每次迭代都是下降的，特别是在每次迭代中，你需要处理的是 $X^{\{t\}}$ 和 $Y^{\{t\}}$ ，而成本函数 $J^{\{t\}}$ 只和 $X^{\{t\}}$ ， $Y^{\{t\}}$ 有关，也就是每次迭代下你都在训练不同的mini-batch或者说训练不同的样本集。因此在训练mini-batch梯度下降法时，经过多代，你可能会看到上图这样的曲线，走向朝下，但有更多的噪声。如果没有每次迭代都下降，这是不要紧的，但整体走势应该向下。
噪声产生的原因在于每次迭代下你都在训练不同的mini-batch或者说是样本集，也许 $X^{\{1\}}$ 和 $Y^{\{1\}}$ 是比较容易计算的mini-batch，因此成本会低一些。不过也许出于偶然， $X^{\{2\}}$ 和 $Y^{\{2\}}$ 是比较难运算的mini-batch，或许你需要一些残缺的样本，这样一来，成本会更高一些，所以才会出现这些摆动。

1.4 如何选择mini-batch大小？

在这里插入图片描述
使用mini-batch梯度下降法的过程中，你需要决定的变量之一是mini-batch的大小，另外 $m$ 是训练集的大小。
第一种极端情况，假设mini-batch的大小等于 $m$ ，也就是batch梯度下降法，在这种极端情况下，你就有了mini-batch $X^{\{1\}}$ 和 $Y^{\{1\}}$ ，并且该mini-batch等于整个训练集，即 $X^{\{1\}},Y^{\{1\}})=(X,Y)$ ，所以把mini-batch大小设为 $m$ ，也就等于batch梯度下降法。
另一种极端情况，假设mini-batch大小为1，此时每个样本都是独立的mini-batch，这种新的算法，叫做随机梯度下降法。对于第一个mini-batch，也就是 $X^{\{1\}}$ 和 $Y^{\{1\}}$ ，如果mini-batch大小为1，实际上它就是你的第一个训练样本，即 $X^{\{1\}},Y^{\{1\}})=(X^{(1)},Y^{(1)})$ 。接着再看第二个mini-batch，也就是第二个训练样本，即 $X^{\{2\}},Y^{\{2\}})=(X^{(2)},Y^{(2)})$ ，然后是第三个训练样本，以此类推，直到最后一个样本，而每一次梯度下降只处理一个样本。
在这里插入图片描述

接下来在上述两种极端下看一下成本函数的优化情况，如果上图是你想要最小化的成本函数的轮廓。batch梯度下降法（蓝色曲线）从某处开始，相对噪声低些，幅度也大一些，并最终找到最小值。
相反，在随机梯度下降法（紫色曲线）中，从某一点开始，每次迭代只对一个样本进行梯度下降，其大部分时候向着全局最小值靠近，有时候也会远离最小值，因为可能那个样本恰好给你指的方向不对，因此随机梯度下降法是有很多噪声的。平均来看，它最终会靠近最小值，不过有时候也会方向错误，因为随机梯度下降法永远不会收敛，而是会一直在最小值附近波动，并不会在达到最小值并停留在此。
而如果使用mini-batch梯度下降法（绿色曲线）的话，它不会总朝向最小值靠近，但它比随机梯度下降要更持续地靠近最小值的方向，它也不一定在很小的范围内收敛或者波动，如果出现这个问题，可以慢慢减少学习率。
在这里插入图片描述

如果使用batch梯度下降法，即mini-batch的大小为 $m$ ，每次迭代需要处理大量训练样本，该算法的主要弊端在于如果训练样本数量巨大，单次迭代耗时太长。如果训练样本不大，那么batch梯度下降法可以运行地很好。
使用随机梯度下降法的话，即mini-batch的大小为1，如果你只要处理一个样本，那这个方法很好，通过减小学习率，噪声会被改善或有所减小，但随机梯度下降法的一大缺点是，你会失去所有向量化带给你的加速，因为一次性只处理了一个训练样本，这样效率过于低下。
所以实践中最好选择不大不小的mini-batch尺寸，这样子学习率可以达到最快。你会发现两个好处，一方面，你得到了大量的向量化操作，上个视频我们用过的例子中，如果mini-batch大小为1000个样本，你就可以对1000个样本向量化，比你一次性处理多个样本快得多。另一方面，你不需要等待整个训练集被处理完就可以开始进行后续工作，同样在上个视频我们用过的例子中，每次训练集允许我们执行5000个梯度下降，所以实际上一些位于中间的mini-batch大小效果最好。
而位于中间的mini-batch大小应该如何选择，指导原则如下：

如果训练集较小，即样本数目小于2000个样本，直接使用batch梯度下降法即可。样本数目较小就没必要使用mini-batch梯度下降法，因为你可以快速处理整个训练集。如果样本数目较大的话，一般mini-batch大小设置为64到512，考虑到电脑内存设置和使用的方式，如果mini-batch大小是2的 $n$ 次方，代码会运行地快一些，比如64就是2的6次方，128是2的7次方，以此类推，256是2的8次方，512是2的9次方。所以我经常把mini-batch大小设成2的 $n$ 次方。在上一章节里，mini-batch大小设为了1000，你可以试一下1024，也就是2的10次方。
最后需要注意的是，在你的mini-batch中，要确保 $X^{\{t\}}$ 和 $Y^{\{t\}}$ 符合CPU/GPU内存，取决于你的应用方向以及训练集的大小。如果你处理的mini-batch和CPU/GPU内存不相符，不管用什么方法处理数据，你会发现算法的表现急转直下，变得惨不忍睹，所以我希望你对一般的mini-batch大小有一个直观了解。事实上mini-batch大小是一个重要的变量，你需要做一个快速尝试，才能找到能够最有效地减少成本函数的那个，我一般会尝试几个不同的值，几个不同的2的 $n$ 次方，然后看能否找到一个让梯度下降优化算法最高效的mini-batch大小。

2. 指数加权平均 (Exponentially Weighted Averages)

2.1 基本原理

在这里插入图片描述

上图是天气与日期的变化关系，横轴表示的是一年中的第几天，纵轴表示的是该天的温度。1月份和12月份的温度相对于年中(6、7月份)的温度要低一些。
下面我们通过温度的局部平均值(移动平均值)来描述温度的变化趋势。 $v_0=0$ $v_1=0.9*v_0+0.1*\theta_1$ $v_2=0.9*v_1+0.1*\theta_2$ $v_3=0.9*v_2+0.1*\theta_3$ $\cdots \cdots$ 以此类推，我们可以用如下公式来计算局部平均值。 $v_t=\beta*v_{t-1}+(1-\beta)*\theta_t$ 其中 $v_t$ 表示到第 $t$ 天的局部平均温度值， $\theta_t$ 表示第 $t$ 天的温度， $\beta$ 表示可调节的超参数。
在计算时可将 $v_t$ 看作是 $\frac 1{(1-\beta)}$ 天内的平均温度。假设 $\beta$ 是0.9，即 $\frac{1}{(1-\beta)}=\frac{1}{(1-0.9)}=10$ 天内的平均温度，如下图中的红线部分。
在这里插入图片描述

假设将 $\beta$ 设置为一个接近1的值，比如0.98，即 $\frac1{(1-0.98)}=50$ ，这就是粗略平均了一下过去50天的温度，如下图中的绿线部分。
在这里插入图片描述

相对于红线来说，得到的曲线要平坦一些，原因在于多平均了几天的温度，所以这个曲线，波动更小，更加平坦，但缺点是曲线进一步右移，产生了延迟。
假设 $\beta$ 取另一个极端值，比如说0.5，根据公式 $\frac1{(1-\beta)}$ 可知这是平均了两天的温度，如下图中的黄线部分。
在这里插入图片描述

相对于红线来说，它抖动的更加厉害，因为它只平均了两天的温度，所以对于温度的趋势反馈能够更加的及时，更快的适应温度的变化，同时它也会带来更多的噪声（平均的天数太少）。

2.2 本质作用

对于这个计算指数加权平均的方程 $v_t=\beta*v_{t-1}+(1-\beta)*\theta_t$ 假设 $\beta=0.9$ ， $t$ 从100到1逐级递减，写下如下公式 $v_{100}=0.9*v_{99}+0.1*\theta_{100}$ $v_{99}=0.9*v_{98}+0.1*\theta_{99}$ $v_{98}=0.9*v_{97}+0.1*\theta_{98}$ $v_{97}=0.9*v_{96}+0.1*\theta_{97}$ $\cdots \cdots$ $v_1=0.9*v_0+0.1*\theta_1$ 将 $v_{99}$ 代入到 $v_{100}$ 中，可得： $v_{100}=0.1*\theta_{100}+0.9*(0.1*\theta_{99}+0.9*v_{98})$ 再将 $v_{98}$ 代入到 $v_{99}$ 中，可得： $v_{100}=0.1*\theta_{100}+0.9*(0.1*\theta_{99}+0.9*(0.1*\theta_{98}+0.9*v_{97}))$ 以此类推，将这些括号里面的内容展开，可得：
$\begin{aligned} v_{100}&=0.1*\theta_{100}+0.1*0.9*\theta_{99}+0.1*0.9^2*\theta_{98}+0.1*0.9^3*\theta_{97}+\cdots+0.1*0.9^{99}*\theta_1\\ &=0.1*\sum_{i=1}^{100} 0.9^{(100-i)}*\theta_i \\ \end{aligned}$ 由此可知，上面的式子就是一个指数加权平均。
取 $\epsilon=1-\beta=0.1$ ，即 $\beta=0.9$ 。当 $(1-\epsilon)^{\frac{1}{\epsilon}}=\frac{1}{e}$ 时，即 $(0.9)^{10}=\frac{1}{e}\approx0.37$ （ $e$ 为自然对数， $e = 2.71828$ ），也就是当曲线的高度下降到峰值的 $\frac13$ ，权重下降到峰值权重的 $\frac{1}{e}$ 时，我们就说它平均了 $\frac{1}{\epsilon}$ = $\frac{1}{1-\beta}$ 天的数据。

2.3 算法实现

你要做的是，一开始先将 $v$ 初始化为0

v = 0

然后在第一天使 $v:=\beta v+(1-\beta)\theta_1$

v = beta * v + (1 - beta) * theta_1

第二天继续更新 $v$ 值，使 $v:=\beta v+(1-\beta)\theta_2$

v = beta * v + (1 - beta) * theta_2

以此类推，接下来每一天根据第 $t$ 天的数据，把 $v$ 更新为 $v_t=\beta v_{\theta}+(1-\beta)\theta_t$ 。
指数加权平均公式的好处之一在于，它占用极少内存，电脑内存中只占用一行数字而已，然后把最新数据代入公式，不断覆盖就可以了。但缺点是，如果保存所有最近的温度数据和过去10天的总和，必须占用更多的内存，执行更加复杂，计算成本也更加高昂。

2.4 偏差修正

2.4.1 偏差来源

在这里插入图片描述

在之前的章节中讲到，红色曲线对应的 $\beta$ 值为0.9，绿色曲线对应的 $\beta$ 值为0.98。但实际上，如果你执行公式 $v_t=\beta v_{t-1}+(1-\beta)\theta_t$ ，在 $\beta$ 等于0.98的时候，得到的并不是绿色曲线，而是紫色曲线，可以注意到紫色曲线的起点较低。
在这里插入图片描述

计算移动平均数的时候，首先初始化 $v_0$ $v_0=0$ 因为 $v_0=0$ ，所以 $v_1=0.98v_0+0.02\theta_1=0.02\theta_1$ 如果第一天的温度是40华氏度，那么 $v_1=0.02\theta_1=0.02*40=8$ ，得到的值会比实际值小很多，所以第一天的温度估计不准确。
$v_2=0.98v_1+0.02θ_2$ 将 $v_1$ 代入到 $v_2$ 中 $v_2=0.98*0.02\theta_1+0.02\theta_2=0.0196\theta_1+0.02\theta_2$ 假设 $\theta_1$ 和 $\theta_2$ 都是正数，计算后 $v_2$ 要远小于 $\theta_1$ 和 $\theta_2$ ，所以 $v_2$ 不能很好地估算出这一年前两天的温度。

2.4.2 修正方法

在估测初期，不使用 $v_t$ ，而是用 $\frac{v_t}{1-\beta^t}$ ，其中 $t$ 是现在的天数。
举例来说，假设 $t = 2$ 时，那么 $1-\beta^t=1-0.98^2=0.0396$ ，因此对第二天温度的估测变成了 $\frac{v_2}{0.0396}=\frac{0.0196\theta_1+0.02\theta_2}{0.0396}$ ，也就是 $\theta_1$ 和 $\theta_2$ 的加权平均数，并且去除了偏差。随着 $t$ 增加， $\beta^t$ 接近于0，所以当 $t$ 很大的时候，偏差修正几乎没有作用，因此当 $t$ 较大的时候，紫线基本和绿线重合了。

3. 动量梯度下降法 (Gradient Descent with Momentum)

还有一种优化算法叫做Momentum，或者叫做动量梯度下降法，运行速度几乎总是快于标准的梯度下降算法，其基本的思路就是计算梯度的指数加权平均数，并利用该梯度更新你的权重。

3.1 案例说明

在这里插入图片描述

以优化成本函数为例，成本函数的形状如上图，红点代表最小值的位置。
以优化成本函数为例，假设从蓝点位置开始执行梯度下降，如果进行梯度下降的一次迭代，你会发现，无论是batch或mini-batch下降法，都会从起始点开始在这个椭圆范围内来回波动，然后一步一步梯度计算下去，慢慢摆动到最小值，这种上下波动减慢了梯度下降法的速度，你就无法使用更大的学习率（紫色曲线），如果你要用较大的学习率，结果可能会偏离函数的范围，因此为了避免摆动过大，你要用一个较小的学习率。
另一个看待问题的角度是，在纵轴上，你希望学习慢一点，因为你不想要这些摆动，但是在横轴上，你希望加快学习，能够快速从左向右移动，移向最小值。

3.2 算法实现

使用动量梯度下降法，你需要做的是，在每次迭代中，或者说在第 $t$ 次迭代的过程中，首先使用现有的mini-batch或batch来计算微分 $d W$ 和 $d b$ ，这里省略上标 $[l]$ 。
其次你要做的是通过指数加权平均来计算 $v_{dW}$ 和 $v_{db}$ $v_{dW}=\beta v_{dW}+(1-\beta)dW$ $v_{db}=\beta v_{db}+(1-\beta)db$ 然后重新赋值权重 $W:=W-\alpha v_{dW}$ $b:=b-\alpha v_{db}$ 这样就可以减缓梯度下降的幅度。
在这里插入图片描述

这个算法中有两个超参数，即学习率 $\alpha$ 和参数 $\beta$ ，其中 $\beta$ 控制着指数加权平均数。 $\beta$ 最常用的值是0.9，我们之前平均了过去十天的温度，所以这里是平均了前十次迭代的梯度。
关于偏差修正，按照之前的公式，这里应该使用 $\frac{v_{dW}}{1-\beta^t}$ 和 $\frac{v_{db}}{1-\beta^t}$ ，但实际上人们不这么做，因为经过10次迭代之后，移动平均已经过了初始阶段，所以不会受到偏差修正的困扰。
$v_{dW}$ 的初始值是0，这是和 $d W$ 以及 $W$ 拥有相同维数的零矩阵。同样的， $v_{db}$ 的初始值也是向量零，并且和 $d b$ 以及 $b$ 拥有相同的维数。
使用动量梯度下降法时，还会遇到另一种表达公式，即 $1-\beta$ 被删除了。 $v_{dW}=\beta v_{dW}+dW$ 所以 $v_{dW}$ 缩小了 $1-\beta$ 倍，相当于乘以 $\frac1{1-\beta}$ ，因此当你要使用梯度下降最新值的话， $\alpha$ 也要根据 $\frac1{1-\beta}$ 相应变化。实际上，二者效果都不错，只会影响到学习率 $\alpha$ 的最佳值。但是第二个公式使用起来没那么自然，它会有一个影响，如果最后要调整超参数 $\beta$ ，就会影响到 $v_{dW}$ 和 $v_{db}$ ，也许还要修改学习率 $\alpha$ ，因此更倾向于使用第一个公式。

3.3 本质理解

在这里插入图片描述

如果你要最小化的函数是碗状函数，微分项 $d W$ 和 $d b$ 相当于加速度，Momentum项 $v_{dW}$ 和 $v_{db}$ 相当于速度。假设你有一个碗，把一个球从碗的某个位置放下，微分项给了这个球一个加速度，此时球向下滚动，因为加速度的作用越滚越快，而因为 $\beta$ 稍小于1，相当于摩擦力作用，所以球不会无限加速下去，不像梯度下降法那样，每一步都独立于之前的步骤，你的球可以向下滚，从而获得动量。

4. RMSprop (Root Mean Square Rrop)

4.1 算法实现

在每一次迭代中，或者说在第 $t$ 次迭代中，首先RMSprop算法会计算当下mini-batch的微分 $d W$ 和 $d b$ 。
接着RMSprop会通过指数加权平均的方式计算 $S_{dW}$ 和 $S_{db}$ $S_{dW}=\beta S_{dW}+(1-\beta)(dW)^2$ $S_{db}=\beta S_{db}+(1-\beta)(db)^2$ 需要注意的是，这里的平方是针对整个符号的操作，这样做能够保留微分平方的加权平均数。
最后更新参数值 $W$ 和 $b$ $W:=W-\alpha \frac{dW}{\sqrt{S_{dW}}+\epsilon}$ $b:=b-\alpha \frac{db}{\sqrt{S_{db}}+\epsilon}$ 为了确保这里不会除以0，在实际应用中，需要在分母上加上一个很小很小的 $\epsilon$ ， $\epsilon$ 一般取 $10^{−8}$ 。

4.2 原理解释

在这里插入图片描述

以优化成本函数为例，假设纵轴代表参数 $b$ ，横轴代表参数 $W$ 。
在横轴方向或者说在例子中的 $W$ 方向，我们希望学习速度快，即希望 $\alpha \frac{dW}{\sqrt{S_{dW}}}$ 较大，因此 $S_{dW}$ 会相对较小。
而在垂直方向，也就是例子中的 $b$ 方向，我们希望减缓纵轴上的摆动，也就是希望 $b$ 的浮动较小，即 $\alpha \frac{db}{\sqrt{S_{db}}}$ 的值较小，所以需要分母上的 $S_{db}$ 相对较大。
从上图中可以看到函数的倾斜程度，在纵轴上，也就是 $b$ 方向上的斜率要大于在横轴上的斜率，也就是 $d b$ 较大， $d W$ 较小。 $d b$ 的平方较大，所以 $S_{db}$ 也会较大，而相比之下， $d W$ 会小一些，亦或 $d W$ 平方会小一些，因此 $S_{dW}$ 会小一些，结果就是纵轴上的更新要被一个较大的数相除，就能消除摆动，而水平方向的更新则被较小的数相除，就能加快学习。
注：这里把纵轴和横轴方向分别称为 $b$ 和 $W$ ，只是为了方便展示而已。实际上，你会处于参数的高维度空间，可能是参数 $W 1$ 、 $W 2$ 、 $W 3$ 等的合集。同样的， $d W$ 和 $d b$ 也是一个高维度的参数向量。

5. Adam优化算法 (Adam Optimization Algorithm)

5.1 算法实现

使用Adam算法，首先需要初始化 $v_{dW}=0，S_{dW}=0，v_{db}=0，S_{db}=0$ 接下来需要在第 $t$ 次迭代中计算微分，用当前的mini-batch计算 $d W$ 和 $d b$ ，一般会用mini-batch梯度下降法。
然后计算Momentum指数加权平均数 $v_{dW}=\beta_1v_{dW}+(1-\beta_1)dW$ $v_{db}=\beta_1v_{db}+(1-\beta_1)db$ 接着使用RMSprop进行更新，即使用不同的超参数 $\beta_2$ $S_{dW}=\beta_2S_{dW}+(1-\beta_2)(dW)^2$ $S_{db}=\beta_2S_{db}+(1-\beta_2)(db)^2$ 相当于Momentum更新了超参数 $\beta_1$ ，RMSprop更新了超参数 $\beta_2$ 。
一般使用Adam算法的时候，要计算偏差修正 $v_{dW}^{corrected}=\frac{v_{dW}}{1-\beta_1^t}$ $v_{db}^{corrected}=\frac{v_{db}}{1-\beta_1^t}$ $S$ 也使用偏差修正，也就是 $S_{dW}^{corrected}=\frac{S_{dW}}{1-\beta_2^t}$ $S_{db}^{corrected}=\frac{S_{db}}{1-\beta_2^t}$ 最后更新参数值 $W:=W-\frac{\alpha v_{dW}^{corrected}}{\sqrt{S_{dW}^{corrected}}+\epsilon}$ $b:=b-\frac{\alpha v_{db}^{corrected}}{\sqrt{S_{db}^{corrected}}+\epsilon}$ 所以Adam算法结合了Momentum和RMSprop梯度下降法，并且是一种极其常用的学习算法，被证明能有效适用于不同神经网络以及适用于广泛的结构。

5.2 超参数的选择

(1) 学习率 $\alpha$ ：学习率 $\alpha$ 很重要，经常需要调试，你可以尝试一系列值，然后看哪个更有效。
(2) 移动加权平均系数 $\beta_1$ ：常用的缺省值为0.9，这是 $d W$ 的移动平均数，也就是 $d W$ 的加权平均数，这是Momentum涉及的项。
(3) 移动加权平均系数 $\beta_2$ ：Adam算法的发明者推荐使用0.999，这是在计算 $dW)^2$ 以及 $db)^2$ 的移动加权平均值。
(4) 偏置项 $\epsilon$ ： $\epsilon$ 的选择其实没那么重要，Adam论文的作者建议 $\epsilon$ 为 $10^{-8}$ ，但你并不需要设置它，因为它并不会影响算法表现。

6. 学习率衰减 (Learning Rate Decay)

6.1 概念解释

加快学习算法的一个办法就是随时间慢慢减少学习率。
在这里插入图片描述

假设你要使用mini-batch梯度下降法，mini-batch数量不大，大约是64或者128个样本，在迭代过程中会有噪音（蓝色曲线），下降朝向最小值，但是不会精确地收敛，所以最后会在最小值附近摆动，并不会真正收敛，因为使用的学习率 $\alpha$ 是固定值，不同的mini-batch中有噪音。
在这里插入图片描述

但要慢慢减少学习率 $\alpha$ 的话，在初期的时候，学习率 $\alpha$ 还较大，学习还是相对较快，但随着 $\alpha$ 变小，步伐也会变慢变小，所以最后会在最小值附近的一小块区域里摆动（绿色曲线），而不是在训练过程中，大幅度在最小值附近摆动。
所以慢慢减少 $\alpha$ 的本质在于，在学习初期，学习率大一些，能以较大的步伐向最小值下降，但当开始收敛的时候，小一些的学习率能让步伐小一些。

6.2 学习率衰减的方法

方法	备注
$\alpha=\frac{1}{1\ +\ decay\ rate\ *\ epoch\_num}\alpha_0$	decay-rate为衰减率，epoch-num为代数，即遍历训练集的次数， $\pmb{\alpha_0}$ 为初始学习率
$\alpha=0.95^{epoch\_num}\alpha_0$	学习率呈指数下降
$\alpha=\frac{k}{\sqrt{epoch\_num}}\alpha_0$ 或 $\alpha=\frac{k}{\sqrt{t}}\alpha_0$	$t$ 为mini-batch的数字
离散下降（discrete stair cease）

7. 局部最优的问题 (The Problem of Local Optima)

在深度学习研究早期，人们总是担心优化算法会困在极差的局部最优，不过随着深度学习理论不断发展，我们对局部最优的理解也发生了改变。
在这里插入图片描述

上图是曾经人们在想到局部最优时脑海里会出现的图，在图中似乎各处都分布着局部最优。梯度下降法或者某个算法可能困在一个局部最优中，而不会抵达全局最优。如果你要作图计算一个数字，比如在上图的两个维度中，就容易出现有多个不同局部最优的图，而这些低维的图曾经影响了我们的理解，但是这些理解并不正确。事实上，如果你要创建一个神经网络，通常梯度为零的点并不是这个图中的局部最优点，实际上成本函数的零梯度点，通常是鞍点。
在这里插入图片描述

但是一个具有高维度空间的函数，如果梯度为0，那么在每个方向，它可能是凸函数，也可能是凹函数。假设你在一个2万维空间中，想要得到局部最优，那么所有的2万个方向都需要是凹函数或者都是凸函数，但这样子发生的机率也许很小，大概只有 $\frac{1}{2^{20000}}$ ，而更有可能遇到有些方向的曲线会向上弯曲，另一些方向曲线向下弯曲，而不是所有的都向上弯曲，因此在高维度空间，你更可能碰到鞍点，而不会碰到局部最优。
在这里插入图片描述

而另一个问题是在平稳段会减缓学习，平稳段是一块区域，其中导数长时间接近于0，如果你在此处，梯度会从曲面自上而下地下降，因为梯度等于或接近0，曲面很平坦，你得花上很长时间慢慢抵达平稳段的这个点（蓝色曲线），然后因为左边或右边的随机扰动，你的算法能够走出平稳段（红色曲线）。
总结一下这部分的要点：
第一，你不太可能困在极差的局部最优中，除非是在训练较大的神经网络，存在大量参数，并且成本函数 $J$ 被定义在较高的维度空间。
第二，平稳段是一个问题，这会使得学习十分缓慢，在这种情况下，使用更成熟的优化算法，如Adam算法，能够加快速度，让你尽早往下走出平稳段。

吴恩达改善深层神经网络章节笔记（二）——优化算法

吴恩达改善深层神经网络章节笔记（二）——优化算法）

1. Mini-batch梯度下降 (Mini-batch Gradient Descent)

1.1 什么是mini-batch？

1.2 Mini-batch梯度下降法的实现流程

1.3 Batch vs. Mini-batch梯度下降法

1.4 如何选择mini-batch大小？

2. 指数加权平均 (Exponentially Weighted Averages)

2.1 基本原理

2.2 本质作用

2.3 算法实现

2.4 偏差修正

2.4.1 偏差来源

2.4.2 修正方法

3. 动量梯度下降法 (Gradient Descent with Momentum)

3.1 案例说明

3.2 算法实现

3.3 本质理解

4. RMSprop (Root Mean Square Rrop)

4.1 算法实现

4.2 原理解释

5. Adam优化算法 (Adam Optimization Algorithm)

5.1 算法实现

5.2 超参数的选择

6. 学习率衰减 (Learning Rate Decay)

6.1 概念解释

6.2 学习率衰减的方法

7. 局部最优的问题 (The Problem of Local Optima)

猜你喜欢