02改善深层神经网络：超参数调试、正则化以及优化（第二周：优化算法）

这是吴恩达深度学习第二模块第二周的内容，刚开始学习，文章里应该会有些理解错误的部分，多谢告知，qq: 2690382987

Mini-batch 梯度下降

mini-batch尺寸：

mini-batch的符号表示，令每个Mini-batch包含的样本量为1000，总样本量500万，则：
在这里插入图片描述
下面介绍几个比梯度下降速度更快的优化算法，在这之前先介绍指数加权平均数。

在这里插入图片描述

用上面的方式计算出来的指数加权平均数，在开始那些数据上偏差较大，如果你的功能关心初始时候的偏差，那便需要对初始的计算结果做偏差修正。
修正公式：
在这里插入图片描述

目的是为了使纵轴方向的摆动幅度小些，横轴方向运动地更快，所以和梯度下降相比，这种方式学习速度更快。它不像梯度下降法每一迭代都只和当前有关，和上一个迭代无关，动量梯度下降法的每一步是当前和之前步的加权平均计算出来的。
在这里插入图片描述

计算公式：
在这里插入图片描述

上图里有两个超参数，吴老师建议β取0.9，即平均了近十次迭代的梯度。一般不需要做偏差修正，因为迭代10次后移动平均已经过了初始阶段。
v_dw的初始值是和w相同维数的零矩阵。
v_db的初始值是和b相同维数的零向量。

扫描二维码关注公众号，回复： 11646520 查看本文章

一个加速梯度下降的方法，加速的方式是：使纵轴方向的摆动幅度小些，横轴方向运动地更快（至少不是减缓）。计算公式（费解）：
在这里插入图片描述

Adam是动量梯度下降法和RMSprop的结合,计算方法：
在这里插入图片描述

超参数调试：
在这里插入图片描述

随着时间慢慢减少学习率（学习率衰减）的本质是，在训练初期可以接受较大的波动，但当算法开始收敛时，小一些的学习率会让波动小一些。具体的操作，即计算公式：
在这里插入图片描述

很小的概率会困在很差的局部最优里，在高维空间更有可能碰到鞍点，而不会碰到局部最优。（这一节很费解）