吴恩达 心得

课中提出

1)大数据下的神经网络模型运用很少,是由于训练迭代需要大量时间。因此需要一个好的训练算法来节约时间

2) 向量化的好处?

       能够有效对整个数据集进行处理,而无需明确的公式

3)怎么优化?

     对于非常大的数据集时,向量化的计算速度很慢。因此,我们考虑将大数据集分成多个子集,再采用最小集梯度下降法计算

4)随机梯度细节?

   有的batch的成本会高一些,使得cost函数出现震荡

5)选用一定大小batch的优点

      1.可以得到大量的向量化(如果batch为1 ,就没有)

      2.节省时间,不需要等待整个训练集本处理完就可以进行训练(近似进程池)

二.

指数加权平均数:

通过上述公式,我们可得:下一时刻与上一时刻间存在β的关系

因此,当β越大时,相邻时刻影响越大,总体曲线变化越平缓,例如(绿色), 当β月小时,当前时刻影响越大,总体曲线变化越剧烈(容易出现异常值,但适应性越强),如(黄色)

  • 算术平均(权重相等)—>加权平均(权重不等)—>移动平均(大约是只取最近的 N 次数据进行计算)—> 批量归一化(BN)及各种优化算法的基础
  • EMA:是以指数式递减加权的移动平均,各数值的加权影响力随时间呈指数式递减,时间越靠近当前时刻的数据加权影响力越大

因此,指数移动平均就是个时间内,进行一个权值更新

三.

做偏差修正,对输出化为0的数据早期进行止损

目标:在起始阶段的估计更加准确;当 t 很大时,偏差修正几乎没有作用,所以对原来的式子几乎没有影响

四.

Momentum

其中,β常为0.9

本质:1)减缓下降时水平梯度,提高垂直梯度,使其震荡较小,下降较快。

           2)通过指数移动平均,来对梯度下降的方向进行纠正

五.(又名:均方根,)

提出了一种减缓水平方向震荡的新思路

即,dW天然要比dB小(权值范围为0-1间),那么我们可以使得W的更新大于偏移(b)的更新,从而使得震动变小

六.

本质:Momentum更新了超参数β1(称第一矩),RMSprop更新了超参数β2(称第二矩),在他们基础上加上一段时间的偏差纠正,便是Adam

β1 常用值: 0.9    β2作者推荐:0.999   

猜你喜欢

转载自blog.csdn.net/weixin_38740463/article/details/89016517