梯度下降算法及优化方法

目录

一、基础知识

二、SGD

三、Adagrad

四、Adadelta

五、Adam

正文

一、基础知识

斜率:在一维空间上,斜率就是函数的导数;

梯度:在多维空间里,函数的导数叫梯度,梯度是偏导数组成的向量;

梯度指向函数增加最快的方向,相应地,负梯度就指向函数下降最快的方向;推导方法可以参考该链接:https://blog.csdn.net/itplus/article/details/9337515

二、SGD

一般情况下,SGD指Mini-batch GD,(GD可分为三种:Batch GD,Stochastic GD,mini-batch GD)

SGD就是每次迭代计算mini-batch的梯度,然后对参数进行更新:

  gt = 

猜你喜欢

转载自www.cnblogs.com/jimchen1218/p/11848643.html