目录
一、基础知识
二、SGD
三、Adagrad
四、Adadelta
五、Adam
正文
一、基础知识
斜率:在一维空间上,斜率就是函数的导数;
梯度:在多维空间里,函数的导数叫梯度,梯度是偏导数组成的向量;
梯度指向函数增加最快的方向,相应地,负梯度就指向函数下降最快的方向;推导方法可以参考该链接:https://blog.csdn.net/itplus/article/details/9337515
二、SGD
一般情况下,SGD指Mini-batch GD,(GD可分为三种:Batch GD,Stochastic GD,mini-batch GD)
SGD就是每次迭代计算mini-batch的梯度,然后对参数进行更新:
gt =