各种随机梯度下降算法的原理与比较

1. 梯度下降

 

式中,$\theta$是模型参数,$J(\theta)$目标函数(损失函数),$\eta$是学习率。

2. 随机梯度下降(SGD)

每次随机选定一小批(mini-batch)数据进行梯度的计算,而不是计算全部的梯度。所有小批量数据都训练完,我们称为完成了一个迭代期(epoch)。

 3. Momentum

猜你喜欢

转载自www.cnblogs.com/picassooo/p/12347927.html