1. 梯度下降
式中,$\theta$是模型参数,$J(\theta)$目标函数(损失函数),$\eta$是学习率。
2. 随机梯度下降(SGD)
每次随机选定一小批(mini-batch)数据进行梯度的计算,而不是计算全部的梯度。所有小批量数据都训练完,我们称为完成了一个迭代期(epoch)。
3. Momentum
式中,$\theta$是模型参数,$J(\theta)$目标函数(损失函数),$\eta$是学习率。
每次随机选定一小批(mini-batch)数据进行梯度的计算,而不是计算全部的梯度。所有小批量数据都训练完,我们称为完成了一个迭代期(epoch)。
3. Momentum