7.1 更好的优化
随机梯度下降(SGD):在每次迭代中,选取一小部分训练样本,成为minibatch(小批量),用minibatch来估算误差总和L(W)和实际梯度wL(W).这种选取是随机的,当做对真实值期望的蒙特卡洛估计。
SGD存在的问题:
鞍点:既不是极大值点也不是极小值点的临界点
噪声项。。
改进方法:
加入动量项
初始化为0
AdaGrad法:
有两个坐标轴,沿其中一个轴有很高的梯度,另一轴很小梯度,随着累加 ,会在
随机梯度下降(SGD):在每次迭代中,选取一小部分训练样本,成为minibatch(小批量),用minibatch来估算误差总和L(W)和实际梯度wL(W).这种选取是随机的,当做对真实值期望的蒙特卡洛估计。
SGD存在的问题:
鞍点:既不是极大值点也不是极小值点的临界点
噪声项。。
改进方法:
加入动量项
初始化为0
AdaGrad法:
有两个坐标轴,沿其中一个轴有很高的梯度,另一轴很小梯度,随着累加 ,会在