优化神经网络的方法,加速训练

1.BGD法。batch gradient descent批梯度下降

2.SGD法。stochastic gradient descent随机梯度下降,也称MBGD minibatch gradient descent

3.Momentum法。模拟动量

4.Nesterov Momentum法,对3的改进。

5.Adagrad法,适应不同的学习率。

6.Adadelta法。用一阶的方法,模拟二阶牛顿法

7.RMSProp法。引入衰减系数

8.Adam法。来源于自适应矩估计,引入衰减系数。

各个方法的比较:

http://sebastianruder.com/optimizing-gradient-descent啊,打不开!

猜你喜欢

转载自www.cnblogs.com/bai2018/p/10574368.html