神经网络最优化方法总结比较

参考：深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

学习率	方法	缺点	优点	经验
手动设置学习率	SGD(mini-batch gradient descent)	选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征，有时我们可能想更新快一些对于不经常出现的特征，对于常出现的特征更新慢一些，这时候SGD就不太能满足要求了	初始化和学习率设置比较合适的情况下，结果更可靠	SGD通常训练时间更长，但是在好的初始化和学习率调度方案的情况下，结果更可靠
		SGD容易收敛到局部最优，并且在某些情况下可能被困在鞍点
	Momentum	依赖于人工设置一个全局学习率	下降初期时，使用上一次参数更新，下降方向一致，乘上较大的μ能够进行很好的加速
			下降中后期时，在局部最小值来回震荡的时候，gradient—>0，μ使得更新幅度增大，跳出陷阱
			在梯度改变方向的时候，μ能够减少更新总而言之，momentum项能够在相关方向加速SGD，抑制振荡，从而加快收敛
	Nesterov	依赖于人工设置一个全局学习率	nesterov项在梯度更新时做一个校正，避免前进太快，同时提高灵敏度。
自适应学习率	Adagrad(对学习率进行约束，累加之前所有的梯度平方) ( lr = 0.01, epsilon = None, decay = 0 )	仍依赖于人工设置一个全局学习率	前期gt较小的时候， regularizer较大，能够放大梯度	1.对于稀疏数据，尽量使用学习率可自适应的优化方法，不用手动调节，而且最好采用默认值。 2.如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。 3.Adadelta，RMSprop，Adam是比较相近的算法，在相似的情况下表现差不多。
		η设置过大的话，会使regularizer过于敏感，对梯度的调节太大	后期gt较大的时候，regularizer较小，能够约束梯度
		中后期，分母上梯度平方的累加将会越来越大，使gradient—>0，使得训练提前结束	适合处理稀疏梯度
	Adadelta（对学习率进行约束，只累加固定大小的项) ( lr = 1.0, rho = 0.95, epsilon = None, decay = 0 )	Adadelta，RMSprop，Adam表现相似	不用依赖于全局学习率
			训练初中期，加速效果不错，很快
			训练后期，反复在局部最小值附近抖动
	RMSprop(Adadelta的一个特例)	依然依赖于全局学习率	RMSprop算是Adagrad的一种发展，和Adadelta的变体，效果趋于二者之间，适合处理非平稳目标 - 对于RNN效果很好
	Adam(带有动量项的RMSprop) ( lr = 0.001, beta_1 = 0.9, beta_2 = 0.999, epsilon = None, decay = 0 , amsgrad = False)	Adadelta，RMSprop，Adam表现相似	经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳
			结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
			对内存需求较小
			为不同的参数计算不同的自适应学习率
			也适用于大多非凸优化 - 适用于大数据集和高维空间
	Adamax ( lr = 0.002, beta_1 = 0.9, beta_2 = 0.999, epsilon = None, decay = 0 )		对学习率的上限提供了一个更简单的范围
	Nadam		Nadam对学习率有了更强的约束，同时对梯度的更新也有更直接的影响。
			在想使用带动量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果。

神经网络最优化方法总结比较

猜你喜欢