1 Intro

深度学习模型的优化是一个非凸优化问题，这是与凸优化问题对应的。

对于凸优化来说，任何局部最优解即为全局最优解。用贪婪算法或梯度下降法都能收敛到全局最优解。而非凸优化问题则可能存在无数个局部最优点，损失曲面如下，可以看出有非常多的极值点，有极大值也有极小值。

除了极大极小值，还有一类值为“鞍点”，简单来说，它就是在某一些方向梯度下降，另一些方向梯度上升，形状似马鞍，如下图红点就是鞍点。

对于深度学习模型的优化来说，鞍点比局部极大值点或者极小值点带来的问题更加严重。

目前常用的优化方法分为一阶和二阶，这里的阶对应导数，一阶方法只需要一阶导数，二阶方法需要二阶导数。

常用的一阶算法就是：随机梯度下降SGD及其各类变种了。

常用的二阶算法就是：牛顿法等。

2 一阶优化算法

2.1 Gradient descent

Batch Gradient Descent

Stochastic Gradient Descent

Mini-batch Gradient Descent

2.2 Momentum

前面说了梯度下降算法是按照梯度的反方向进行参数更新，但是刚开始的时候梯度不稳定呀，方向改变是很正常的，梯度就是抽疯了似的一下正一下反，导致做了很多无用的迭代。

而动量法做的很简单，相信之前的梯度。如果梯度方向不变，就越发更新的快，反之减弱当前梯度。

优点：可以使得梯度方向不变的维度上速度变快，梯度方向有所改变的维度上的更新速度变慢，这样就可以加快收敛并减小震荡。
缺点：这种情况相当于小球从山上滚下来时是在盲目地沿着坡滚，如果它能具备一些先知，例如快要上坡时，就知道需要减速了的话，适应性会更好。

2.3 Nesterov accelerated gradient （NAG）

仍然是动量法，只是它要求这个下降更加智能。

既然动量法已经把前一次的梯度和当前梯度融合，那何不更进一步，直接先按照前一次梯度方向更新一步将它作为当前的梯度，看下面的式子就明白了。

2.4 AdaGrad

前面的一系列优化算法有一个共同的特点，就是对于每一个参数都用相同的学习率进行更新。但是在实际应用中各个参数的重要性肯定是不一样的，所以我们对于不同的参数要动态的采取不同的学习率，让目标函数更快的收敛。
adagrad方法是将每一个参数的每一次迭代的梯度取平方累加再开方，用基础学习率除以这个数，来做学习率的动态更新。【这样每一个参数的学习率就与他们的梯度有关系了，那么每一个参数的学习率就不一样了！也就是所谓的自适应学习率】