深度学习优化入门：Momentum、RMSProp 和 Adam

虽然局部极小值和鞍点会阻碍我们的训练，但病态曲率会减慢训练的速度，以至于从事机器学习的人可能会认为搜索已经收敛到一个次优的极小值。让我们深入了解什么是病态曲率。

病态曲率

考虑以下损失曲线图。

如你所知，我们在进入一个以蓝色为标志的像沟一样的区域之前是随机的。这些颜色实际上代表了在特定点上的损失函数的值，红色代表最高的值，蓝色代表最低的值。

我们想要下降到最低点，因此，需要穿过峡谷。这个区域就是所谓的病态曲率。为了了解为何将其称为病态曲率，让我们再深入研究。放大了看，病态曲率就像这样...

病态曲率

要知道这里发生的事情并不难。梯度下降沿着峡谷的山脊反弹，向最小的方向移动的速度非常慢。这是因为山脊的曲线在 W1 方向上弯曲的更陡。

考虑山脊表面的 A 点。我们看到，梯度在这点可以分解为两个分量，一个沿着 W1 方向，另外一个沿着 W2 方向。如果 f 显著下降的唯一方向是低曲率的，那么优化可能会变得太慢而不切实际，甚至看起来完全停止，造成局部最小值的假象。

正常情况下，我们使用一个较慢的学习率来解决这种山脊间反弹的问题，正如上一篇关于梯度下降的文章所述。然而，这却产生了麻烦。

当我们接近最小值时，慢下来是有意义的，我们想要收敛于它。但是考虑一下梯度下降进入病态曲率的区域，以及到最小值的绝对距离。如果我们使用较慢的学习率，可能需要花费更多的时间才能到达极小值点。事实上，有研究论文报道过使用足够小的学习率来阻值山脊间的反弹可能导致参与者以为损失根本没有改善，从而放弃训练。

如果 f 显著下降的唯一方向是低曲率的，那么优化可能会变得太慢而不切实际，甚至看起来完全停止，造成局部最小值的假象。

也许我们想要的是能让我们慢慢进入病态曲率底部的平坦区域，然后在最小值的方向上加速。二阶导数可以帮助我们做到这一点。

牛顿法

梯度下降是一阶优化方法。它只考虑损失函数的一阶导数，而不考虑更高阶的导数。这基本上意味着它不知道损失函数的曲率。它只能说明损失是否下降以及下降的速度，而不能区分曲线是平坦的，向上的，还是向下的。

之所以会发生这种现象，是因为梯度下降只关心梯度，就好像上图中红色的点，三个曲线在这一点上的梯度是相同的。如何解决？使用二阶导数，或者考虑梯度变化的速率。

一个非常流行的可以使用二阶导数的技术，可以解决我们的问题，这个方法称为牛顿法。如果表面变得不那么陡峭，那么学习步骤就会减少。

牛顿法可以提供一个理想的步长，在梯度方向上移动。由于我们现在有了关于损失表面曲率的信息，所以可以选择步长，而不是用病态曲率来超过该区域的极限。

牛顿法通过计算 Hessian 矩阵来实现，Hessian 矩阵是损失函数的二阶导数组成的权值组合。我所说的权值组合，如下所示。