梯度下降极简入门

梯度下降及其变体被用作训练过程的关键部分在机器学习中广泛使用。梯度下降中的“梯度”是指单变量导数的推广形式，即多元变量求导。

梯度下降法是解决“优化问题”的迭代方法，其中优化问题是指围绕寻找函数的全局最小值或最大值而展开的数学问题。我们将很快看到，对于简单的优化问题可以不用梯度下降。当事情变得复杂时，我们则需要用诸如梯度下降之类的迭代法，当然和神经网络相关的优化问题确实足够复杂。

重新回顾优化问题

假设你已经购买了200米的铁丝网。您想使用此围栏为羊群创建一个矩形牧场。如何确定使牧场内部面积最大化时，牧场对应的长度和宽度？

使用标准的分析方法来解决这个问题，我们首先要写一个方程式来表示我们的问题。首先，我们知道两件事：

area(面积)=length(长度)*width(宽度)

（2 * length）+（2 * width）= 200

但是我们想用一个变量而不是两个变量来表示面积，所以我们可以求解这两个方程中的第二个变量的宽度：

2 * width = 200–2 * length

width = [200-2 * length] / 2

width = 100 - length

现在我们可以用100- length代替width，则：

area= length * [100–length]

area = f(length)=100 * length- length²

取面积的导数，则：

area’=100-2*lengthàlength=50

现在，我们找到了函数的“临界点”，即一阶导数等于零时对应的长度，当然函数在该点处的斜率也为零。我们关心这种值，因为它们是唯一能对应函数最小值或函数最大值的数。在临界点处，该点两侧的值可能都小于或都大于临界点处的值。因为函数中该点外的斜率都不为零，这意味着临界点上一边的点对应的面积将小于该临界点对应的面积，而另一边的点对应的面积将大于该临界点对应的面积。也就是说，该函数在非临界点处正在增加或减少，因此不能为最大值或最小值。

area’=100-2*length-->length=50。

这表明如果存在全局最大值或最小值，则必须在长度= 50时发生。也就是说，如果矩形的长度存在最佳选择，则为50米。可能存在临界点既不是最小值也不是最大值，所以应该测试发现的临界点确实是最值。在微积分课程中，有相关的检验方法（比如二阶导数检验），现在用更简单的方法（类似梯度下降法）来解决该问题，比如在临界点长度= 50的左右两侧测试2个点。

f(49)= 4900–2401 = 2499

f(50)= 5000–2500 = 2500

f(51)= 5100–2601 = 2499

这并不能否认在49和50以及在50和51之间，或者某些时候有比50更好的点，不过这种近似的方法最终将应用于训练模型。对于这个简单的问题，通过绘制函数了解该方法和实际的误差：

梯度下降—迭代式猜测

那么这与梯度下降方法有什么关系呢？梯度下降方法比较粗糙，就像刚才所做的那些不精确的猜测一样。这不是一个优雅的公式，看上去它是比随机猜测稍强一点的显得杂乱的体系，不过它将最终成为我们解决围栏问题的方法：

猜测围栏的最佳长度
计算此时的梯度值
根据梯度的值，调整猜测
重复猜测直到满足条件则终止

假设我们随机选取57当作长度的第一个猜测值，在57处，面积函数的导数为：

f'（57）= 100–2 *（57）

f'（57）= -14

length = 57处的斜率不为0，因此不是临界点。此外斜率为-14表示如果将长度增加 1，则面积将减小 14（假设函数的斜率不变）。梯度下降使用此值作为进行下一个猜测的指导。比如要增加面积的值，因为斜率是负数，所以应该57基础上减小长度，以此增加面积的值。

然而即使知道当前应该减少length的值，也没有先验的方法可以确切地知道“合适”的数来调整我们的当前的猜测（length=57）。在像TensorFlow这样的软件包中，我们用来调整当前length的快慢将由一个称为“学习率”的超参数控制，可以在训练时设置该参数。提高学习率将导致梯度下降对当前当前length调整很快；减小学习率会导致梯度下降对当前当前length调整较慢。现在假设将当前length减少3，虽然有点武断，但实际上效果可以接受。

57–3 = 54

f（54）= 5400–（54²）-->f（54）= 5400–2916 -->f（54）= 2484

2484大于2451，说明找到的面积比上次大。再次使用导数来检查是否处于临界点，如果不是，则调整猜测值：

f'（54）= 100–2 * 54 = 100–108 = -8

我们的当前猜测值（54）仍然很大，斜率8低于14，应该适当减缓对当前猜测值的更改幅度，比如在54基础上减少2，则：

f（52）= 5200–52² --> f（52）= 5200–2704 -->f（52）= 2496

我们将重复此过程，直到找到一个临界点。或者直到f'(length)的值非常接近零，才能认为length已足够接近临界点。手工完成此过程是重复且繁琐的，但是计算机善于解决重复繁琐的任务。通俗点说，将像在爬山和滚球，一直沿着抛物线上升，直到无法进一步上升为止。

请注意导数（蓝色），它在最大值的右边是负数，在最大值的左边是正数。在这种情况下，很容易找到最大值。

由于试图找到面积的最大值，上面的示例称之为“梯度上升”更好。在梯度下降中，每次计算梯度值时都将其相反数。

马上将提到的梯度下降和在神经网络里面用到的梯度下降有两个不一样的地方。首先，神经网络对应的函数比f（length）更复杂。我们的神经网络具有成千上万的可调参数，而其中f（length）只有一个。我们使用诸如梯度下降之类的迭代方法主要是因为神经网络模型非常复杂，而不是选用之前查找临界点时的分析过程。计算当前如此庞大规模的神经网络所表示的一般性的函数导数根本不可行。第二个区别是，在此示例中，有一个充当标准结果的实函数，并且发现了该函数的最佳值。在神经网络中，没有显式的函数；取而代之的是，我们尝试创建一个不存在标准结果的函数。

用于函数查找的梯度下降

在前面的示例中，使用梯度下降方法沿该曲线可以找到最佳值。在机器学习中，对于训练集中的数据，我们希望创建一条曲线来更好地拟合这些数据。回顾一下刚刚研究的围栏问题，将它转化为我们更倾向于用机器学习解决的问题。

我们从围栏数据库中收集了很多数据样本。我们数据集中的每个数据点的背景都是来自用100米围栏材料来建造矩形牧场。每个数据点有2个参数：围栏一侧的长度和围栏的面积。在这个问题中，不是尝试找到围栏的最佳长度，而是试图找到一个函数，该函数可以根据给定的边长来预测矩形围栏的面积。我们的输入数据如下所示：

看起来数据中有一个模式，我们可以使用机器学习来定义模式吗？

机器学习解决此问题的方法是认为：“看起来有点像某种数学函数，想知道到底是哪个函数？”，更进一步，我们猜测该函数是某种抛物线函数，则该函数的一般表达式是：

F（x）=ax²+ bx

在数据集中已知x值和y值，现在我们将使用梯度下降法来找到a和b的最佳值。为此，我们引入了另一个函数--损失函数，并运行梯度下降以最小化损失函数。将F（x）当作“正在进行训练的函数”，其中x仍然是围栏一侧的长度，y是围栏的真实面积。单次预测的绝对误差为：

L（x）= | F（x）- y |

我们需要给误差加上绝对值。如果不这样做且连续做两次预测，假设一次错了1000，另一次错了-1000，则两次错误刚好抵消，实际上这样一共错了两次。

最终我们会用这样的一个损失函数：平均绝对误差，它是数据集中所有的点对应L（x）的平均值。使用诸如均方误差之类的指标更为常见，但是不同的损失函数对不同的数据集。

假设我们随机选择权重的起始值：a = -2和b = 30。在对应的F（x）变为：

L（x）= | -2x²+ 30x-y |

接下来的内容略带技巧性。我们想要调整a和b的值以最小化损失函数。因此我们需要计算损失函数对a和b的梯度（偏导数）。以前的函数中，x的值可以不断变化。但是这个问题里面，情况并非如此。x的值始终只是我们数据集中的某个固定值。因此单个数据点对应的损失函数为：L(a, b) = ax² + bx – y,其中x、y是常数。

使用平均绝对误差的损失函数为：

L（a，b）= 1 / m * SUM（| F（a，b）— yi |）

L（a，b）=（1 / m）* SUM（|axi²+ bxi — yi |）

其中xi和yi代表我们数据集中的单个数据点，而m是我们数据集中点的总数。这里有两个细节上的问题：一个是我们必须使用链式规则来计算涉及绝对值的梯度；另一个是绝对值函数在预测值恰好等于真实值的点上是不可求导的，并且。

如果平均绝对误差为0，可以通过停止计算梯度来解决不可导的问题。这是有实际意义的。如果我们在这个数据点上的预测值与实际值都符，那么就不需要用改善绝对误差的方式来调整模型：

d | x |/ dx = 1，如果x为正

d | x |/ dx = -1，如果x为负

则损失函数对a、b求偏导数可以写成：

L(a, b) = (1/m) * SUM( | axi² + bxi — yi | )

L’_a(a, b) = (1 / m) * SUM( 1 * xi² ); F(xi) > yi

L’_a(a, b) = (1 / m) * SUM( -1 * xi² ); F(xi) < yi

L’_b(a, b) = (1 / m) * SUM( 1 * x ); F(xi) > y

L’_b(a, b) = (1 / m) * SUM( -1 * x );F(xi) < yi

这些公式实际上为我们提供了一个非常简单的更新规则：如果我们的预测太小，则将a和b都增大。如果我们的预测太大，则将a和b都减小。

深刻地理解梯度下降以及优化损失函数的思路可以更好地理解过拟合之类的问题，同时它还可以帮助我门更好地了解神经网络训练的过程。

upDiff

发布了183 篇原创文章 · 获赞 79 · 访问量 34万+

他的留言板关注

梯度下降极简入门

猜你喜欢