神经网络之梯度下降法原理

0. 前言

梯度下降法是神经网络的一个优化算法，在回调权值的过程中有重要的作用，下面先回顾一下神经网络指明一下梯度下降在何时用上。

1. 回顾神经网络

先来回归一下神经网络的学习过程，如下图：

在这里插入图片描述
上图是一个模型，其中w是参数，也是我们说的权重，x是输入的数据。w和x运算之后得到的h是输出结果。假设期望结果(实际值)是y，损失是loss，则：
$h$ = $w x$
$loss = (h-y)^2 = (wx-y)^2$

求解目标就是使得损失loss最小

在这里插入图片描述
从上图中可以看到，损失在 $w_t$ 时最小，即在 $w_t$ 时导数为0。在数学上，我们可以通过公式定理直接求得某个函数的导数，再直接求得最小值，但在计算机中却需要经过一定的过程。

2. 基本原理

用下图来讲解一下导数的几何意义
在这里插入图片描述
若对 $x_0$ 这点求导，即 $f(x_0)'$ ，此处导数的几何意义就是这一点在函数图像上的切线，也叫斜率、梯度。

下面，回到前面loss-w的图像：
模型开始，会随机取一个 $w$ 的值，此处假定为 $w_1$ ：

在这里插入图片描述
这时的 $w_1$ 对应的损失比较大，所以先对其进行求导，现在希望得到下一时刻的 $w_t$ 值，如果损失要变小，就要在 $w_1$ 左侧。此时，梯度下降的思想就出来的，先看下面的式子：

$W_t = W_1 + (-\alpha*dw)$

在 $w_1$ 处，求导( $d w$ )后，要继续减小损失， $\alpha$ 是移动的一个步长，移动之后，此处是往左侧移动，所以就是 $W_1 + (-\alpha*dw)$ 得到下一个 $w_t$ 的值。经过多次上述过程重复的运算，就可以得到一个最佳的 $w$ 的值。

到这一步，也许你还是没有特别清楚。别着急，下面举一个实际的例子来进行说明，进很好理解了！

3. 举例说明

用 $y = x^2$ 这个式子来进行说明，即求解这个函数的最小值。

通过数学的方法可以知道，它是在 $x = 0$ 的时候取得最小值0.

现在，先把它的函数图像画出来：

在这里插入图片描述

前面说了，在计算机中，是通过不断尝试求得最小值，下面模拟一下这个过程。

补充
在数学上有如下定理：

若对任意 $x \in (a, b)$ ，都有 $f^{'} (x) > 0$ ，则 $f (x)$ 在 $[a, b]$ 上单增；
若对任意 $x \in (a, b)$ ，都有 $f^{'} (x) < 0$ ，则 $f (x)$ 在 $[a, b]$ 上单减；

① 首先，假设初始 $x_0 = 2$ ，这一点的导数是 $y'(x_0) = 2x_0 = 4 > 0$ ，导数大于0，是递增的，即 $x\uparrow$ ， $y\uparrow$ ；因为我们的目标是求解 $y$ 的最小值，所以下一步要减小 $x$ 的值；

② $x_1<x_0$ 是显而易见的，假设此时 $x_1 = -1.3$ ，这一点的导数是 $y'(x_1) = 2x_1 = -2.6 < 0$ ，导数小于0，是递减的，即 $x\uparrow$ ， $y\downarrow$ ；因为我们的目标是求解 $y$ 的最小值，所以下一步要增大 $x$ 的值；

② $x_2>x_1$ 是显而易见的，假设此时 $x_2 = 1.2$ ，这一点的导数是 $y'(x_2) = 2x_2 = 2.4 > 0$ ，导数大于0，是递增的，即 $x\uparrow$ ， $y\uparrow$ ；因为我们的目标是求解 $y$ 的最小值，所以下一步要减小 $x$ 的值；

③ $x_3<x_2$ …

需要不断重复上面的这个过程来不断逼近最小值，即迭代。

再次简化一下这个过程：

① $x_0 = 2$ ， $y'(x_0) = 4 > 0$ ， $x\uparrow$ $y\uparrow$ ；

② $x_1 = x_0 -\Delta_0$
$x_1 = -1.3$ ， $y'(x_1) = -2.6 < 0$ ， $x\uparrow$ $y\downarrow$ ；

③ $x_2 = x_1 +\Delta_1$
$x_2 = 1.2$ ， $y'(x_2) = 2.4 > 0$ ， $x\uparrow$ $y\uparrow$ ；

④ …

现在，对于整个过程理清楚了，但是还是有很多问题：

在上面的过程中，递增就减小 $x$ 的取值，递减就增大 $x$ 的取值，对于增大和减小的那些 $\Delta$ 有没有通用的取值？
对于上面的 $+$ 和 $-$ 能否统一符号？

即能否用一个通式来表示上面这个过程？

通过观察上面的式子，可以看到，是 $+$ 还是 $-$ ，取决于求导之后是大于0还是小于0；所以可以直接让 $\Delta>0$ ，只要前面是负号，再根据其求导的正负就能确定最终是 $+$ 还是 $-$

也就是可以写成下面的式子：

$x_{k+1} = x_k - \Delta f'(x_k)$

$\Delta$ 有时候也用 $\alpha$ 表示，这是步长，也称作学习率，一般大于0；也就是说 $\Delta$ 控制我们每次调整的大小， $f'(x_k)$ 控制方向。

在求导为正的时候，就是 $x_k$ 减去某个值，求导为负的时候，就是 $x_k$ 加上某个值。

这就是对神经网络中梯度下降这个优化算法的整个说明了，下一篇博客打算用代码来模拟一下这个过程。