红色箭头的方向就代表着Gradient的方向，红色箭头的长度就代表了当前梯度的模，或者说是当前梯度的长度可以非常直观的看出来，漏斗的最低点就是箭头的源头，在比较陡的地方箭头的长度比较长，梯度的长度比较长到了外围变平坦之后，箭头的长度几乎快要没有了，这里可以直截了当的解释，梯度的方向就代表函数值增大的方向，梯度的模（长度）代表函数增长的速率

在这里插入图片描述图三

上边这个两个球的例子也可以看出，蓝色点代表函数值比较小的值，红色点就代表函数值比较大的值，表示梯度的箭头从小的值开始往外扩散，红色和蓝色相交的部分是增长最快的地方，箭头是最长的。

三.如何使用Gradient去求解（搜索）最小的Loss呢？（How to search?）

这里的Loss 是训练（创造）出来的函数与原函数之间的差值，越小就拟合的越好，也就越有可能收敛，所以要求解它的最小值。

1.图解梯度----梯度的方向： $\nabla f(\theta) \rightarrow$ larger value

Gradient的方向就代表函数值增大的方向 : $\nabla f(\theta) \rightarrow$ larger value

图四

2.（寻找损失函数最小值）Search for minima:

（1）.分析图四

上边图像是损失函数: $J(w)$
接下来求解损失函数 $J(w)$ 的最小值
这里设置两个learning rate（学习率/因子）：
$lr：$ $\alpha$ ， $\eta$

$\theta_{t+1}=\theta_{t}-\alpha_{t} \nabla f\left(\theta_{t}\right)$

其中， $\theta_{t}$ 是自变量参数（权重）向量，即当前坐标， $\alpha_t$ 是学习因子，即下山每次前进的一小步（步进长度）， $\theta_{t+1}$ 是下一步，即下山移动一小步之后的位置。
$-\alpha_{t} \nabla f\left(\theta_{t}\right)$ 表示把当前的参数值按照梯度值相反的方向去更新，因为它总是往损失函数的函数值减少的方向进行的

（2）.梯度下降的再理解：

a.要求解最小值的损失函数（Loss）：

$loss = \sum_{i=1}^{n}(h_w(x_i)-y_i)^2= \sum_{i=1}^{n}(w^T*x_i+b-y_i)^2$

这里的loss function经过求和之后可能会比较大，所以在求和的基础上再求一个平均值可能会更加实用一些

b.求解梯度下降的过程及目的

我们的目的就是要得到一组最好的w′和b′,使得新的x(样本)经过这个模型的输出（w′x+b′)(这里不一定是一阶线性的),能够非常好的接近于这个模型的真实的数值y.

在这里将求解w′和b′，最终转化为求解minimize（loss）

w′和b′每一次更新的依据(求导下降)：
$w' = w - \alpha*\frac{\partial loss}{\partial w}$
$b' = w - \alpha*\frac{\partial loss}{\partial b}$

α是学习率（learning rate），需要手动指定（也就是超参数）

这里为什么要指定那个学习率（衰减因子，防止步长过大），因为进行梯度下降的时候，每一步步幅可能过大，从而跨过最低点，是用来缩小步长的。梯度的方向是指向函数值增大的方向，所以每次更新的时候是按照梯度的反方向进行更新的

$\frac{\partial loss}{\partial b}$ 表示梯度的方向.

理解：沿着这个函数下降的方向找，最后就能找到山谷的最低点（找到损失函数的最小值），然后更新W值，这个过程是一个迭代的过程（即沿着梯度下降的方向进行迭代优化）

使用场景：
面对训练数据规模十分庞大的任务

（3）举例（For instance）

求解损失函数最小值的一个过程：
在这里插入图片描述
这里上边的Function,就是Cost Function,和下边的Cost Function一样的。
下图中的 $h_{\theta}(x)=\theta_{0}+\theta_{1} x$ 就是假设的（创造出来的）
图五
在这里做一个假设：

$θ1=4；θ2=-4$
$Δθ1=8；Δθ2=-8$
$θ1′=4-0.01*8$
$θ2′=-4-0.01*(-8)$
$当θ>0时，会使θ不断减小$
$当θ<0时，会使θ不断增大$
$往θ1，θ2都为0的全局最小值点靠近$

θ1=0；θ2=0
要想通过数值计算达到这个最小值就要一步步的更新，逼近

四.梯度的几何理解

![梯度的几何理解](https://img-blog.csdnimg.cn/20191101175452421.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzQ0OTY3MTk5,size_16,color_FFFFFF,t_70***图五***

图中的曲面就是一个Loss函数，表示的假设函数与原函数的‘’距离‘’，梯度就是在该曲面上任意方向的一条线上的任意一点的切线，它的方向是向着函数值增大的方向的。（图中涉及的偏导数，方向导数再思考）