1.提出问题

$\alpha$ 和 $\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ 起到的作用以及更新函数为什么是有效的？

2.简化

我们再次将 $J(\theta_0,\theta_1)$ 简化为 $(J(\theta_1))$ ,由之前的知识我们可以得到， $J(\theta_1)$ 函数是一个二次函数。如下图。

3.导数部分的工作原理

$\theta_1:=\theta_1-\alpha \frac{\partial}{\partial \theta_1}J(\theta_1)$
因为 $\alpha$ 是正数，在右边的时候导数是大于零的，所以 $\theta_1$ 是在变小的；同理，在左边的时候导数是小于零的，所以 $\theta_1$ 是在变大的；即 $\theta_1$ 的变化方向是对的，这就是 $\theta_1$ 起到的作用。
在这里插入图片描述

4.学习因子 $\alpha$ 起到的作用

4.1决定收敛的快慢

如果 $\alpha$ 太小，那么梯度下降的就比较慢，如果 $\alpha$ 太大，梯度下降可能会越过最小点，甚至发散开来
在这里插入图片描述

4.2在局部最优点的情况

在局部最优点时， $J(\theta_1)=0，\theta_1$ 更新后和原来的值一样,和我们期望的结果一致。
在这里插入图片描述

4.3梯度下降能聚焦到局部最优解，即使 $\alpha$ 不变

因为随着慢慢的靠近最低点， $J(\theta_1)$ 会慢慢的变小，收敛速度会自己慢慢地变慢。如下图所示，每一次更加接近最优解， $J(\theta_1)$ 会变小，收敛的速度会变慢
在这里插入图片描述

梯度下降（二）--机器学习

文章目录

1.提出问题

2.简化

3.导数部分的工作原理

4.学习因子 $\alpha$ 起到的作用

4.1决定收敛的快慢

4.2在局部最优点的情况

4.3梯度下降能聚焦到局部最优解，即使 $\alpha$ 不变

猜你喜欢

梯度下降（二）--机器学习

文章目录

1.提出问题

2.简化

3.导数部分的工作原理

4.学习因子 α \alpha α起到的作用

4.1决定收敛的快慢

4.2在局部最优点的情况

4.3梯度下降能聚焦到局部最优解，即使 α \alpha α不变

猜你喜欢

4.学习因子 $\alpha$ 起到的作用

4.3梯度下降能聚焦到局部最优解，即使 $\alpha$ 不变