梯度下降(二)--机器学习

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xd15010130025/article/details/88756945


在这里插入图片描述

1.提出问题

α \alpha θ j J ( θ 0 , θ 1 ) \frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1) 起到的作用以及更新函数为什么是有效的?

2.简化

我们再次将 J ( θ 0 , θ 1 ) J(\theta_0,\theta_1) 简化为 ( J ( θ 1 ) ) (J(\theta_1)) ,由之前的知识我们可以得到, J ( θ 1 ) J(\theta_1) 函数是一个二次函数。如下图。

3.导数部分的工作原理

θ 1 : = θ 1 α θ 1 J ( θ 1 ) \theta_1:=\theta_1-\alpha \frac{\partial}{\partial \theta_1}J(\theta_1)
因为 α \alpha 是正数,在右边的时候导数是大于零的,所以 θ 1 \theta_1 是在变小的;同理,在左边的时候导数是小于零的,所以 θ 1 \theta_1 是在变大的;即 θ 1 \theta_1 的变化方向是对的,这就是 θ 1 \theta_1 起到的作用。
在这里插入图片描述

4.学习因子 α \alpha 起到的作用

4.1决定收敛的快慢

如果 α \alpha 太小,那么梯度下降的就比较慢,如果 α \alpha 太大,梯度下降可能会越过最小点,甚至发散开来
在这里插入图片描述

4.2在局部最优点的情况

在局部最优点时, J ( θ 1 ) = 0 θ 1 J(\theta_1)=0,\theta_1 更新后和原来的值一样,和我们期望的结果一致。
在这里插入图片描述

4.3梯度下降能聚焦到局部最优解,即使 α \alpha 不变

因为随着慢慢的靠近最低点, J ( θ 1 ) J(\theta_1) 会慢慢的变小,收敛速度会自己慢慢地变慢。如下图所示,每一次更加接近最优解, J ( θ 1 ) J(\theta_1) 会变小,收敛的速度会变慢
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/xd15010130025/article/details/88756945