【机器学习（李宏毅）】四、Gradient Descent - 代码天地

【机器学习（李宏毅）】四、Gradient Descent

其他 2018-11-01 01:31:09 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/abc8730866/article/details/70332091

课题：Gradient Descent

Review：Gradient Descent

任务是：求解使得损失函数 $L（\theta）$ 最小时的 $\theta$ 参数 $\theta ^{*}$ 。 $L$ 为损失函数； $\theta$ 为模型中的参数。
假设 $\theta$ 有两个变量 ${\theta _{1},\theta _{2}}$
看PPT，能理解 $\theta ^{2}=\theta ^{1}-\eta \bigtriangledown L(\theta ^{1})$ 中的每一项就行。

这里写图片描述

梯度下降的步骤

这里写图片描述

Tip1：Tunning your learning rates

这里写图片描述
对于Learning Rate，左右两个图表达的是一个意思：

对于small的learning tate，Loss会下降很缓慢。
对于large的learning tate，Loss会一开始下降比较快，但会停住，不再下降。
对于very large的learning tate，Loss会爆炸，无法下降。
对于just make的learning tate，Loss会以一个适当的速度下降，且能降到最低点。

这里写图片描述

Adaptive Learning Rates

流行且简单的想法：每几个周期，通过一些因素，减少学习率。

在一开始，离目标地点较远，所以用较大的学习率。
在一些周期之后，我们接近于目标地点，所以我们减少学习率。
例如： $\eta$ 是一个常量，t为第t个周期。 $\eta ^{t}=\eta /\sqrt{t+1}$

学习率不可能 one-size-fits-all：

给不同的参数，不同的学习率

这里写图片描述

Adagrad

对每一个参数的学习率，除以它之前导数的均方差
注意理解公式 $\eta ^{t}$ ， $\eta ^{t}$ 就是第t个周期的学习率
注意理解公式 $g^{t}$ , $g^{t}$ 是损失函数 $L$ 对 $w$ 的偏微分
注意理解公式 $\sigma ^{t}$ ， $\sigma ^{t}$ 是参数 $w$ 之前所有导数的均方差。
总之，理解Adagrad方法对于参数 $w$ 更新公式中的每一项：
$w^{t+1}\leftarrow w^{t}-\frac{\eta ^{t}}{\sigma ^{t}}g^{t}$

这里写图片描述

继续演示Adagrad方法，对于参数 $w$ 的更新步骤:

这里写图片描述

Adagrad方法中，对参数 $w$ 更新公式的简化写法:公式见图

这里写图片描述

Contradiction？

对Adagrad方法中，参数w更新公式矛盾性的讨论。

$g^{t}$ 使得：更大的梯度，更大的步长
XXX（分母项，之前所有倒数的均方差）使得：更大的梯度，更小的步长

这里写图片描述

Intuitive Reason

直觉的解释是：XXXX（分母项，之前所有倒数的均方差）是为了造成反差萌（原话）

这里写图片描述

Larger gradient，large steps？

更大的一次导数意味着离最小值更远（可以从图像看出，不管是第一象限，还是第二象限，离最小值越远的点，导数值越大）

这里写图片描述

Comparsion between different parameters

上一张ppt得出的结论“更大的一次导数意味着离最小值更远”是不能跨参数的。反例如图所示。

这里写图片描述

Second Derivative

二次导数的值即是最佳步长的分母项。
所以最佳步长应该：与一次导数成正比，与二次导数成反比。

这里写图片描述

结合图，解释最佳步长。
在w1方向上，二次微分是比较小的，因为比较平滑
在w2方向上，二次微分比较大，因为比较尖
还是要综合考虑一次微分和二次微分，才能考虑同最低点的距离

这里写图片描述

抛出疑问：Adagrad里面XXXX项，和最佳步长中二次倒数的关系是啥？
Adagrad就是用XXXX去估计二次微分，因为之前所有的一次微分 $g^{i}$ 是必须要算的，不算二次微分可以极大减少计算量。

Tip2：Stochastic Gradient Descent

make the traing faster

这里写图片描述

Stochastic Gradient Descent

注意理解ppt中公式。
梯度下降： $\theta$ 的更新时，损失函数值是所有训练样本的和。
随机梯度下降： $\theta$ 的更新时，损失函数值只是对于某一个样本 $x^{n}$ 。看一个样本，就更新一次参数。

这里写图片描述
对比：

梯度下降：看到所有样本之后，更新参数。
随机梯度下降：看到一个样本，更新一次。如果有20个样本，那就快20倍。

这里写图片描述

Tip3：Feature Scaling

这里写图片描述

如图，让不同的参数有同样的scaling。

这里写图片描述
是否进行Feature Scaling的对比：

做了Feature Scaling之后，参数的更新会比较容易，一直向着圆心走，更有效率。

这里写图片描述
Feature Scaling的方法：

$x_{r}^{i}\leftarrow \frac{x_{r}^{i}-m^{i}}{\sigma ^{i}}$
均值为0，方差为1

这里写图片描述

Gradient Descent Theroy：

这里写图片描述

提问：每次更新参数之后，都会得到更小的损失值吗？
答案是否定的

这里写图片描述

Waring of Math

以下几张ppt，从数学角度（主要是泰勒级数）解释了梯度下降的合理性。

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

More limitation of Gradient Descent

见图，在plateau、saddle point、local minimum处， $w$ 对 $L$ 的偏微分都近似于0，loss下降极慢，都会使人误以为到了loss最小点。

这里写图片描述

猜你喜欢

转载自blog.csdn.net/abc8730866/article/details/70332091

【机器学习（李宏毅）】四、Gradient Descent

李宏毅机器学习 -2017- Gradient Descent

【笔记】机器学习 - 李宏毅 - 4 - Gradient Descent

李宏毅机器学习笔记---Gradient Descent

李宏毅机器学习笔记（4）： Gradient descent

【李宏毅机器学习笔记】3、gradient descent

李宏毅机器学习笔记2：Gradient Descent

【台大李宏毅|ML】Gradient Descent

李宏毅机器学习笔记-3 梯度下降（Gradient Descent）

李宏毅机器学习课程笔记1：Regression、Error、Gradient Descent

3、【李宏毅机器学习（2017）】Gradient Descent（梯度下降）

李宏毅机器学习笔记2：Gradient Descent(附带详细的原理推导过程）

李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gradient Descent

李宏毅机器学习HW1_pm2.5prediction（adagrad/gradient descent/SGD）

[李宏毅-机器学习]梯度下降Graident Descent

李宏毅机器学习P7 Gradient Descent (Demo by AOE) 笔记、P8 Gradient Descent (Demo by Minecraft) 笔记

台大李宏毅--梯度下降Gradient Descent

李宏毅Gradient Descent（lecturte3）课堂笔记

李宏毅深度学习笔记（二）随机梯度下降(Stochastic Gradient Descent)

Gradient descent

李宏毅2017机器学习homework1-利用gradient descent拟合宝可梦CP值代码并利用adagrad进行优化

Learning to learn by gradient descent by gradient descent 笔记

The Gradient Descent---梯度下降（Gradient Descent）

机器学习：梯度下降gradient descent

机器学习笔记——梯度下降（Gradient Descent）

机器学习1：梯度下降（Gradient Descent）

【机器学习】梯度下降（Gradient Descent）小结

机器学习1 -- 梯度下降（Gradient Descent）

机器学习-梯度下降Gradient Descent

机器学习(4) 梯度下降Gradient descent

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)