Gradient Descent (二) - 代码天地

Gradient Descent (二)

其他 2019-01-22 20:37:48 阅读次数: 0

我们做Gradient Descent 需要注意什么呢？

Tuning your learning rates

η的大小控制不好，会造成很多问题：

如果η太小，我们w的移动速度太慢，而且会对数据量有一定要求

而如果太大了呢，w会一直在未走到最低点之前震荡，而无法走到最低点

甚至是这样：

我们可以把参数的update和Loss值做一个曲线：

那有什么办法可以自动调节learning rate呢？

最基本的思路：learning rate随着参数的update越来越小。

因为通常在开始的时候，我们设置的参数往往距离最低点比较远，随着update，距离最低点会越来越

近，也就更加“谨慎”一些

用一个简单的式子可以表达成这样：

也就是说，每个点都有一个不同的learning rate。

对求learning rate的方法中，一个比较简单的就是Adagrad

什么是Adagrad呢？

即learning rate等于它除以之前所有微分值的均方根

在我们之前的Gradient descent中，

而在Adagrad中：，其中

然后约分一下：

但是，如果仔细观察这个式子，就会发现一些问题，在我们最开始的式子中，我们可以理解的：当斜率g越大时，w走一步跨的步子越大，但在我们刚刚得出的式子中，分子和分母中都存在g，是不是互相矛盾呢？

一种解释是说Adagrad强调的是本次数据相对于其他数据的反差

Stochastic Gradient Descent

在原来的Gradient Descent中，我们是计算完所有的数据loss之后，update一次参数

而在Stochastic Gradient Descent中，我们计算每个数据的loss，每个都update一次参数

Feature Scaling

对，如果x2比x1大很多，那就把x2的值缩小，让x1和x2对y的影响程度相似

y

那具体怎么做呢？

至于Gradient Descent的数学理论基础，可以看一下泰勒公式......这个我们以后有空再说

PS：学习笔记，仅用于个人学习。图片来自李老师的ppt

猜你喜欢

转载自blog.csdn.net/li_k_y/article/details/83926991

Gradient Descent (二)

（二）梯度下降(Gradient Descent)

梯度下降（Gradient Descent）（二）

Gradient descent

（二）深入梯度下降(Gradient Descent)算法

Learning to learn by gradient descent by gradient descent 笔记

The Gradient Descent---梯度下降（Gradient Descent）

梯度下降（Gradient Descent）

Gradient Descent with Momentum

梯度下降 — Gradient Descent

梯度下降 Gradient Descent

Gradient Descent Vectorization

Lecture 3 - Gradient Descent

Gradient descent and others

Stochastic Gradient Descent

Greedy Algorithm and Gradient Descent

Taylor Series and Gradient Descent

Introduction Of Gradient Descent

（2017 ICML）Learning to learn without gradient descent by gradient descent笔记

梯度下降（Gradient Descent）小结

A review of gradient descent optimization methods

An overview of gradient descent optimization algorithms

梯度下降法 Gradient Descent

3、Gradient Descent（梯度下降）

深入梯度下降(Gradient Descent)

梯度下降（Gradient Descent）（三）

梯度下降（Gradient Descent）（一）

梯度下降法(Gradient descent)

梯度下降算法（Gradient Descent)

梯度下降（gradient descent）原理

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)