Gradient Descent with Momentum - 代码天地

Gradient Descent with Momentum

其他 2018-07-09 20:38:54 阅读次数: 0

在Batch Gradient Descent及Mini-batch Gradient Descent, Stochastic Gradient Descent(SGD)算法中，每一步优化相对于之前的操作，都是独立的。每一次迭代开始，算法都要根据更新后的Cost Function来计算梯度，并用该梯度来做Gradient Descent。

Momentum Gradient Descent相较于前三种算法，虽然也会根据Cost Function来计算当前的梯度，但是却不直接用此梯度去做Gradient Descent。而是赋予该梯度一个权值，并综合考虑之前N次优化的梯度，得到一个加权平均的移动平均值(Weighted Moving Average)，并以此来作为Gradient Descent的参数。

这里使用Exponential Moving Average(EMA)来计算该加权平均值，公式为：

dW为本次计算出的梯度值，beta是衰减因子。如果将上式展开，可以得到：

根据β值的大小，可以得出大致纳入考虑范围的步数为1/(1-β)，β值越大，步数约多，反之则窗口约窄。

EMA算法的优点：

1.EMA会减小算法的震荡

2.在实现上也非常有效率，比起Simple Moving Average，EMA所用的存储空间小，并且每次迭代中使用一行代码即可实现。

不过，β成为了除α外的又一个Hyperparameter，调参要更难了。

猜你喜欢

转载自www.cnblogs.com/rhyswang/p/9284171.html

Gradient Descent with Momentum

Gradient Descent、Momentum、Nesterov的实现及直觉对比

机器学习中的数学——优化技术：优化算法-[Momentum（Gradient Descent with Momentum, GDM）]

Gradient descent

Deep learning II - II Optimization algorithms - Gradient descent with momentum 动量梯度下降算法

Learning to learn by gradient descent by gradient descent 笔记

The Gradient Descent---梯度下降（Gradient Descent）

【调参炼丹】深度学习中优化方法对比（BGD,SGD,Mini-batch gradient descent，Momentum, RMSProp, Adam）

梯度下降（Gradient Descent）

梯度下降 — Gradient Descent

梯度下降 Gradient Descent

Gradient Descent Vectorization

Gradient Descent (二)

Lecture 3 - Gradient Descent

Gradient descent and others

Stochastic Gradient Descent

Greedy Algorithm and Gradient Descent

Taylor Series and Gradient Descent

Introduction Of Gradient Descent

（2017 ICML）Learning to learn without gradient descent by gradient descent笔记

梯度下降（Gradient Descent）小结

A review of gradient descent optimization methods

An overview of gradient descent optimization algorithms

梯度下降法 Gradient Descent

（二）梯度下降(Gradient Descent)

3、Gradient Descent（梯度下降）

深入梯度下降(Gradient Descent)

梯度下降（Gradient Descent）（三）

梯度下降（Gradient Descent）（二）

梯度下降（Gradient Descent）（一）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)