优化算法optimization：AdaGrad

其他 2021-12-11 08:36:46 阅读次数: 0

AdaGrad算法

提出动机

在SGD的每次迭代中，目标函数自变量的每一个元素在相同时间步都使用同一个学习率来进行迭代。我们考虑一个二维输入向量 $x = [x_1,x_2]^T$ 和目标函数$f(x) $。
$x_1 = x_{1} - \eta \frac {\partial f} {\partial x_1} \\\\ x_2 = x_{2} - \eta \frac {\partial f} {\partial x_2}$
由于自变量在不同维度上的梯度不同，我们可以据此调整各个维度上的学习率，从而避免统一的学习率难以适应所有维度的问题。

算法

在时间步 $t$ 使用小批量随机梯度为 $g_t$ 按元素平方的累加变量 $s_t$ ，在时间步0可以初始化 $s_0$ 为0。为了维持数值稳定，我们引入一个常数 $\epsilon$ 。圆圈代表按元素相乘(element-wise multiplication)。对每次迭代做如下改动
$s_t = s_{t-1} + g_t \circ g_t\\\\ x_t = x_{t-1} - \frac{\eta}{\sqrt{s_t+\epsilon}} \circ g_t$
我们仍然用动量法中用来举例的目标函数观察迭代轨迹。

def adagrad_2d(x1, x2, s1, s2, eta=0.4):
    g1, g2 = 0.2 * x1, 4 * x2  ## 自变量梯度
    eps = 1e-6  
    s1 += g1 ** 2
    s2 += g2 ** 2
    x1 -= eta / math.sqrt(s1 + eps) * g1
    x2 -= eta / math.sqrt(s2 + eps) * g2
    return x1, x2, s1, s2

我们将学习率分布为0.4和2的情况进行比较。

我们发现，学习速率为2的时候快速收敛，并没有发散。

AdaGrad算法在迭代过程中不断调整学习率，并让目标函数自变量中每个元素都分别拥有自己的学习率。使用AdaGrad算法时，自变量中每个元素的学习率在迭代过程中一直在降低（或不变）。

代码实现

def init_adagrad_states(dim=2):
    s_w = np.zeros((dim, 1))
    s_b = np.zeros(1)
    return (s_w, s_b)

def adagrad(params, states, hyperparams):
    eps = 1e-6
    for p, s in zip(params, states):
        s[:] += p.grad * p.grad
        p[:] -= hyperparams['lr'] * p.grad / np.sqrt(s + eps)

Reference

Dive Into Deep Learning，第7章

猜你喜欢

转载自blog.csdn.net/qq_40136685/article/details/111189927

优化算法optimization：AdaGrad

优化算法optimization：RMSProp

优化算法optimization：Adam

优化算法optimization：AdaDelta

机器学习中的数学——优化技术：优化算法-[AdaGrad]

【pytorch优化器】Adagrad、RMSProp优化算法详解

「Deep Learning」Note on ADAGrad（比vanilla SGD好的优化算法）

优化算法总结 -- SGD，Momentum，AdaGrad，RMSProp，Adam

深度学习常用优化算法：SDG、Nesterov、Adagrad、AdaDelta、Adam

优化算法选择：SGD、SGDM、NAG、Adam、AdaGrad、RMSProp、Nadam

SMO优化算法（Sequential minimal optimization）

【深度学习笔记】优化算法（ Optimization Algorithm）

梯度优化算法（gradient descent optimization algorithms）

粒子群优化算法（Particle Swarm Optimization）

第二周：优化算法 (Optimization algorithms)

优化算法optimization：SGD动量法momentum

Colorization using Optimization：基于优化的上色算法

海鸥优化算法（Seagull Optimization Algorithm，SOA）

白鲸优化算法（Beluga whale optimization，BWO）

算术优化算法（Arithmetic Optimization Algorithm，AOA）

鲸鱼优化算法（Whale Optimization Algorithm，WOA）

进化算法中的粒子群优化算法（Particle Swarm Optimization）

【推荐算法】常见优化算法总结（BGD、SGD、Momentum、Nesterov、Adagrad、AdaDelta、Adam）

深度学习优化方法-AdaGrad

深度学习系列（七）优化算法（梯度下降、动量法、AdaGrad算法、RMSProp算法、AdaDelta算法、Adam算法） 2020.6.24

[深度学习]梯度下降算法、优化方法（SGD,Adagrad,Adam...)

优化算法比较的实验结果比较（BGD，SGD，MBGD，Momentum，Nesterov，Adagrad，RMSprop）

深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

6种机器学习中的优化算法：SGD,牛顿法,SGD-M,AdaGrad,AdaDelta,Adam

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)