优化算法optimization：AdaDelta

其他 2021-12-11 08:36:45 阅读次数: 0

AdaDelta算法

提出动机

除了RMSProp算法以外，AdaDelta算法的提出也是为了解决AdaGrad算法在迭代后期较难找到有用解的问题。

算法

AdaDelta算法也像RMSProp算法一样，使用了小批量随机梯度 $g_t$ 按元素平方的指数加权移动平均变量 $s_t$ ，这里的 $\rho$ 类似RMSProp中的 $\gamma$ 。但有意思的是，AdaDelta算法没有学习率这一超参数。另外，AdaDelta算法还维护一个额外的状态变量 $\Delta x_t$ ，其元素同样在时间步0时被初始化为0。

对每次迭代做如下改动
$s_t = \rho s_{t-1} + (1-\rho) g_t \circ g_t \\\\ g_t' = \sqrt{\frac{\Delta x_{t-1}+\epsilon}{s_t+\epsilon}} \circ g_t\\\\ x_t = x_{t-1} - g_t' \\\\ \Delta x_{t} = \rho \Delta x_{t-1} + (1-\rho) g_t' \circ g_t'$
可以看到，如不考虑 $\epsilon$ 的影响，AdaDelta算法与RMSProp算法的不同之处在于使用 $\sqrt{\Delta x_{t−1}}$ 来替代超参数 $\eta$ 。 $\rho$ 的取值一般在 $[0.9, 0.99]$ 。

代码实现

def init_adadelta_states(dim=2):
    s_w = np.zeros((dim, 1))
    s_b = np.zeros(1)
    delta_w = np.zeros((dim, 1))
    delta_b = np.zeros(1)
    return (s_w, delta_w), (s_b, delta_b)

def adagrad(params, states, hyperparams, eps=1e-5):
    rho = hyperparams['rho']
    for p, (s,delta) in zip(params, states):
        s[:] += rho * s + (1 - rho) * p.grad * p.grad
        g = (math.sqrt(delta + eps) / (math.sqrt(s + eps)) * p.grad
        p[:] -= g
        delta[:] = rho * delta + (1 - rho) * g * g

Reference

Dive Into Deep Learning，第7章

猜你喜欢

转载自blog.csdn.net/qq_40136685/article/details/111189928

优化算法optimization：AdaDelta

优化算法optimization：AdaGrad

优化算法optimization：RMSProp

优化算法optimization：Adam

深度学习常用优化算法：SDG、Nesterov、Adagrad、AdaDelta、Adam

SMO优化算法（Sequential minimal optimization）

【深度学习笔记】优化算法（ Optimization Algorithm）

梯度优化算法（gradient descent optimization algorithms）

粒子群优化算法（Particle Swarm Optimization）

第二周：优化算法 (Optimization algorithms)

优化算法optimization：SGD动量法momentum

Colorization using Optimization：基于优化的上色算法

海鸥优化算法（Seagull Optimization Algorithm，SOA）

白鲸优化算法（Beluga whale optimization，BWO）

算术优化算法（Arithmetic Optimization Algorithm，AOA）

鲸鱼优化算法（Whale Optimization Algorithm，WOA）

【推荐算法】常见优化算法总结（BGD、SGD、Momentum、Nesterov、Adagrad、AdaDelta、Adam）

深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

6种机器学习中的优化算法：SGD,牛顿法,SGD-M,AdaGrad,AdaDelta,Adam

深度学习系列（七）优化算法（梯度下降、动量法、AdaGrad算法、RMSProp算法、AdaDelta算法、Adam算法） 2020.6.24

ADADELTA

进化算法中的粒子群优化算法（Particle Swarm Optimization）

Optimization algorithms(优化算法)---deeplearning.ai---笔记（17）

NILM-组合优化算法 combinationrial optimization（附代码）

Sequential Minimal Optimization（SMO，序列最小优化算法）初探

粒子群优化(Particle Swarm Optimization, PSO)算法

森林优化算法(forest optimization algorithm,简称 FOA）

手推序列最小优化（sequential minimal optimization，SMO）算法

近端策略优化（proximal policy optimization）算法简述

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)