几种优化算法的比较（BGD、SGD、Adam、RMSPROP）

编程语言 2019-03-07 17:47:04 阅读次数: 0

几种优化算法

下面主要讲解BGD、SGD、MBGD、momentum、指数加权平均、RMSprop、Adam、NGD

学习率是 $\alpha$

全部框架是梯度下降法： $w_{t}=w_{t-1}-\alpha dw_{{t-1}}$

BGD(batch gradient descent)

算法： $\theta _{t}=\theta_{t-1}-\alpha\bigtriangledown _{\theta_{t-1}}J(\theta_{t-1})$

特点：采用整个训练集的数据来计算 cost function 对参数的梯度，当数据集小于2000时（小数据集）使用。全局最优解；易于并行实现。从迭代的次数上来看，BGD迭代的次数相对较少。

缺点：由于这种方法是在一次更新中，就对整个数据集计算梯度，所以计算起来非常慢，遇到很大量的数据集也会非常棘手，而且不能接收新数据时更新模型。

SGD（stochastic gradient descent）

算法： $\theta _{t}=\theta_{t-1}-\alpha\bigtriangledown _{\theta_{t-1}}J(\theta_{t-1},x^{i},y^{i})$

特点：每次更新时对每个样本进行梯度更新。训练速度比较快，并且可以新增样本。SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。

缺点：准确度下降，并不是全局最优；不易于并行实现。 SGD 因为更新比较频繁，会造成 cost function 有严重的震荡。BGD 可以收敛到局部极小值，当然 SGD 的震荡可能会跳到更好的局部极小值处。当我们稍微减小 learning rate，SGD 和 BGD 的收敛性是一样的。

MBGD（mini-batch gradient descent）

算法： $\theta _{t}=\theta_{t-1}-\alpha\bigtriangledown _{\theta_{t-1}}J(\theta_{t-1},x^{i:i+n},y^{i:i+n})$

特点：每次更新时对一批样本进行梯度更新。这样它可以降低参数更新时的方差，收敛更稳定，另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。当数据集大于2000使用

扫描二维码关注公众号，回复： 5454368 查看本文章

初衷：上面两种算法的均衡，算法的训练过程比较快，而且也要保证最终参数训练的准确率

缺点：不能保证很好的收敛性

指数加权平均（exponentially weighted average）

$v_{t}=\beta v_{t-1}+(1-\beta)x_{t}$

如果是用每一天的温度，第一天温度： $x_{1}$ ，第二天温度： $x_{2}$ ，第三天温度： $x_{3}$ ，......

初始化 $v_{0}=0$ ，

$v_{t}$ 表示温度的局部平均值，比如说第一天的平均温度是 $v_{1}$ ,第二天的平均温度是 $v_{2}$ ，......。那么每一天对应的平均温度画出来的图形就能描述温度的变化趋势

特点：来计算局部的平均值，来描述数值的变化趋势

算法可参考：https://blog.csdn.net/sinat_29957455/article/details/81175894

Momentum（动量梯度）

算法：对梯度进行动量

$w_{t}=w_{t-1}-\alpha v_{t}$

$v_{t}=\beta v_{t-1}+(1-\beta)dw_{t-1}$

初始化： $v_{0}=0$

NAG（Nesterov Accelerate Gradient）

$w_{t}=w_{t-1}-\alpha dw_{t-1}+\beta v_{t}$

$v_{t}=\beta v_{t-1}-\alpha dw_{t-1}$

初始化： $v_{0}=0$

特点：初始位置（第一项），按照原来的更新方向更新一步（最后一项），然后在该位置计算梯度值（中间项），则在计算梯度时，不是在当前位置，而是新的位置上。比动量法更快的到达收敛点。

RMSprop（root mean square prop）均方根

只是对梯度的系数进行变化

$w_{t}=w_{t-1}-\alpha \frac{dw_{t-1}}{\sqrt{s_{t}}+\varepsilon }$ ε 是为了防止分母为0，通常取 1e−6

$s_{t}=\beta s_{t-1}+(1-\beta)(dw_{t-1})^{2}$

初始化： $s_{0}=0$ ，β 默认值设为 0.9，学习率 α 默认值设为 0.001

Adam（Adaptive Moment Estimation）

就是在 RMSprop 的基础上加了 bias-correction 和 momentum

$w_{t}=w_{t-1}-\alpha \frac{v_{t}^{corrected}}{\sqrt{s_{t}^{corrected}}+\varepsilon }$

$v_{t}=\beta_{1} v_{t-1}+(1-\beta_{1})dw_{t-1}$

$s_{t}=\beta_{2} s_{t-1}+(1-\beta_{2})(dw_{t-1})^{2}$

$s_{t}^{corrected}=\frac{s_{t}}{1+\beta_{2}^{t}}$ 偏差修正使得计算更加准确

$v_{t}^{corrected}=\frac{v_{t}}{1+\beta_{1}^{t}}$

几个参数推荐的默认值分别为：α=0.001，β1=0.9，β2=0.999，ε=10−8。t 是迭代次数，每个mini-batch后，都要进行 t += 1。

特点：Kingma et al表明带偏差修正的Adam算法稍微好于RMSprop。总之，Adam算法是一个相当好的选择，通常会得到比较好的效果。但是RMSprop的梯度是不带动量的算法。

猜你喜欢

转载自blog.csdn.net/zz2230633069/article/details/88296448

几种优化算法的比较（BGD、SGD、Adam、RMSPROP）

机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

优化算法比较的实验结果比较（BGD，SGD，MBGD，Momentum，Nesterov，Adagrad，RMSprop）

【深度学习】深入理解优化器Optimizer算法（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)

优化算法总结 -- SGD，Momentum，AdaGrad，RMSProp，Adam

优化算法选择：SGD、SGDM、NAG、Adam、AdaGrad、RMSProp、Nadam

SGD ,Adam,momentum等优化算法比较

优化方法：SGD，Momentum，AdaGrad，RMSProp，Adam

【调参炼丹】深度学习中优化方法对比（BGD,SGD,Mini-batch gradient descent，Momentum, RMSProp, Adam）

【机器学习】P17 梯度下降与梯度下降优化算法（BGD 等与 Adam Optimizer、AdaGrad、RMSProp）

深度学习框架tensorflow学习与应用6（优化器SGD、ADAM、Adadelta、Momentum、RMSProp比较）

【推荐算法】常见优化算法总结（BGD、SGD、Momentum、Nesterov、Adagrad、AdaDelta、Adam）

Optimizer(BGD,SGD,MBGD,Momentum,NAG,Adagrad,Adadelta,RMSprop,Adam)详解

Loss优化方法：SGD，Momentum，AdaGrad，RMSProp，Adam

优化方法总结：SGD，Momentum，AdaGrad，RMSProp，Adam

0_4-优化方法-SGD、AdaGrad、RMSProp、Adadelta、Adam

几个优化器的使用SGD,Momentum,RMSprop,AdaGrad,Adam

深度学习优化算法：动量、RMSProp、Adam

CS231n课程笔记6.1：优化迭代算法之SGD,Momentum,Netsterov Momentum,AdaGrad,RMSprop,Adam

神经网络中的优化算法(BGD、SGD、MBGD、动量(Momentum)、NAG、Adagrad、AdaDelta、Adam、AMSGrad、牛顿法)、如何选择神经网络的优化算法

各种梯度下降 bgd sgd mbgd adam

几种优化方法总结---Momentum，AdaGrad，RMSProp，Adam

神经网络优化方法总结：SGD，Momentum，AdaGrad，RMSProp，Adam

深度学习 --- 优化入门二（SGD、动量(Momentum)、AdaGrad、RMSProp、Adam详解）

[转载]机器学习优化方法总结：SGD，Momentum，AdaGrad，RMSProp，Adam

Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam

各种优化方法：SGD、动量梯度下降法Momentum、Adagrad, RMSprop, Adam

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)