梯度下降算法小结

其他 2018-05-24 04:29:29 阅读次数: 2

梯度下降一类算法小结

标签（空格分隔）：梯度下降

以下内容为*An overview of gradient descent optimization
algorithms*读后笔记

梯度下降算法变种

算法概览

最经典的梯度下降算法有:1.梯度下降(Batch gradient descent) 2. 随机梯度下降(Batch gradient descent) 3. mini-batch梯度下降(Mini-batch gradient descent)

算法的缺点

Batch梯度下降, 当遍历计算整个数据集的梯度时候后, 对参数只进行了一次更新,梯度下降很可能变得很慢,同时对于数据集很大的时候内存可能不足.
随机梯度下降每次训练一个数据的时候就会更新一下参数.更新速度比1更快,同时1在更新的时候对相似的数据会存在计算冗余.

Batch gradient descent performs redundant computations for large datasets, as it recomputes gradients for similar examples before each parameter update. SGD does away with this redundancy by performing one update at a time.
mini-batch梯度下降是1和2的折中,减少了参数更新时候的variance,一般mini-batch size设置为50-256.但是他不能保证很好的收敛性.

梯度下降的挑战

小的学习率导致学习慢, 大的学习率导致最优解附近波动
制定学习率表来动态调节, 这个表必须预先定义, 所以不能够捕捉到数据集的一些特征
所有参数都是相同的学习率, 如果数据很稀疏,特征都有着不同的频率, 就不能以相同的学习率来更新他们
当最小化非凸函数的时候, 会遇到很多次优解,必须防止无法跳出次优点.然而问题最大的就是马鞍点

梯度下降的优化算法

1. Momentum

Momentum
如上图,带有冲量的sgd能够很快进入最优值附近

2. NAG(Nesterov accelerated gradient )

NAG1
NAG1

带有预测的冲量, 想象一下快到最优解附近的时候,如果最优解附近梯度比较大,那么这里步伐就会很大导致很久才收敛,先预测未来的梯度来优化???还没有合理解释,显著增加了RNN的性能

3. Adagrad

之前所有参数的学习率都是相同的,这显然是不合理的,对于稀疏数据,对变化频率大的数据应该使用小的学习率,变化频率小的数据应该使用大的学习率
Adagrad
这里G是一个对角矩阵, $G_ii是\theta _{t,i}$ 的根号和,这就能反应变化快慢

但是这个算法有一个缺点就是, 他的学习率是一直衰减的!!!

4. Adadelta

他是Adagrad算法的改进, 主要改进Adagrad算法的激进以及一直衰减的学习率

第一步优化,其中分母是RMS形式
Adadelta

第二步,作者发现什么了???
Adadelta
假设空间之类的,在分子添加了RMS(delta)

5. RMSprop

RMSprop
这个算法是Hinton自己独立想出来的一个算法,和上一个算法有着相同想法

6. Adam

这个算法和之前动量想法一样,分别构造了 $g, g^2$ 的动量
Adam1
同时为了无偏估计,除以了一个系数
Adam2
Adam3

7. AdaMax

对Adam分母V_t进行了泛化,原来的形式相当于L2正则,现在改为LP正则,并让p趋于无穷大

8. Nadam

这里Dozat修改了NAG的算法,将原来对梯度提前的预估改为对动量的预估

这里NAG2在和最原始的冲量对比,发现只是修改了对比the momentum update rule 只是多一个梯度

那么将这种变化应用到Adam就可以得到Nadam

这里只是原本t-1时刻m的估计改为t时刻m的估计

参考文献
1. An overview of gradient descent optimization algorithms
2. Deep learning via Hessian-free optimization

猜你喜欢

转载自blog.csdn.net/xfzero/article/details/79598839

梯度下降算法小结

梯度下降法小结

梯度下降小结

梯度下降原理小结

梯度下降（Gradient Descent）小结

梯度下降算法

[ML] 梯度下降算法

梯度下降与EM算法

关于梯度下降算法

梯度下降（上升）算法

梯度下降算法总结

优化算法—梯度下降

梯度下降优化算法

梯度下降/上升算法

梯度下降及优化算法

梯度下降算法推导

梯度下降算法及改进

二、梯度下降算法

梯度下降的优化算法

详解梯度下降算法

梯度下降算法实战

【梯度下降算法】

[算法] 优化算法梯度下降

最优化：梯度下降（Gradient Descent）小结

线性回归及其梯度下降法（小结）

梯度下降小结（Gradient Descent，GD）

【机器学习】梯度下降（Gradient Descent）小结

神经网络梯度下降优化算法及初始化方法小结

优化算法之梯度下降｜Matlab实现梯度下降算法

梯度下降算法2 学习率梯度

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)