梯度下降算法总结 - 代码天地

梯度下降算法总结

其他 2018-09-11 14:18:50 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/baidu_27643275/article/details/81946959

梯度下降算法	优点	缺点
BGD（batch）	1、相对噪声低 2、凸函数可以收敛到全局小值	每更新一次参数都要遍历所有样本，计算量开销大，计算速度慢对于非凸函数收敛到局部最小值
SGD	1、收敛速度快 2、有机会跳出局部最小值	1.失去所有向量化带来的加速（无法利用矩阵操作加速计算过程） 2.噪声大 3.永远不会收敛，一直在最小值附近波动
Mini-batch SGD （一般提到的SGD是Mini-batch SGD）	BGD和SGD的折中 Batch_size比较小时，可能跳出局部最小值	不能收敛到最小值，在最小值附近波动
Momentum	收敛速度非常快	参数采用相同的学习率，对于稀疏数据不友好
Adagrad	为不同的参数设置不同的学习率，易于处理稀疏数据	学习率不断较小最终达到一个非常小的值，模型学习速度很慢
RMSprop	解决了Adagrad学习率消失的问题善于处理非平稳目标	相对于Adagrad收敛速度慢
Adam	1、结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点 2、对内存需求较小 3、也适用于大多非凸优化，适用于大数据集和高维空间	可能不收敛或者收敛到局部最小值

1.SGD + Momentum

被大量用在CNN 、NLP 问题上

2.Adam + SGD

Adam加速收敛过程，可能陷入到局部最小值或无法收敛，此时用小学习率 SGD 帮助 adam 跳出局部最小值。

猜你喜欢

转载自blog.csdn.net/baidu_27643275/article/details/81946959

梯度下降算法总结

梯度下降算法分类总结

梯度下降优化算法总结

梯度下降法算法总结

全梯度下降算法、随机梯度下降算法、小批量梯度下降算法、随机平均梯度下降算法、梯度下降算法总结

梯度下降法总结

梯度下降法总结

梯度下降总结

梯度下降学习总结

梯度下降算法

梯度下降算法小结

[ML] 梯度下降算法

梯度下降与EM算法

关于梯度下降算法

梯度下降（上升）算法

优化算法—梯度下降

梯度下降优化算法

梯度下降/上升算法

梯度下降及优化算法

梯度下降算法推导

梯度下降算法及改进

二、梯度下降算法

梯度下降的优化算法

详解梯度下降算法

梯度下降算法实战

【梯度下降算法】

深度学习领域常用optimizer总结-梯度下降算法优化

[算法] 优化算法梯度下降

优化算法之梯度下降｜Matlab实现梯度下降算法

梯度下降法推导总结

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)