GD(gradient descent):梯度下降法(BGD,SGD,mini-batch GD) - 代码天地

GD(gradient descent):梯度下降法(BGD,SGD,mini-batch GD)

其他 2020-03-28 16:48:18 阅读次数: 0

梯度下降法(GD,gradient descent)是一种优化方法，比如对某个损失函数进行最小化的优化。
其共有三种：

BGD,batch gradient descent:批量梯度下降
SGD,stochastic gradient descent:随机梯度下降
mini-batch GD,mini-batch gradient descent:小批量梯度下降

BGD

假设有损失函数：
$f(\alpha_{0},\alpha_{1},...,\alpha_{n},)=\frac{1}{m}\sum_{m}^{j=0}(\hat{y}-y)^{2}$
$\hat{y}$ 是预测值， $y$ 是真实值，共有 $m$ 个预测值。
若要最小化损失函数，需要对每个参数 $\alpha_{0},\alpha_{1},...,\alpha_{n}$ 求梯度，但是对BGD通常是取所有训练样本损失函数的平均作为损失函数，假设有 $\beta$ 个样本，则
$F(\alpha_{0},\alpha_{1},...,\alpha_{n})=\frac{1}{\beta}\sum_{\beta}^{i=0}f_{i}(\alpha_{0},\alpha_{1},...,\alpha_{n})$
所以有梯度更新：
$\alpha_{i}=\alpha_{i}-l\cdot\frac{\partial F(\alpha_{0},\alpha_{1},...,\alpha_{n})}{\partial \alpha_{i}}$
$\frac{\partial F(\alpha_{0},\alpha_{1},...,\alpha_{n})}{\partial \alpha_{i}}$ 是损失函数对参数 $\alpha_{i}$ 的偏导数， $l$ 为学习率，即步长，是一个经验值，过大容易找不到相对最优解，过小会使得优化速度过慢，见到一个这样的形容：学习率如人走路，步伐小要急死，步伐大容易扯着蛋hahaha

SGD

如果使用BGD会有一个问题，就是每次迭代过程中都要对几个样本进行求梯度，所以开销非常大，随机梯度下降的思想就是随机采样一个样本来更新参数，注意只是一个样本，大大的降低了计算开销。

mini-batch GD

SGD虽然提高了计算效率，降低了计算开销，但由于每次迭代只随机选择一个样本，因此随机性比较大，所以下降过程中非常曲折，效率也相应降低，所以mini-batch GD采取了一个折中的方法，每次选取一定数目(mini-batch)的样本组成一个小批量样本，然后用这个小批量来更新梯度，这样不仅可以减少计算成本，还可以提高算法稳定性。

对这三者的关系进行一个比喻就是：

个人网站链接

ethansui

发布了5 篇原创文章 · 获赞 5 · 访问量 5838

私信关注

猜你喜欢

转载自blog.csdn.net/ethan_sui/article/details/104730651

GD(gradient descent):梯度下降法(BGD,SGD,mini-batch GD)

批梯度下降法(Batch Gradient Descent )，小批梯度下降 (Mini-Batch GD)，随机梯度下降 (Stochastic GD)

梯度下降法（GD,SGD,Mini-Batch GD）在线性回归中的使用

局部最优、梯度消失、鞍点、海森矩阵(Hessian Matric)、批梯度下降算法(btach批梯度下降法BGD、小批量梯度下降法Mini-Batch GD、随机梯度下降法SGD)

【深度学习】 BGD、SGD、mini-batch GD

梯度下降小结（Gradient Descent，GD）

机器学习：梯度下降(GD)，随机梯度下降(SGD), 小批量随机梯度下降(Mini-batch SGD)

梯度下降法(Gradient Descent)优化函数的详解（3）小批量随机梯度下降法（mini-batch SGD ）

梯度下降法(GD，SGD)总结

SGD、GD

【DeepLearning】优化算法：SGD、GD、mini-batch GD、Moment、RMSprob、Adam

batch-GD，Mini-batch-GD， SGD， Online-GD

梯度下降GD

机器学习之梯度下降法（GD）、随机梯度下降法（SGD）和随机平均梯度下降法（SAGD）

梯度下降（gradient descent BGD/SGD）

GD和SGD区别

7.2_gd-sgd

几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）

算法笔记之GD，BGD，SGD

【调参炼丹】深度学习中优化方法对比（BGD,SGD,Mini-batch gradient descent，Momentum, RMSProp, Adam）

梯度下降算法（GD）—收敛速率证明

吴恩达机器学习笔记60-随机梯度下降算法、小批量梯度下降算法（Stochastic Gradient Descent& Mini-Batch Gradient Descent）

GD库

随机梯度下降法（Stochastic gradient descent, SGD）

详解随机梯度下降法（Stochastic Gradient Descent，SGD）

DL之DNN：基于sklearn自带california_housing加利福尼亚房价数据集利用GD神经网络梯度下降算法进行回归预测(数据较多时采用mini-batch方式训练会更快)

深度学习优化器（GD和SGD）

梯度下降法 Gradient Descent

梯度下降法(Gradient descent)

Gradient Descent：梯度下降法

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)