经典梯度下降、随机梯度下降、批量梯度下降是个啥？ - 代码天地

经典梯度下降、随机梯度下降、批量梯度下降是个啥？

其他 2021-12-14 20:46:22 阅读次数: 0

假设某任务损失函数为 $L$ ，模型参数为 $\theta$ ，我们希望找到使损失函数最小的模型参数

$\theta^* = arg \min L(\theta)$

经典的梯度下降方法采用平均所有数据的平均损失来近似目标优化函数

$L(\theta) = \frac{1}{M}\sum_{i=1}^{M}L(f(x_i, \theta), y_i)$

$M$ 表示样本个数，求梯度得

$\triangledown L(\theta) = \frac{1}{M}\sum_{i=1}^{M} \triangledown L(f(x_i, \theta), y_i)$

参数更新公式为

$\theta_{t+1} = \theta_t - \alpha \triangledown L(\theta_t)$

$\alpha$ 为学习率，经典的梯度下降算法在更新参数时需要遍历所有的数据，当样本数量很大时，计算量很大，更新耗时严重，实际应用场景下，基本不可行。

因此，有人提出了随机梯度下降算法SGD，用1个样本来进行参数更新

$L(\theta) = L(f(x_i, \theta), y_i)$

$\triangledown L(\theta) = \triangledown L(f(x_i, \theta), y_i)$

单个样本更新参数大大加快了收敛速度，适用于源源不断的在线更新，但是容易陷入到局部最优解中。因此为了折衷这两种方法，使迭代更加稳定，同时充分利用高度优化的矩阵计算，实际应用中会采用小批量梯度下降，每次处理 $m (m < < M)$ 个样本，目标函数及其梯度为

$L(\theta) = \frac{1}{m}\sum_{i=1}^{m}L(f(x_i, \theta), y_i)$

$\triangledown L(\theta) = \frac{1}{m}\sum_{i=1}^{m} \triangledown L(f(x_i, \theta), y_i)$

参数m如何选取？
在不同应用中，最优的 m 通常会不一样，需要通过调参选取。一般 m 取为2的幂次时能充分利用矩阵运算操作，如选取32、64、128等。
如何挑选m哥数据？
一般会在每次遍历训练数据之前，先对所有的数据进行随机排序，来避免数据的特定顺序给算法收敛带来影响。然后在每次迭代时按顺序挑选 m 个训练数据直至遍历完所有的数据。
学习率 $\alpha$ 如何确定？
衰减方案。开始用大的学习率，当误差曲线趋于平缓时减小学习率进行精调。

欢迎关注微信公众号（算法工程师面试那些事儿)，本公众号聚焦于算法工程师面试，期待和大家一起刷leecode，刷机器学习、深度学习面试题等，共勉～

算法工程师面试那些事儿

猜你喜欢

转载自blog.csdn.net/qq_40006058/article/details/121893029

经典梯度下降、随机梯度下降、批量梯度下降是个啥？

随机梯度/批量梯度下降

随机梯度下降与批量梯度下降

批量梯度下降和随机梯度下降

批量梯度下降and随机梯度下降

梯度下降、随机梯度下降和批量梯度下降

梯度下降随机梯度下降批量梯度下降

梯度下降、随机梯度下降、批量梯度下降

梯度下降，随机梯度下降，

梯度下降，随机梯度下降，小批量梯度下降，动量梯度下降的区别

随机梯度下降(SGD)和批量梯度下降(BGD)的区别

批量梯度下降和随机梯度下降的区别

随机梯度下降和批量梯度下降的简单代码实现

批量梯度下降和随机梯度下降实现

随机梯度下降与批梯度下降

梯度下降法和随机梯度下降

线性模型（梯度下降&随机梯度下降）

梯度下降（一）：批梯度下降、随机梯度下降、小批量梯度下降、动量梯度下降、Nesterov加速梯度下降法 Matlab 可视化实现

批量梯度下降，随机梯度下降，小批量梯度下降

批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

批量梯度下降BGD、随机梯度下降SGD和小批量梯度下降MBGD对比

批量梯度下降、随机梯度下降与小批量梯度下降算法之间的比较

批量梯度下降算法、随机梯度下降算法、小批量梯度下降算法

三种梯度下降的方式：批量梯度下降、小批量梯度下降、随机梯度下降

梯度下降算法Python代码实现--批量梯度下降+随机梯度下降+小批量梯度下降法

机器学习之梯度下降、批量梯度下降与随机梯度下降

梯度下降法、随机梯度下降法、小批量梯度下降法

梯度下降、随机梯度下降(SGD)与小批量梯度下降法介绍

随机梯度下降 (SGD)

随机梯度下降+变体

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)