Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减 - 代码天地

Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减

其他 2018-06-24 05:13:45 阅读次数: 3

learning rate decay 学习速率衰减

这里写图片描述

对于mini-batch gradient descent，其梯度下降可能会围绕最优点附近徘徊，但是由于learning rate不变，可能不会进一步靠近最优点（蓝色路径）
如果learning rate会随着学习的深入不断衰减，那么上述情况会得到改善，最终的结果和更加靠近最优点（绿色路径）

方法一
$1 e p o c h = 1 p a s s t h r o u g h d a t a$ $1\ epoch = 1\ pass\ through\ data$
$α = \frac{1}{1 + d e c a y R a t e * e p o c h N u m} α_{0}$ $\alpha = \frac{1}{1+decayRate*epochNum}\alpha_0$

方法二 (exponentially decay)
$α = {0.95}^{e p o c h N u m} α_{0}$ $\alpha = 0.95^{epochNum}\alpha_0$
方法三
$α = \frac{k}{\sqrt{e p o c h N u m}} α_{0}$ $\alpha = \frac{k}{\sqrt{epochNum}}\alpha_0$
$α = \frac{k}{\sqrt{t}} α_{0}$ $\alpha = \frac{k}{\sqrt{t}}\alpha_0\quad$
$t$ 是mini-batch的次数。
方法四（discrete staircase）
方法五（manual decay ）

猜你喜欢

转载自blog.csdn.net/zfcjhdq/article/details/80746635

Deep learning II - II Optimization algorithms - learning rate decay 学习速率衰减

Deep learning II - II Optimization algorithms - Adam (Adaptive Moment Estimation)自适应矩估计

Deep learning II - II Optimization algorithms - RMSprop (Root Mean Square prop)均方根传递

Deep learning II - II Optimization algorithms - Gradient descent with momentum 动量梯度下降算法

Deep learning II - II Optimization algorithms - Exponentially weighted averages 指数加权平均

Deep learning II - II Optimization algorithms - Mini-batch gradient descent

权重衰减（weight decay）与学习率衰减（learning rate decay）

学习率衰减 Learning Rate Decay

学习率衰减/learning rate decay

pytorch learning rate decay

【转载】权重衰减（weight decay）与学习率衰减（learning rate decay）

learning rate 和weight decay

《抛弃learning rate decay吧！》

学习速率 learning rate

【深度学习】学习率预热和学习率衰减 (learning rate warmup & decay)

学习率调整策略，学习率预热（warmup）和学习率衰减（Learning Rate Decay）

学习笔记一：learning rate,weight decay和momentum的理解

深度学习超参数——momentum、learning rate和weight decay

使用Pytorch实现学习率衰减/降低（learning rate decay）

TensorFlow中的Learning rate decay介绍

Linear Regression with multiple variables - Gradient descent in practice II: Learning rate

「Deep Learning」Note on Dynamic Bound of Learning Rate

Adam和学习率衰减（learning learning decay）

Optimization algorithm----Deep Learning

Optimization for Deep Learning Highlights in 2017

「Deep Learning」Note on Decoupled Weight Decay Regularization

11_Training Deep Neural Networks_3_Adam_Learning Rate Scheduling_Decay_np.argmax(」)_lambda语句_Regular

深度学习超参数简单理解learning rate,weight decay和momentum

深度学习超参数简单理解：learning rate,weight decay和momentum

深度学习概念、参数理解：iteration, batch_size, epoch, learning rate, weight_decay

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)