深度学习框架Caffe学习系列(2)：学习率衰减策略

其他 2019-04-26 16:47:33 阅读次数: 0

学习率衰减策略

参数学习率

参考
学习率机制
/caffe-master/src/caffe/proto/caffe.proto文件说明
1. fixed: 固定学习率
2. inv：学习率下降为~1 / T.
3. step：逐步衰减
4. multistep：任意间隔的分段常数
5. exp : 指数型学习率
6. poly : 多项式衰减

参数学习率

参考

学习率机制

“fixed”
“inv”
“step”
“multistep”
“stepearly”
“poly”

/caffe-master/src/caffe/proto/caffe.proto文件说明

学习率衰减政策。目前实施的学习率策略如下：

fixed：始终返回base_lr。
step：分段常数

return base_lr * gamma ^（floor（iter / step））
exp：指数型

return base_lr * gamma ^ iter
inv：学习率下降为~1 / T.

return base_lr *（1 + gamma * iter）^（ - power）
multistep：类似于step但它允许由stepvalue定义的非均匀步骤
poly：有效学习率遵循多项式衰减

当max_iter时为零。 return base_lr（1 - iter / max_iter）^（power）
sigmoid：有效学习率遵循sigmod衰减

return base_lr（1 /（1 + exp（-gamma *（iter - stepsize））））

其中base_lr，max_iter，gamma，step，stepvalue和power在solver参数协议缓冲区中定义，iter是当前迭代。

1. fixed: 固定学习率

在训练过程中，学习率不变。

2. inv：学习率下降为~1 / T.

需要设置：参数 gamma 与 power(caffe框架)

公式
图例

3. step：逐步衰减

台阶式变化(step by step):学习速率是分段常数，每X次迭代都会下降一次。
需要设置：gamma 与 stepsize(caffe框架)；scale与step(darknet框架)。

公式
图例

4. multistep：任意间隔的分段常数

在任意区间可设置多个 stepvalue的值，它由参数 stepsize 与 stepvalue 决定。它在达到我们设定的stepvalue的时候，更新学习率。
需要设置： stepsize 与 stepvalue(caffe框架)；scales与steps(darknet框架)。

无公式
图例

5. exp : 指数型学习率

需要设置：参数gamma(caffe框架)。

公式
图例（暂无）

6. poly : 多项式衰减

当到达最大次数时，学习率衰减到0。

公式

在这里插入图片描述

图例（暂无）

猜你喜欢

转载自blog.csdn.net/qipeng_master/article/details/86004656

深度学习框架Caffe学习系列(2)：学习率衰减策略

学习率的衰减策略

caffe中的学习率的衰减机制

【深度学习】(11) 学习率衰减策略（余弦退火衰减，多项式衰减），附TensorFlow完整代码

Caffe中学习率策略

2.2.6 学习率衰减

指数衰减学习率

学习率衰减总结

指数衰减-学习率

深度学习《CNN架构续篇 - 学习率衰减》

学习率调整策略，学习率预热（warmup）和学习率衰减（Learning Rate Decay）

【深度学习】(10) 自定义学习率衰减策略（指数、分段、余弦），附TensorFlow完整代码

深度学习框架Caffe学习系列(1)：安装与使用

学习率 - 指数衰减法

指数衰减学习率的staircase

TensorFlow入门：学习率衰减

[tf]学习率指数衰减

TensorFlow笔记--学习率衰减

Dropout和学习率衰减

学习率及其指数衰减

tensorflow学习率自动衰减

PyTorch余弦学习率衰减

学习率衰减方法

深度学习框架Caffe学习系列(2)：Ristretto 量化 cifar_small 实验记录

【深度学习】学习率预热和学习率衰减 (learning rate warmup & decay)

【深度学习】学习率与学习率衰减详解：torch.optim.lr_scheduler用法

深度学习——05、深度学习框架Caffe

Pytorch深度学习—学习率调整策略

深度学习tricks——学习率策略

pytorch 学习率衰减机制学习笔记

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)