learning rate2 - 代码天地

learning rate2

其他 2018-07-02 00:09:00 阅读次数: 0

learning rate

本文就不讲什么是learning rate了，还是讲讲Andrew Ng所讲的一些小tips和自己的理解。
如何判断我们选的learning rate起作用了呢，那就是画一张下面这样的图，代价函数-迭代次数曲线图，如果呈现下面这种一路下降的情况，那就说明梯度下降算法起作用了。当然一般情况下是不可能perfect fitting的，所以我们根据实际情况设置一个阈值，当代价函数小于阈值时，我们就判断收敛了。
这里写图片描述

除了上图中的正确情况，还有下面两种错误情况。
这里写图片描述

它们都存在代价函数增大的情况，实际learning rate选的太大导致的，出现下图的横跳情况。

其实面对上图，我一直有个疑惑，为什么learning rate是固定的，代价函数却越来越大呢，在上图直观的看来就是左右横跳距离越来越大，但其实learning rate不变，在contour map上跳的距离就不变，只是方向变了。
但其实你仔细想想，contour map上移动的距离，和上图中横跳的距离并没有直接关系，代价函数越来越大的原因其实也要用contour map来解释，因为在沿着长轴zig-zag的过程中，虽然每次迭代移动的距离是一样的，但是由于缓慢在向最小值点靠近，那么contour会越来越密，对应的移动相同距离，却由于跨过的等高线越多，所以可能出现反而增大的情况。
最后Andrew Ng教授建议learning rate的选取
这里写图片描述
依次3倍增加，然后用测试的最大值，这样既保证了收敛又保证了收敛速度。

猜你喜欢

转载自blog.csdn.net/hellocsz/article/details/80849902

learning rate2

tensorflow(2):神经网络优化(loss,learning_rate)

class5--tensorflow:学习率learning_rate

TFLearn初探之optimizers、losses和learning_rate

神经网络的优化（1）----学习率 learning_rate

darknet-yolov3 burn_in learning_rate policy

TypeError: Unexpected keyword argument passed to optimizer: learning_rate

tf神经网络优化常用函数范式一览(损失函数loss,学习率learning_rate,滑动平均ema,正则化regularization)

Yolov3模型提高模型检测准确度之 learning_rate与batch_size（Yolov3模型没有框的同学们看过来）

目标检测常用Optimizer及LearningRate的代码实现

learning rate

探究Transformer中PostNorm/PreNorm/Initialization/LearningRate之间的关系

学习率Learning rate

Early Stopping与Learning Rate

learning rate 调整方法

pytorch learning rate decay

keras learning rate

学习速率 learning rate

decayed_learning_rate

epochs 与 learning rate

Batchsize与learning rate

「Deep Learning」Note on Dynamic Bound of Learning Rate

learning rate 和weight decay

ADADELTA: AN ADAPTIVE LEARNING RATE METHOD

drop out, learning rate in nn

《抛弃learning rate decay吧！》

Using Learning Rate Schedules for Deep Learning Models in Python with Keras

机器学习之学习率 Learning Rate

lab-07-1-learning_rate_and_evaluation

深度学习: 学习率 (learning rate)

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)