tensorflow 随笔－－－－－－－－－指数衰减和平均和滑动平均

其他 2019-04-24 12:26:50 阅读次数: 0

１．为什么使用指数衰减学习率？

学习率过大,会导致待优化的参数在最小值附近波动不收敛;
学习率过小,会导致待优化的参数收敛缓慢。
使用指数衰减自动更新学习率

２．为什么使用滑动平均学习率？

滑动平均:记录了一段时间内模型中所有参数 w 和 b 各自的平均值。利用滑动平均值可以增强模型的泛化能力。

指数衰减

学习率计算公式如下:

Learning_rate=LEARNING_RATE_BASE*LEARNING_RATE_DECAY* LEARNING_RATE_BATCH_SIZE*golal_step/BATCH_SIZE

  #define current steps,note: global_step is untrainable
  global_step = tf.Variable(0, trainable=False)
    learning_rate = tf.train.exponential_decay(
        LEARNING_RATE_BASE,
        global_step,
        mnist.train.num_examples/BATCH_SIZE,
        LEARNING_RATE_DECAY,
        staircase=True
    )

其中, LEARNING_RATE_BASE 为学习率初始值, LEARNING_RATE_DECAY 为学习率衰减率,global_step 记
录了当前训练轮数,为不可训练型参数。学习率 learning_rate 更新频率为输入数据集总样本数除以每
次喂入样本数。若 staircase 设置为 True 时,表示 global_step/learning rate step 取整数,学习
率阶梯型衰减;若 staircase 设置为 false 时,学习率会是一条平滑下降的曲线。

滑动平均

滑动平均值(影子)计算公式:
影子 = 衰减率 * 影子 +(1 - 衰减率)* 参数
其中,衰减率 = min {MOVING AVERAGE DECAY ,1+ 轮数/(10+ 轮数)},影子初值=参数初值

ema = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)
ema_op = ema.apply(tf.trainable_variables())

tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY,global_step)\
    # ema_op = ema.apply(tf.trainable_variables())
with tf.control_dependencies([train_step, ema_op]):
     train_op = tf.no_op(name='train')

其中,ema.apply()函数实现对括号内参数求滑动平均,tf.trainable_variables()函数实现把所有
待训练参数汇总为列表。

with tf.control_dependencies([train_step, ema_op]):
train_op = tf.no_op(name='train')
其中,该函数实现将滑动平均和训练过程同步运行。查看模型中参数的平均值,可以用 ema.average()函数。

猜你喜欢

转载自blog.csdn.net/qq_42105426/article/details/88068119

tensorflow 随笔－－－－－－－－－指数衰减和平均和滑动平均

tensorflow随笔-正则化+指数衰减+滑动平均

tensorflow-正则化+指数衰减+滑动平均

tensorflow随笔-滑动平均模型

TensorFlow 神经网络优化：指数衰减学习率、滑动平均、正则化

tensorflow的滑动平均模型

tensorflow 滑动平均模型

tensorflow滑动平均模型

tensorflow随笔-正则化与指数衰减率

TensorFlow入门：滑动平均模型

TensorFlow之滑动平均模型

tensorflow-滑动平均模型

TensorFlow基础（七）——滑动平均

经典损失函数：交叉熵（附tensorflow）和滑动平均

Tensorflow笔记——神经网络图像识别（四）搭建模块化的神经网络八股（正则化，指数衰减学习率，滑动平均等优化）

tensorflow 3.滑动平均模型

class6--tensorflow:滑动平均

tensorflow中滑动平均模型的说明

滑动平均介绍和在tensorflow中的应用

TensorFlow实战系列8--滑动平均模型

TensorFlow里“滑动平均模型”中“影子变量”的理解

《Tensorflow实战Google深度学习》4.43滑动平均模型

神经网络优化之滑动平均（tensorflow）

深入解析TensorFlow中滑动平均模型与代码实现

Tensorflow 中滑动平均恢复到原变量的方法

用大白话讲滑动平均模型（Tensorflow）

2019/04/18 滑动平均介绍和在tensorflow中的应用

永兴的tensorflow笔记-12 滑动平均（影子值）

tensorflow笔记神经网络优化之滑动平均

神经网络优化：指数衰减计算平均值(滑动平均)

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)