深度学习中滑动平均模型的作用、计算方法及tensorflow代码示例

滑动平均模型:

用途:用于控制变量的更新幅度,使得模型在训练初期参数更新较快,在接近最优值处参数更新较慢,幅度较小
方式:主要通过不断更新衰减率来控制变量的更新幅度

衰减率计算公式 :
    decay = min{init_decay , (1 + num_update) / (10 + num_update)}
    其中 init_decay 为设置的初始衰减率 ,num_update 为模型参数更新次数,由此可见,随着 num_update 更新次数的增加,(1 + num_update) / (10 + num_update 这一项的计算结果越接近1

参数更新公式:
    shadow_variable = decay * shadow_variable + (1 - decay) * variable
    其中 shadow_variable 为变量更新前的数值,variable为变量更新后的数值

例如:
    x = 0
    x = 1
    此时 shadow_variable 就是 0 , variable 就是 1 , 假如此时的 衰减率 decay 是 0.5,则更新后的 x 取值为 0.5 * 0 + (1 - 0.5) * 1 = 0.5

    通过以上公式可以发现,随着模型迭代次数的增加,(1 + num_update) / (10 + num_update) 这一项的计算结果越接近1,也就是 (1 - decay) * variable 更接近于 0 ,此时模型参数变化幅度减小 , 也就是 shadow_variable == decay * shadow_variable 等式越成立。

tensorflow代码示例:

#coding:utf-8
"""
    Created by cheng star at 2018/8/26 10:46
    @email : [email protected]
"""

import tensorflow as tf


v1 = tf.Variable(0.0 , dtype=tf.float32)
step = tf.Variable(0 , trainable=False)

ema = tf.train.ExponentialMovingAverage(decay=0.99 , num_updates=step)
# maintain_average_op 每执行一次,其中的变量就会被更新
maintain_average_op = ema.apply([v1])

with tf.Session() as sess :
    init = tf.global_variables_initializer()
    sess.run(init)

    # 变量初始化之后,变量的数值和滑动平均值相同,均为 0
    print(sess.run([v1 , ema.average(v1)]))     # [0.0 , 0.0]
    sess.run(maintain_average_op)
    print(sess.run([v1 , ema.average(v1)]))     # [0.0 , 0.0]

    # 更新变量的赋值
    sess.run(tf.assign(v1 , 5))

    """
        执行maintain_average_op 操作,此时 step = 0 , 使用公式 min{decay , (1 + num_update)/(10 + num_update)} 计算衰减率
        因此,decay衰减率是 min{init_decay = 0.99 , (1 + 0) / (10 + 0) = 0.1} = 0.1
        因此,此时的 v1 变量值是 0 * 0.1 + (1 - 0.1) * 5 = 4.5
    """
    sess.run(maintain_average_op)
    print(sess.run([v1 , ema.average(v1)]))     # [5 , 4.5]

    sess.run(tf.assign(step , 1000))
    sess.run(tf.assign(v1 , 10))

    """
        decay = min{0.99 , (1 + 1000)/(10 + 1000) = 0.99} = 0.99    衰减率不变
        v1 = 4.5 * 0.99 + (1 - 0.99) * 10 = 4.555
    """
    sess.run(maintain_average_op)
    print(sess.run([v1 , ema.average(v1)]))     # [10.0, 4.5549998]

    """
        decay = min{0.99 , (1 + 1000)/(10 + 1000) = 0.99} = 0.99    衰减率不变
        v1 = 4.555 * 0.99 + (1 - 0.99) * 10 = 4.609
    """
    sess.run(maintain_average_op)
    print(sess.run([v1 , ema.average(v1)]))     # [10.0, 4.6094499]

参考文献:Tensorflow实战Google深度学习框架. 才云科技Caicloud 郑泽宇 顾思宇 著

猜你喜欢

转载自blog.csdn.net/cxx654/article/details/82079063