TensorFlow学习笔记(七)——浅谈过拟合问题的解决办法

       本文将继续介绍神经网络优化过程中可能遇到的一些问题,以及解决这些问题的常用方法。在训练复杂神经网络模型时,过拟合是一个非常常见的问题。本文介绍解决这个问题的主要方法。

        所谓过拟合,指的是当一个模型过为复杂之后,它可以很好地“记忆”每一个训练数据中随机噪音的部分而忘记了要去“学习”训练数据中通用的趋势。

  为了避免过拟合问题,一个非常常用的方法是正则化(regularization)。正则化的思想就是在损失函数中加入刻画模型复杂程度的指标。假设用于刻画模型在训练数据上表现的损失函数为那么在优化时不是直接优化而是优化。其中刻画的是模型的复杂程度,而表示模型复杂损失在总损失中的比例。注意这里表示的是一个神经网络中所有的参数,它包括边上的权重和偏置项。一般来说模型复杂度只由权重 w决定。

常用的刻画模型复杂度的函数有两种,一种是L1正则化,计算公式是:

另一种是L2正则化,计算公式是:


无论是哪一种正则化方式,基本的思想都是希望通过限制权重的大小,使得模型不能任意拟合训练数据中的随机噪音。但这两种正则化的方法也有很大的区别。首先,L1正则化会让参数变得更稀疏,而L2正则化不会。所谓参数变得更稀疏是指会有更多的参数变为0,这样可以达到类似特征选取的功能。之所以L2正则化不会让参数变得稀疏的原因是当参数很小时,比如0.001,这个参数的平方基本上就可以忽略了,于是模型不会进一步将这个参数调整为0。其次,正则化的计算公式不可导,而L2正则化公式可导。因为在优化时需要计算损失函数的偏导数,所以对含有L2正则化损失函数的优化要更加简洁。优化带正则化的损失函数要更加复杂,而且优化方法也有很多种。在实践中,也可以将L1正则化和L2正则化同时使用:


TensorFlow可以优化任意形式的损失函数,所以TensorFlow自然也可以优化带正则化的损失函数。以下代码给出了一个简单的带L2正则化的损失函数定义:

w= tf.Variable(tf.random_normal([2, 1], stddev=l, seed=l))
y = tf.matmul(x, w)
loss = tf.reduce_mean(tf.square(y_ - y) ) + tf.contrib.layers.l2_regularizer(lambda_)(w)
# loss为定义的损失函数,它由两个部分组成,第一个部分是均方误差损失函数,它刻画了模型在训练数据上的表现
# 第二个部分就是正则化,它防止模型过度模拟训练数据中的随机噪音

通常我们会使用TensorFlow中提供的集合(collection)。它可以在一个计算图(tf.Graph)中保存一组实体(比如张量)。以下代码给出了通过集合计算一个5层神经网络带L2正则化的损失函数的计算方法:

import tensorflow as tf

def get_weight(shape, lambda_):
    """
    获取一层神经网络边上的权重,并将这个权重的L2正则化损失加入名称为“losses”的集合中
    其中,lambda_参数表示了正则化项的权重。TensorFlow提供了tf.contrib.layers.l2_regularizer函数,
    它可以返回一个函数,这个函数可以计算一个给定参数的l2正则化项的值。
    类似的,tf.contrib.layers.l1_regularizer可以计算L1正则化项的值
    """
    var = tf.Variable(tf.random_normal(shape), dtype = tf.float32)    # 生成一个变量
    #add_to_collection函数将这个新生成变量的L2正则化损失项加入集合。
    #这个函数的第一个参数‘losses’是集合的名字,第二个参数是要加入这个集合的内容。
    regularizer = tf.contrib.layers.l2_regularizer( lambda_ )
    tf.add_to_collection("losses", regularizer(var))
    # 返回生成的变量。
    return var


x = tf.placeholder(tf.float32, shape=(None, 2))
y_ = tf.placeholder(tf.float32, shape=(None, 1))
batch_size = 8                               #每一个样本数据batch的大小
layer_dimension = [2, 10, 10, 10, 1]        #定义每一层网络中节点的个数
n_layers = len(layer_dimension)             #神经兩络的层数
#这个变量维护前向传播时最深层的节点,幵始的时候就是输入层。
cur_layer = x                                #当前层的节点个数
in_dimension = layer_dimension[0]

for i in range (1, n_layers):               #通过一个循环来生成5层全连接的神经网络结构。
    out_dimension = layer_dimension[i]       #layer_dimension [i]为下一层的节点个数。
    # 根据上一层和当前层的节点数,生成当前层中权重的变量,并将这个变量的L2正则化损失加入计算图上的集合。
    weight = get_weight([in_dimension, out_dimension], 0.001)
    bias = tf.Variable(tf.constant(0.1, shape=[out_dimension]))
    cur_layer = tf.nn.relu(tf.matmul(cur_layer,weight) + bias)  #使用ReLU激活函数。
    in_dimension = layer_dimension[i]

    # 在定义神经网络前向传播的同时已经将所有的L2正则化损失加入了图上的集合,
    # 这里只需要计算刻画模型在训练数据上表现的损失函数。
    mse_loss = tf.reduce_mean(tf.square(y_ - cur_layer))
    tf.add_to_collection('losses',mse_loss)      #将均方误差损失函数加入损失集合。

    # get_collection返回一个列表,这个列表是所有这个集合中的元素。在这个样例中,
    # 这些元素就是损失函数的不伺部分,将它们加起来就可以得到最终的损失函数。
    loss = tf.add_n(tf.get_collection('losses'))






猜你喜欢

转载自blog.csdn.net/weixin_41695564/article/details/80219020