TensorFlow实战系列7--过拟合问题

在使用梯度下降优化神经网络时，被优化的函数就是神经网络的损失函数。这个损失函数刻画了在训练数据集上预测结果和真实结果之间的差距。然而在真实的应用中，我们想要的并不是让模型尽量模拟训练数据的行为，而是希望通过训练出来的模型对未知的数据给出判断。模型在训练数据上的表现并不一定代表了它在未知数据上的表现。过拟合问题就是可以导致这个差距的一个很重要因素。所谓过拟合，指的是当一个模型过为复杂之后，它可以很好地“记忆”每一个训练数据中随机噪音的部分而忘记了要去“学习”训练数据中通用的趋势。举一个极端的例子，如果一个模型中的参数比训练数据的总数还多，那么只要训练数据不冲突，这个模型完全可以记住所有训练数据的结果从而使得损失函数为0。可以直观地想象一个包含n 个变量和n 个等式的方程组，当方程不冲突时，这个方程组是可以通过数学的方法来求解的。然而，过度拟合训练数据中的随机噪音虽然可以得到非常小的损失函数，但是对于未知数据可能无法做出可靠的判断。图2 显示了模型训练的三种不同情况。在第一种情况下，由于模型过于简单，无法刻画问题的趋势。第二个模型是比较合理的，它既不会过于关注训练数据中的噪音，又能够比较好地刻画问题的整体趋势。第三个模型就是过拟合了，虽然第三个模型完美地划分了灰色和黑色的点，但是这样的划分并不能很好地对未知数据做出判断，因为它过度拟合了训练数据中的噪音而忽视了问题的整体规律。比如图中浅色方框更有可能和“X”属于同一类，而不是根据图上的划分和“O”属于同一类。

图2 神经网络模型训练的三种情况

为了避免过拟合问题，一个非常常用的方法是正则化（regularization）。正则化的思想就是在损失函数中加入刻画模型复杂程度的指标。假设用于刻画模型在训练数据上表现的损失函数为J(Θ)，那么在优化时不是直接优化J(Θ)，而是优化J(Θ)+λR(w)。其中R(w) 刻画的是模型的复杂程度，而λ表示模型复杂损失在总损失中的比例。注意这里Θ 表示的是一个神经网络
中所有的参数，它包括边上的权重w 和偏置项b。一般来说模型复杂度只由权重w 决定。常用的刻画模型复杂度的函数R(w) 有两种，一种是L1 正则化，计算公式是：

无论是哪一种正则化方式，基本的思想都是希望通过限制权重的大小，使得模型不能任意拟合训练数据中的随机噪音。但这两种正则化的方法也有很大的区别。首先，L1 正则化会让参数变得更稀疏，而L2 正则化不会。所谓参数变得更稀疏是指会有更多的参数变为0，这样可以达到类似特征选取的功能。之所以L2 正则化不会让参数变得稀疏的原因是当参数很小时，比如0.001，这个参数的平方基本上就可以忽略了，于是模型不会进一步将这个参数调整为0。其次，L1 正则化的计算公式不可导，而L2 正则化公式可导。因为在优化时需要计算损失函数的偏导数，所以对含有L2 正则化损失函数的优化要更加简洁。优化带L1 正则化的损失函数要更加复杂，而且优化方法也有很多种。以下代码给出了一个简单的带L2 正则化的损失函数定义：

w= tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1))
y = tf.matmul(x, w)
loss = tf.reduce_mean(tf.square(y_ - y)) +
tf.contrib.layers.l2_regularizer(lambda)(w)

TensorFlow实战系列7--过拟合问题

猜你喜欢