动手学习深度学习2-2模型选择、欠拟合和过拟合

在基于 Fashion-MNIST 数据集的实验中，我们评价了机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数，你也许发现了：当模型在训练数据集上更准确时，它在测试数据集上却不一定更准确。这是为什么呢？

训练误差和泛化误差

通俗来讲，训练误差（training error）指模型在训练数据集上表现出的误差，泛化误差（generalization error）是指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和 softmax 回归用到的交叉熵损失函数。

以高考为例来直观地解释训练误差和泛化误差这两个概念。训练误差可以认为是做往年高考试题（训练题）时的错误率，泛化误差则可以通过真正参加高考（测试题）时的答题错误率来近似。假设训练题和测试题都随机采样于一个未知的依照相同考纲的巨大试题库。如果让一名未学习中学知识的小学生去答题，那么测试题和训练题的答题错误率可能很相近。但如果换成一名反复练习训练题的高三备考生答题，即使在训练题上做到了错误率为 0，也不代表真实的高考成绩会如此。

在机器学习里，我们通常假设训练数据集（训练题）和测试数据集（测试题）里的每一个样本都是从同一个概率分布中相互独立地生成的。基于该独立同分布假设，给定任意一个机器学习模型（含参数），它的训练误差的期望和泛化误差都是一样的。例如我们将模型参数设成随机值（小学生），那么训练误差和泛化误差会非常相近。然而我们从之前的章节中已经了解到，模型的参数是通过在训练数据集上训练模型而学习出的，参数的选择依据了最小化训练误差（高三备考生）。所以，训练误差的期望小于或等于泛化误差。也就是说，一般情况下，由训练数据集学到的模型参数会使模型在训练数据集上的表现优于或等于在测试数据集上的表现。由于无法从训练误差估计泛化误差，一味地降低训练误差并不意味着泛化误差一定会降低。

机器学习模型应关注降低泛化误差。

模型选择

在机器学习中，我们通常需要评估若干候选模型的表现并从中选择模型。这一过程称为模型选择（model selection）。可供选择的候选模型可以是有着不同超参数的同类模型。以多层感知机为例，我们可以选择隐藏层的个数，以及每个隐藏层中隐藏单元个数和激活函数。为了得到有效的模型，我们通常要在模型选择上花费一番功夫。下面，我们来描述模型选择中经常使用的验证数据集（validation data set）。

验证数据集

严格意义上，测试集只能在所有超参数和模型参数选定后使用一次。我们不可以使用测试数据选择模型，例如调参。由于我们无法从训练误差估计泛化误差，因此也不应只依赖训练数据选择模型。有鉴于此，我们可以预留一部分在训练数据集和测试数据集以外的数据来进行模型选择。这部分数据被称为验证数据集，简称验证集（validation set）。例如，我们可以从给定的训练集中随机选取一小部分作为验证集，而将剩余部分作为真正的训练集。

然而在实际应用中，由于数据不容易获取，测试数据极少只使用一次就丢弃。因此，实践中验证数据集和测试数据集的界限可能比较模糊。严格意义上，除非明确说明，本实验所使用的测试集应为验证集，实验报告的测试精度应为验证精度。

K 折交叉验证

由于验证数据集不参与模型训练，当训练数据不够用时，预留大量的验证数据显得太奢侈。一个改善的方法是 K折交叉验证（K-fold cross-validation）。在 K折交叉验证中，我们把原始训练数据集分割成 K 个不重合的子数据集。然后我们做 K 次模型训练和验证。每一次，我们使用一个子数据集验证模型，并使用其他 K−1 个子数据集来训练模型。在这 K 次训练和验证中，每次用来验证模型的子数据集都不同。最后，我们对这 K 次训练误差和验证误差分别求平均。

欠拟合和过拟合

接下来，我们将探究模型训练中经常出现的两类典型问题。一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）。另一类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们重点讨论两个因素：模型复杂度和训练数据集大小。

模型复杂度

为了解释模型复杂度，我们以多项式函数拟合为例。给定一个由标量数据特征 x 和对应的标量标签 y 组成的训练数据集，多项式函数拟合的目标是找一个 K 阶多项式函数

来近似 y。上式中，wk 是模型的权重参数，b是偏差参数。和线性回归相同，多项式函数拟合也使用平方损失函数。特别地，一阶多项式函数拟合又叫线性函数拟合。

由于高阶多项式函数模型参数更多，模型函数的选择空间更大，所以高阶多项式函数比低阶多项式函数的复杂度更高。因此，高阶多项式函数比低阶多项式函数更容易在相同的训练数据集上得到更低的训练误差。给定训练数据集，模型复杂度和误差之间的关系通常如图 3.4 所示。给定训练数据集，如果模型的复杂度过低，很容易出现欠拟合；如果模型复杂度过高，很容易出现过拟合。应对欠拟合和过拟合的一个办法是针对数据集选择合适复杂度的模型。

训练数据集大小

影响欠拟合和过拟合的另一个重要因素是训练数据集的大小。一般来说，如果训练数据集中样本数过少，特别是比模型参数数量（按元素计）更少时，过拟合更容易发生。此外，泛化误差不会随训练数据集里样本数量增加而增大。因此，在计算资源允许范围之内，我们通常希望训练数据集大一些，特别当模型复杂度较高时：例如层数较多的深度学习模型。

多项式函数拟合实验

在训练数据集和测试数据集中，给定样本特征 xx，我们使用如下的三阶多项式函数来生成该样本的标签其中噪音项 ϵ 服从均值为 0 和标准差为 0.1 的正态分布。训练数据集和测试数据集的样本数都设为 100。

三阶多项式函数拟合（正常）

我们先使用与数据生成函数同阶的三阶多项式函数拟合。实验表明，这个模型的训练误差和在测试数据集的误差都较低。训练出的模型参数也接近真实值：w1=1.2,w2=−3.4,w3=5.6,b=5w1=1.2,w2=−3.4,w3=5.6,b=5。

%matplotlib inline
import gluonbook as gb
from mxnet import autograd, gluon, nd
from mxnet.gluon import data as gdata, loss as gloss, nn

#生成数据集
n_train,n_test,true_w,true_b=100,100,[1.2,-3.4,5.6],5
features=nd.random.normal(shape=(n_train+n_test,1))
poly_features=nd.concat(features,nd.power(features,2),nd.power(features,3))
#nd.concat(x, y, dim=0) nd.concat(x, y, dim=1) ：(当dim不输入时，按照dim = 1处理） dim=1表示按列处理
labels=(true_w[0]*poly_features[:,0]+true_w[1]*poly_features[:,1]
       +true_w[2]*poly_features[:,2]+true_b)
labels+=nd.random.normal(scale=0.1,shape=labels.shape)


# 定义、训练和测试模型
# 我们先定义作图函数semilogy，其中  y轴使用了对数尺度
# 本函数已保存在 gluonbook 包中方便以后使用。
def semilogy(x_vals, y_vals, x_label, y_label, x2_vals=None, y2_vals=None,
            legend=None, figsize=(3.5, 2.5)):
    gb.set_figsize(figsize)
    gb.plt.xlabel(x_label)
    gb.plt.ylabel(y_label)
    gb.plt.semilogy(x_vals,y_vals)
    if x2_vals and y_vals:
        gb.plt.semilogy(x2_vals,y2_vals,linestyle=':')
        gb.plt.legend(legend)

# 和线性回归一样，多项式函数拟合也使用平方损失函数。由于我们将尝试使用不同复杂度的模型来拟合生成的数据集，
# 我们把模型定义部分放在fit_and_plot函数中。多项式函数拟合的训练和测试步骤与之前介绍的 softmax 回归中的相关步骤类似
num_epochs,loss=100,gloss.L2Loss()

def fit_and_plot(train_features,test_features,train_labels,test_labels):
    net=nn.Sequential()
    net.add(nn.Dense(1))
    net.initialize()
    batch_size=min(10,train_labels.shape[0])
    train_iter=gdata.DataLoader(gdata.ArrayDataset(train_features,train_labels),batch_size,shuffle=True)
    trainer=gluon.Trainer(net.collect_params(),'sgd',{'learning_rate':0.01})
    train_ls,test_ls=[],[]
    for  _ in range(num_epochs):
        for X,y in train_iter:
            with autograd.record():
                l=loss(net(X),y)
            l.backward()
            trainer.step(batch_size)
        train_ls.append(loss(net(train_features),train_labels).mean().asscalar())
        test_ls.append(loss(net(test_features),test_labels).mean().asscalar())
    print('final epoch:train loss',train_ls[-1],'test loss',test_ls[-1])
    semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
             range(1, num_epochs + 1), test_ls, ['train', 'test'])
    print('weight:', net[0].weight.data().asnumpy(),
          '\nbias:', net[0].bias.data().asnumpy())
    
# 三阶多项式函数拟合（正常）
# 我们先使用与数据生成函数同阶的三阶多项式函数拟合。实验表明，
# 这个模型的训练误差和在测试数据集的误差都较低。训练出的模型参数也接近真实值：
# w1=1.2,w2=−3.4,w3=5.6,b=5w1=1.2,w2=−3.4,w3=5.6,b=5 。
fit_and_plot(poly_features[:n_train, :], poly_features[n_train:, :],
             labels[:n_train], labels[n_train:])

batchsize>=10

batchsize=1

把其中的batchsize调大，收敛变慢的原因：如果batch_size变大，那么一次迭代器取完的次数就少了，那么运行sgd的次数就少了，就收敛的慢了。但是batchsize=1的时候运行比较慢，原因是其中的取得次数多了，运行起来就慢了。

线性函数拟合（欠拟合）

很明显，该模型的训练误差在迭代早期下降后便很难继续降低。在完成最后一次迭代周期后，训练误差依旧很高。线性模型在非线性模型（例如三阶多项式函数）生成的数据集上容易欠拟合。

fit_and_plot(features[:n_train, :], features[n_train:, :], labels[:n_train],
             labels[n_train:])

训练量不足（过拟合）

事实上，即便使用与数据生成模型同阶的三阶多项式函数模型，如果训练量不足，该模型依然容易过拟合。让我们仅仅使用两个样本来训练模型。显然，训练样本过少了，甚至少于模型参数的数量。这使模型显得过于复杂，以至于容易被训练数据中的噪音影响。在迭代过程中，即便训练误差较低，但是测试数据集上的误差却很高。这是典型的过拟合现象。

fit_and_plot(poly_features[0:2, :], poly_features[n_train:, :], labels[0:2],
             labels[n_train:])

过拟合欠拟合

1. Overfitting

定义：在训练集上表现良好，在测试集上表现糟糕
产生原因：
1.训练集和测试集特征分布不一致

2.数据噪声太大

3.数据量太小

4.特征量太多

5.模型太过复杂

解决方法：
1.减少特征数量

2.正则化

3.增大样本训练规模

4.简化模型

5.交叉验证

6.dropout

2. Underfitting

  定义：在训练集和测试集上都表现糟糕。
  产生原因：
        1.模型复杂度过低

2.特征量过少

处理方法：
1.增加新特征

2.增加模型复杂度

3. 朴素贝叶斯

  优点：又快又简单性能又好，在数据较少的情况下仍然有效，对数据缺失不敏感，可以处理多类别问题
  缺点：需要知道先验概率，对输入数据的准备方式较为敏感，不能学习不同特征间的相互作用，表现简单不能做丰富的假设。
4.       决策树

优点：计算复杂度不高，容易解释和说明，输出结果易于理解，对中间值的缺失不敏感，数据的准备简单或者不必要，可以处理不相关特征数据。
缺点：可能会产生过拟合，忽略数据集中属性之间的相关性。

batch_size：

Batch 的选择首先决定的是下降的方向。

Batch_Size 太小，算法在 200 epoches 内不收敛。

随着 Batch_Size 增大，处理相同数据量的速度越快。

随着 Batch_Size 增大，达到相同精度所需要的 epoch 数量越来越多。

由于上述两种因素的矛盾， Batch_Size 增大到某个时候，达到时间上的最优。

由于最终收敛精度会陷入不同的局部极值，因此 Batch_Size 增大到某些时候，达到最终收敛精度上的最优。

问题：

1.如果用一个三阶多项式模型来拟合一个线性模型生成的数据，可能会有什么问题？为什么？

答：可能会发生过拟合。但是要看线性模型生成多少个点，如果点非常少，例如小于等于4，那么3次模型会有可能严重过拟合，在训练集上loss可以降为0，但是在测试集上表现很差。但是如果数据点非常多的话，例如1000个点，3次模型来拟合还是不错的，因为高阶项的系数基本都是趋近于0的。因此在测试集上表现也不会很差的

2.在我们本节提到的三阶多项式拟合问题里，有没有可能把1000个样本的训练误差的期望降到0，为什么？

答：没有可能。除非这1000个样本中只有小于等于4个点不共线，这种情况才会使得loss为0，因为3次多项式最多可以完全拟合4个不共线的点。

小结：

由于无法从训练误差估计泛化误差（测试误差），一味地降低训练误差并不意味着泛化误差一定会降低。机器学习模型应关注降低泛化误差。
我们可以使用验证数据集来进行模型选择。
欠拟合指模型无法得到较低的训练误差；过拟合指模型的训练误差远小于它在测试数据集上的误差。
我们应选择复杂度合适的模型并避免使用过少的训练样本。

引用：

过拟合欠拟合产生的原因：https://blog.csdn.net/u012019029/article/details/80023898

过拟合产生的原因：https://zhuanlan.zhihu.com/p/26122044

深度学习中的batchsize：https://www.zhihu.com/question/32673260/answer/71137399