动手学深度学习-Pytorch 版 过拟合欠拟合以及梯度消失梯度爆炸

过拟合、欠拟合以及解决方案

  1. 过拟合、欠拟合的概念
  2. 权重衰减
  3. 丢弃法

模型选择、过拟合和欠拟合

  • 训练误差
  • 泛化误差
  • 验证数据集
  • K 折交叉验证

欠拟合

  • 概念
  • 解决方案

过拟合

  • 概念:
  • 解决解决方案: 权重衰减 和 丢弃法(dropout)

权重衰减

使用 L2 正则化

Dropout

对隐藏层的每一个参数 \(h_i\),以 \(p_i\) 的概率置为0, 以 \(1-p_i\) 的概率置换为 \(h_i' = \frac{h_i}{1-p}\); 这样能保证

\[ E(h_i') = E(h_i') = (1-p) E( \frac{h_i}{1-p} ) + p*0 = E(h_i) \]

即Dropout不改变参数的期望。
训练时,对于隐藏层的每个参数都有概率被丢弃, 输出的时候不依赖该参数,反向传播的时候梯度为0。这样输出层无法过度依赖某一个参数,从而在模型训练的时候可以起到正则化的作用,应对过拟合。
测试模型时一般不使用Dropout。

梯度消失与梯度爆炸

  1. 梯度消失和梯度爆炸
  2. 考虑到环境因素的其他问题

深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。

当神经网络的层数较多时,模型的数值稳定性容易变差。

假设一个层数为\(L\)的多层感知机的第\(l\)\(\boldsymbol{H}^{(l)}\)的权重参数为\(\boldsymbol{W}^{(l)}\),输出层\(\boldsymbol{H}^{(L)}\)的权重参数为\(\boldsymbol{W}^{(L)}\)。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射(identity mapping)\(\phi(x) = x\)。给定输入\(\boldsymbol{X}\),多层感知机的第\(l\)层的输出\(\boldsymbol{H}^{(l)} = \boldsymbol{X} \boldsymbol{W}^{(1)} \boldsymbol{W}^{(2)} \ldots \boldsymbol{W}^{(l)}\)。此时,如果层数\(l\)较大,\(\boldsymbol{H}^{(l)}\)的计算可能会出现衰减或爆炸。举个例子,假设输入和所有层的权重参数都是标量,如权重参数为0.2和5,多层感知机的第30层输出为输入\(\boldsymbol{X}\)分别与\(0.2^{30} \approx 1 \times 10^{-21}\)(消失)和\(5^{30} \approx 9 \times 10^{20}\)(爆炸)的乘积。当层数较多时,梯度的计算也容易出现消失或爆炸。

随机初始化

如果初始化数值都一样,那么下一层如果是全连接层,所有的输出也是一样的,这样一层的参数和一个参数的效果是一样的。
常用的随机初始化方法有

  • pytorch 默认的随机初始化方法。 例如 tourch.nn.init.normal_()用的是正态分布

  • Xavier 随机初始化
    假设某全连接层的输入个数为\(a\),输出个数为\(b\),Xavier随机初始化将使该层中权重参数的每个元素都随机采样于均匀分布

\[ U\left(-\sqrt{\frac{6}{a+b}}, \sqrt{\frac{6}{a+b}}\right). \]

它的设计主要考虑到,模型参数初始化后,每层输出的方差不该受该层输入个数影响,且每层梯度的方差也不该受该层输出个数影响。

考虑环境因素

用某个大佬的话说,机器学习的最重要假设就是

测试集特征分布和训练集的特征分布要一致。

  • 协变量偏移: 这里是说输入的特征分布随时间变化变化,测试时与训练模型的时候特征分布以及不一样了。数学上来说, \(P(x)\)变化了,但是我们的假设的 \(P(y|x)\) 没有变化。
  • 标签偏移: \(P(y)\)分布发生变化, 而假设\(P(x|y)\) 不变,例如在2018年我们为了寻找流感(y)与症状(x,发烧、咳嗽等) 的关系P(x|y), 我们训练了一个模型能够通过症状x判断y的概率P(y); 但是在2019-2020新冠状肺炎疫情期间,因为\(P(y)\)变化了,2018的模型得到的 \(P(x|y)\) 在此时不能用了,否则很有可能把COVID-19诊断为流感,这样的话就完蛋了;可以参考 Label Shift

  • 概念偏移: 出现在概念转换中,即标签本身的定义发生变化的情况。比如软饮这个概念,有的地方用soda, 有的用coke,有的地方用 pop 。这样概念会因位置而变化。

猜你喜欢

转载自www.cnblogs.com/sunchaothu/p/12331999.html