过拟合和欠拟合

接下来，我们将探究模型训练中经常出现的两类典型问题：

一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）；
另一类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们重点讨论两个因素：模型复杂度和训练数据集大小。

权重衰减

方法

权重衰减等价于 $L_{2}$

L2 范数正则化（regularization）

$L_{2}$

ℓ (w_{1}, w_{2}, b) = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{2} {(x_{1}^{(i)} w_{1} + x_{2}^{(i)} w_{2} + b - y^{(i)})}^{2}

其中 $w_{1}, w_{2}$

ℓ (w_{1}, w_{2}, b) + \frac{λ}{2 n} | w |^{2},

其中超参数 $λ > 0$

\begin{aligned} w_{1} & \leftarrow (1 - \frac{η λ}{| B |}) w_{1} - \frac{η}{| B |} \sum_{i \in B} x_{1}^{(i)} (x_{1}^{(i)} w_{1} + x_{2}^{(i)} w_{2} + b - y^{(i)}), \\ w_{2} & \leftarrow (1 - \frac{η λ}{| B |}) w_{2} - \frac{η}{| B |} \sum_{i \in B} x_{2}^{(i)} (x_{1}^{(i)} w_{1} + x_{2}^{(i)} w_{2} + b - y^{(i)}) . \end{aligned}

可见， $L_{2}$

丢弃法

多层感知机中神经网络图描述了一个单隐藏层的多层感知机。其中输入个数为4，隐藏单元个数为5，且隐藏单元 $h_{i}$

h_{i} = ϕ (x_{1} w_{1 i} + x_{2} w_{2 i} + x_{3} w_{3 i} + x_{4} w_{4 i} + b_{i})

这里 $ϕ$

h_{i}^{'} = \frac{ξ_{i}}{1 - p} h_{i}

由于 $E (ξ_{i}) = 1 - p$

E (h_{i}^{'}) = \frac{E (ξ_{i})}{1 - p} h_{i} = h_{i}

即丢弃法不改变其输入的期望值。让我们对之前多层感知机的神经网络中的隐藏层使用丢弃法，一种可能的结果如图所示，其中 $h_{2}$

梯度消失和梯度爆炸

深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。

当神经网络的层数较多时，模型的数值稳定性容易变差。

假设一个层数为 $L$

考虑环境因素

协变量偏移

这里我们假设，虽然输入的分布可能随时间而改变，但是标记函数，即条件分布P（y∣x）不会改变。虽然这个问题容易理解，但在实践中也容易忽视。

统计学家称这种协变量变化是因为问题的根源在于特征分布的变化（即协变量的变化）。数学上，我们可以说P（x）改变了，但P（y∣x）保持不变。尽管它的有用性并不局限于此，当我们认为x导致y时，协变量移位通常是正确的假设。

标签偏移

当我们认为导致偏移的是标签P（y）上的边缘分布的变化，但类条件分布是不变的P（x∣y）时，就会出现相反的问题。当我们认为y导致x时，标签偏移是一个合理的假设。例如，通常我们希望根据其表现来预测诊断结果。在这种情况下，我们认为诊断引起的表现，即疾病引起的症状。有时标签偏移和协变量移位假设可以同时成立。例如，当真正的标签函数是确定的和不变的，那么协变量偏移将始终保持，包括如果标签偏移也保持。有趣的是，当我们期望标签偏移和协变量偏移保持时，使用来自标签偏移假设的方法通常是有利的。这是因为这些方法倾向于操作看起来像标签的对象，这（在深度学习中）与处理看起来像输入的对象（在深度学习中）相比相对容易一些。

病因（要预测的诊断结果）导致症状（观察到的结果）。

训练数据集，数据很少只包含流感p(y)的样本。

而测试数据集有流感p(y)和流感q(y)，其中不变的是流感症状p(x|y)。

概念偏移

另一个相关的问题出现在概念转换中，即标签本身的定义发生变化的情况。这听起来很奇怪，毕竟猫就是猫。的确，猫的定义可能不会改变，但我们能不能对软饮料也这么说呢？事实证明，如果我们周游美国，按地理位置转移数据来源，我们会发现，即使是如图所示的这个简单术语的定义也会发生相当大的概念转变。

如果我们要建立一个机器翻译系统，分布P（y∣x）可能因我们的位置而异。这个问题很难发现。另一个可取之处是P（y∣x）通常只是逐渐变化。

GRU

RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）
⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系
RNN:

Image Name

H_{t} = ϕ (X_{t} W_{x h} + H_{t - 1} W_{h h} + b_{h})

GRU:

Image Name

R_{t} = σ (X_{t} W_{x r} + H_{t - 1} W_{h r} + b_{r}) Z_{t} = σ (X_{t} W_{x z} + H_{t - 1} W_{h z} + b_{z}) {\tilde{H}}_{t} = t a n h (X_{t} W_{x h} + (R_{t} ⊙ H_{t - 1}) W_{h h} + b_{h}) H_{t} = Z_{t} ⊙ H_{t - 1} + (1 - Z_{t}) ⊙ {\tilde{H}}_{t}

• 重置⻔有助于捕捉时间序列⾥短期的依赖关系；
• 更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。

LSTM

长短期记忆long short-term memory :
遗忘门:控制上一时间步的记忆细胞输入门:控制当前时间步的输入
输出门:控制从记忆细胞到隐藏状态
记忆细胞：⼀种特殊的隐藏状态的信息的流动

Image Name

I_{t} = σ (X_{t} W_{x i} + H_{t - 1} W_{h i} + b_{i}) F_{t} = σ (X_{t} W_{x f} + H_{t - 1} W_{h f} + b_{f}) O_{t} = σ (X_{t} W_{x o} + H_{t - 1} W_{h o} + b_{o}) {\tilde{C}}_{t} = t a n h (X_{t} W_{x c} + H_{t - 1} W_{h c} + b_{c}) C_{t} = F_{t} ⊙ C_{t - 1} + I_{t} ⊙ {\tilde{C}}_{t} H_{t} = O_{t} ⊙ t a n h (C_{t})

深度循环神经网络

Image Name

H_{t}^{(1)} = ϕ (X_{t} W_{x h}^{(1)} + H_{t - 1}^{(1)} W_{h h}^{(1)} + b_{h}^{(1)}) H_{t}^{(ℓ)} = ϕ (H_{t}^{(ℓ - 1)} W_{x h}^{(ℓ)} + H_{t - 1}^{(ℓ)} W_{h h}^{(ℓ)} + b_{h}^{(ℓ)}) O_{t} = H_{t}^{(L)} W_{h q} + b_{q}

双向循环神经网络

Image Name

\begin{aligned} {\vec{H}}_{t} & = ϕ (X_{t} W_{x h}^{(f)} + {\vec{H}}_{t - 1} W_{h h}^{(f)} + b_{h}^{(f)}) \\ {\overset{\leftarrow}{H}}_{t} & = ϕ (X_{t} W_{x h}^{(b)} + {\overset{\leftarrow}{H}}_{t + 1} W_{h h}^{(b)} + b_{h}^{(b)}) \end{aligned}

H_{t} = ({\vec{H}}_{t}, {\overset{\leftarrow}{H}}_{t})

O_{t} = H_{t} W_{h q} + b_{q}

过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

过拟合和欠拟合

权重衰减

方法

L2 范数正则化（regularization）

丢弃法

梯度消失和梯度爆炸

考虑环境因素

协变量偏移

标签偏移

概念偏移

GRU

LSTM

深度循环神经网络

双向循环神经网络

猜你喜欢