针对过拟合、欠拟合及其解决方案的认识

欠拟合（underfitting）：模型无法得到较低的训练误差；
过拟合（overfitting）：模型的训练误差远小于它在测试数据集上的误差。

给定训练数据集，模型复杂度和误差之间的关系：

在这里插入图片描述

Image Name
当对该隐藏层使用丢弃法时，该层的隐藏单元将有一定概率被丢弃掉。设丢弃概率为 $p$ ，那么有 $p$ 的概率 $h_i$ 会被清零，有 $1-p$ 的概率 $h_i$ 会除以 $1-p$ 做拉伸。丢弃概率是丢弃法的超参数。具体来说，设随机变量 $\xi_i$ 为0和1的概率分别为 $p$ 和 $1-p$ 。使用丢弃法时我们计算新的隐藏单元 $h_i'$

$h_i' = \frac{\xi_i}{1-p} h_i$

由于 $E(\xi_i) = 1-p$ ，因此

$E(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i$

针对梯度消失、梯度爆炸的认识

深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。
如果将每个隐藏单元的参数都初始化为相等的值，那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值，并传递至输出层。在反向传播中，每个隐藏单元的参数梯度值相等。通常将神经网络的模型参数，特别是权重参数，进行随机初始化。
考虑环境因素
协变量偏移：输入特征X改变；
标签偏移：输出标签y改变；
概念偏移：X到y之间出现新的映射关系。

针对循环神经网络进阶的认识

RNN

$H_{t} = ϕ(X_{t}W_{xh} + H_{t-1}W_{hh} + b_{h})$
LSTM

$I_t = σ(X_tW_{xi} + H_{t−1}W_{hi} + b_i)$
$F_t = σ(X_tW_{xf} + H_{t−1}W_{hf} + b_f)$
$O_t = σ(X_tW_{xo} + H_{t−1}W_{ho} + b_o)$
$\widetilde{C}_t = tanh(X_tW_{xc} + H_{t−1}W_{hc} + b_c)$
$C_t = F_t ⊙C_{t−1} + I_t ⊙\widetilde{C}_t$
$H_t = O_t⊙tanh(C_t)$
GRU

$R_{t} = σ(X_tW_{xr} + H_{t−1}W_{hr} + b_r)$
$Z_{t} = σ(X_tW_{xz} + H_{t−1}W_{hz} + b_z)$
$\widetilde{H}_t = tanh(X_tW_{xh} + (R_t ⊙H_{t−1})W_{hh} + b_h)$
$H_t = Z_t⊙H_{t−1} + (1−Z_t)⊙\widetilde{H}_t$
深度循环神经网络

$\boldsymbol{H}_t^{(1)} = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(1)} +\boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{hh}^{(1)} +\boldsymbol{b}_h^{(1)})\\ \boldsymbol{H}_t^{(\ell)} = \phi(\boldsymbol{H}_t^{(\ell-1)} \boldsymbol{W}_{xh}^{(\ell)} + \boldsymbol{H}_{t-1}^{(\ell)} \\\boldsymbol{W}_{hh}^{(\ell)} + \boldsymbol{b}_h^{(\ell)})\\ \boldsymbol{O}_t = \boldsymbol{H}_t^{(L)} \boldsymbol{W}_{hq} + \boldsymbol{b}_q\\$
双向循环神经网络
$\begin{aligned} \overrightarrow{\boldsymbol{H}}_t &= \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(f)} + \overrightarrow{\boldsymbol{H}}_{t-1} \boldsymbol{W}_{hh}^{(f)} + \boldsymbol{b}_h^{(f)})\\ \overleftarrow{\boldsymbol{H}}_t &= \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(b)} + \overleftarrow{\boldsymbol{H}}_{t+1} \boldsymbol{W}_{hh}^{(b)} + \boldsymbol{b}_h^{(b)}) \end{aligned} \\ \boldsymbol{H}_t=(\overrightarrow{\boldsymbol{H}}_{t}, \overleftarrow{\boldsymbol{H}}_t)\\ \boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hq} + \boldsymbol{b}_q$

《动手学深度学习》Task03打卡

针对过拟合、欠拟合及其解决方案的认识

针对梯度消失、梯度爆炸的认识

针对循环神经网络进阶的认识

猜你喜欢