正则化：ML中的一种策略，可减少测试误差，提高模型泛化能力。

开发更有效的正则化策略：深度学习领域主要研究工作之一。

模型族训练的三个过程：

不包括真实的数据生成过程，欠拟合和含有偏差。
匹配真实数据生成过程
除了2中，还包括许多其他可能的生成过程，方差主导的过拟合

正则化的目标：使得模型从第3种转化为第2种。

1. 参数范数惩罚

1.1 $L^2$ 参数正则化

权重衰减。

目标函数：

这里写图片描述
梯度为：

这里写图片描述

单步梯度下降：

这里写图片描述

换种写法：

这里写图片描述

加入权重衰减引起学习规则的修改：每步梯度更新前，会先收缩权重向量。

分析训练的整个过程：

令 $w^*$ 为不含正则化的目标函数取得最小训练误差时的权重向量。并在其邻域内对目标函数做二次近似。近似的 $\hat J(\theta)$ 如下：

这里写图片描述

$H$ 是 $J$ 在 $w^*$ 处计算的Hessian矩阵。半正定的。当 $\hat J$ 取得最小时，其梯度为

这里写图片描述
为0。在该式中添加权重衰减的梯度，用 $\tilde w$ 表示此时的最优点。

这里写图片描述

当 $\alpha$ 趋近于0时，正则化的解 $\tilde w$ 会趋近于 $w^*$ 。当 $\alpha$ 增加时如何？

因为 $H$ 实对称的，将其分解为一个对角矩阵和一组特征向量的标准正交基 $Q$ ，可得：

这里写图片描述

权重衰减的效果是：沿着 $H$ 的特征向量定义的轴来缩放 $w^*$ ，根据 $\frac{\lambda_i}{\lambda_i+\alpha}$ 因子缩放与 $H$ 第 $i$ 个特征向量对齐的 $w^*$ 的分量。为啥缩放因子是这个？纠结了半天，这样解释合理了：

这里写图片描述
则 $\tilde w$ 小， $w^*$ 大。不严谨的做个除法就是：

$\tilde w = \frac{H}{H+\alpha I}w^*$

当 $\lambda_i \gg \alpha$ 时，H特征值较大，正则化影响较小，几乎沿该轴无缩放。当 $\lambda_i \ll \alpha$ 时，H特征值较小，正则化影响较大，沿着该轴的分量缩放趋近于0。

这里写图片描述

如该图：实线椭圆表示没有正则化目标的等值线。虚线圆圈表示L2正则化的等值线。在 $\tilde w$ 点两个竞争目标达到平衡。H是此处的海森矩阵，因此处水平缓慢，垂直陡急，则将H特征值分解后， $w_1$ 方向的特征值 $\lambda_1$ 很小， $w_2$ 方向的特征值 $\lambda_2$ 很大。这预示着当我们从 $w^*$ 水平移动时，目标函数增加得不太多（等高线宽，坡度较缓），目标函数对该方向没有强烈偏好，正则化项对该轴影响强，逼着为0走。当从 $w^*$ 垂直移动时，目标函数增加剧烈（等高线窄，坡度较急），目标函数对第二维非常敏感，影响较小。

1.2 $L1$ 正则化

书中7.1.2节进行了假设性的讨论。不再赘述。

结论： $L1$ 正则化会产生更加稀疏的解，最优值中一些参数为0。

$L1$ 正则化导出的稀疏性质，被广泛用于特征选择。例如LASSO模型将 $L1$ 惩罚和线性模型结合。

$L2$ 中的解： $\tilde w = \frac{H}{H+\alpha I}w^*$ ，如果 $w^*$ 不为0，则解不为0。正则化不会使参数变得稀疏。两者对比直观图，在周志华机器学习笔记中有过。

2. 数据集增强

提高模型泛化能力的最好办法是使用更多的数据进行训练。因实际数据量有限，一个办法是创建假数据并添加到数据集中。

例如分类问题中的对象识别，沿训练图像每个方向平移几个像素的操作通常可以大大改善泛化。旋转，缩放等也已被证明行之有效。但不能改变类别。比如OCR中的6和9，不能这样干。数据集增强对语音识别也有效的。

在NN的输入层注入噪声，也可被视为数据集增强的一种方式。然而，NN对噪声不是非常健壮（NN容易过拟合）。改善方法之一：简单的将随机噪声添加到输入再进行训练。

3. 噪声鲁棒性

对于某些模型，向输入添加方差极小的噪声，等价于对权重施加范数惩罚（1995年Bishhop就发现提出，看来需要回顾20年前的文章）。一般的，噪声注入远比简单收缩参数要更强大，Dropout算法是该做法的发展方向。

3.1 权重上加噪声

一种正则化模型的噪声方式：将其加到权重上。RNN中用。解释：关于权重的贝叶斯推断的随机实现。贝叶斯学习将权重视为不确定的，可通过概率分布表示这种不确定性。向权重添加噪声是反映这种不确定性的一种实用随机方法。

施加于权重的噪声，还可被解释为与传统正则化形式等同的效果：它鼓励要学习的函数保持稳定。鼓励参数进入权重小扰动对输出相对影响较小的参数空间区域。找到的点不只是极小点，还是由平坦区域包围的最小点。

3.2 输出上加噪声

大多数数据集的标签都有错误。我们可以显式地对标签上的噪声进行建模。例如，对标记取其是正确的概率。

标签平滑：通过把确切分类目标从0和1替换为 $\frac{\epsilon}{k-1}$ 和 $1-\epsilon$ ，正则化具有 $k$ 个输出的 $\text{softmax}$ 函数的模型。标准交叉熵损失可以用在这些非确切目标的输出上。

使用 $\text{softmax}$ 和明确目标的最大似然学习可能永远不会收敛： $\text{softmax}$ 函数永远无法真正预测0概率或1概率。因此它会继续学习越来越大的权重，预测更极端。权重衰减可防止这种情况，标签平滑也可以解决该问题。

4. 半监督学习

半监督学习框架： $P(x)$ 产生的未标记样本，和 $P(x,y)$ 中的标记样本都用于估计 $P(y|x)$ 。

DL背景下，半监督学习通常是指：学习一个表示 $h=f(x)$ 。学习表示的目的：相同类中的样本由类似的表示。无监督学习可以帮助：输入空间紧密聚集的样本应该被映射到类似表示。

一般的，新空间上的线性分类器可以达到较好的泛化。例如。可以使用主成分分析（无监督）预处理，然后在投影后的新空间上分类（有监督）。合起来就是半监督。

5. 多任务学习

这里写图片描述

下层：所有任务共享参数
上层：具体任务的参数

共享参数的样本数量相对于单任务增加，改善泛化。前提：不同任务间存在某些统计关系的假设是合理的。

从DL看，底层的先验知识：不同任务中观察到的，解释数据变化的因素中，某些因素是跨两个或更多任务共享的。

6. 提前终止

训练中几乎一定会出现：

这里写图片描述

这启发我们：每次验证集误差有所改善后，存储模型参数的副本。训练算法终止时，返回最优参数，而非最新参数。当验证集上的误差在事先指定的循环次数内没有进一步改善时，算法终止。这就是提前终止策略。有效，简单，常用的正则化。

6.1 提前终止为什么具有正则化效果？

从验证集上的U形损失可看出，提前终止是起到了一种正则化策略的效果。

底层的真正机制是什么呢？作者在该节以一种假设讨论了，不赘述。

结论：提前终止可以将优化过程的参数空间，限制在初始参数值的小领域内（1995年）。

这里写图片描述

两种逼近 $\hat w$ 的方式路径相反。左图是从原点开始扩大，右图是L2惩罚逼迫最小值去逼近原点。想象用学习率 $\epsilon$ 进行 $\tau$ 个优化步骤，则 $\epsilon \tau$ 可表示参数空间的大小，其效果就好像是权重衰减系数的倒数。空间越大，则越接近最优点，代表着权重衰减系数越小。反之空间越小，代表着权重衰减系数越大。

7. 深度学习实践：正则化

1. 参数范数惩罚

1.1 $L^2$ 参数正则化

1.2 $L1$ 正则化

2. 数据集增强

3. 噪声鲁棒性

3.1 权重上加噪声

3.2 输出上加噪声

4. 半监督学习

5. 多任务学习

6. 提前终止

6.1 提前终止为什么具有正则化效果？

猜你喜欢

7. 深度学习实践：正则化

1. 参数范数惩罚

1.1 L2 L^2参数正则化

1.2 L1 L1正则化

2. 数据集增强

3. 噪声鲁棒性

3.1 权重上加噪声

3.2 输出上加噪声

4. 半监督学习

5. 多任务学习

6. 提前终止

6.1 提前终止为什么具有正则化效果？

猜你喜欢

1.1 $L^2$ 参数正则化

1.2 $L1$ 正则化