7. 深度学习实践:正则化

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/niaolianjiulin/article/details/79041510

正则化:ML中的一种策略,可减少测试误差,提高模型泛化能力。

开发更有效的正则化策略:深度学习领域主要研究工作之一。

模型族训练的三个过程:

  1. 不包括真实的数据生成过程,欠拟合和含有偏差。
  2. 匹配真实数据生成过程
  3. 除了2中,还包括许多其他可能的生成过程,方差主导的过拟合

正则化的目标:使得模型从第3种转化为第2种。

1. 参数范数惩罚

1.1 L2 参数正则化

权重衰减。

目标函数:

这里写图片描述
梯度为:

这里写图片描述

单步梯度下降:

这里写图片描述

换种写法:

这里写图片描述

加入权重衰减引起学习规则的修改:每步梯度更新前,会先收缩权重向量。

分析训练的整个过程:

w 为不含正则化的目标函数取得最小训练误差时的权重向量。并在其邻域内对目标函数做二次近似。近似的 J^(θ) 如下:

这里写图片描述

H J w 处计算的Hessian矩阵。半正定的。当 J^ 取得最小时,其梯度为

这里写图片描述
为0。在该式中添加权重衰减的梯度,用 w~ 表示此时的最优点。

这里写图片描述

α 趋近于0时,正则化的解 w~ 会趋近于 w 。当 α 增加时如何?

因为 H 实对称的,将其分解为一个对角矩阵和一组特征向量的标准正交基 Q ,可得:

这里写图片描述

权重衰减的效果是:沿着 H 的特征向量定义的轴来缩放 w ,根据 λiλi+α 因子缩放与 H i 个特征向量对齐的 w 的分量。为啥缩放因子是这个?纠结了半天,这样解释合理了:

这里写图片描述
w~ 小, w 大。不严谨的做个除法就是:

w~=HH+αIw

λiα 时,H特征值较大,正则化影响较小,几乎沿该轴无缩放。当 λiα 时,H特征值较小,正则化影响较大,沿着该轴的分量缩放趋近于0。

这里写图片描述

如该图:实线椭圆表示没有正则化目标的等值线。虚线圆圈表示L2正则化的等值线。在 w~ 点两个竞争目标达到平衡。H是此处的海森矩阵,因此处水平缓慢,垂直陡急,则将H特征值分解后, w1 方向的特征值 λ1 很小, w2 方向的特征值 λ2 很大。这预示着当我们从 w 水平移动时,目标函数增加得不太多(等高线宽,坡度较缓),目标函数对该方向没有强烈偏好,正则化项对该轴影响强,逼着为0走。当从 w 垂直移动时,目标函数增加剧烈(等高线窄,坡度较急),目标函数对第二维非常敏感,影响较小。

1.2 L1 正则化

书中7.1.2节进行了假设性的讨论。不再赘述。

结论: L1 正则化会产生更加稀疏的解,最优值中一些参数为0。

L1 正则化导出的稀疏性质,被广泛用于特征选择。例如LASSO模型将 L1 惩罚和线性模型结合。

L2 中的解: w~=HH+αIw ,如果 w 不为0,则解不为0。正则化不会使参数变得稀疏。两者对比直观图,在周志华机器学习笔记中有过。

2. 数据集增强

提高模型泛化能力的最好办法是使用更多的数据进行训练。因实际数据量有限,一个办法是创建假数据并添加到数据集中。

例如分类问题中的对象识别,沿训练图像每个方向平移几个像素的操作通常可以大大改善泛化。旋转,缩放等也已被证明行之有效。但不能改变类别。比如OCR中的6和9,不能这样干。数据集增强对语音识别也有效的。

在NN的输入层注入噪声,也可被视为数据集增强的一种方式。然而,NN对噪声不是非常健壮(NN容易过拟合)。改善方法之一:简单的将随机噪声添加到输入再进行训练。

3. 噪声鲁棒性

对于某些模型,向输入添加方差极小的噪声,等价于对权重施加范数惩罚(1995年Bishhop就发现提出,看来需要回顾20年前的文章)。一般的,噪声注入远比简单收缩参数要更强大,Dropout算法是该做法的发展方向。

3.1 权重上加噪声

一种正则化模型的噪声方式:将其加到权重上。RNN中用。解释:关于权重的贝叶斯推断的随机实现。贝叶斯学习将权重视为不确定的,可通过概率分布表示这种不确定性。向权重添加噪声是反映这种不确定性的一种实用随机方法。

施加于权重的噪声,还可被解释为与传统正则化形式等同的效果:它鼓励要学习的函数保持稳定。鼓励参数进入权重小扰动对输出相对影响较小的参数空间区域。找到的点不只是极小点,还是由平坦区域包围的最小点。

3.2 输出上加噪声

大多数数据集的标签都有错误。我们可以显式地对标签上的噪声进行建模。例如,对标记取其是正确的概率。

标签平滑:通过把确切分类目标从0和1替换为 ϵk1 1ϵ ,正则化具有 k 个输出的 softmax 函数的模型。标准交叉熵损失可以用在这些非确切目标的输出上。

使用 softmax 和明确目标的最大似然学习可能永远不会收敛: softmax 函数永远无法真正预测0概率或1概率。因此它会继续学习越来越大的权重,预测更极端。权重衰减可防止这种情况,标签平滑也可以解决该问题。

4. 半监督学习

半监督学习框架: P(x) 产生的未标记样本,和 P(x,y) 中的标记样本都用于估计 P(y|x)

DL背景下,半监督学习通常是指:学习一个表示 h=f(x) 。学习表示的目的:相同类中的样本由类似的表示。无监督学习可以帮助:输入空间紧密聚集的样本应该被映射到类似表示。

一般的,新空间上的线性分类器可以达到较好的泛化。例如。可以使用主成分分析(无监督)预处理,然后在投影后的新空间上分类(有监督)。合起来就是半监督。

5. 多任务学习

这里写图片描述

下层:所有任务共享参数
上层:具体任务的参数

共享参数的样本数量相对于单任务增加,改善泛化。前提:不同任务间存在某些统计关系的假设是合理的。

从DL看,底层的先验知识:不同任务中观察到的,解释数据变化的因素中,某些因素是跨两个或更多任务共享的。

6. 提前终止

训练中几乎一定会出现:

这里写图片描述

这启发我们:每次验证集误差有所改善后,存储模型参数的副本。训练算法终止时,返回最优参数,而非最新参数。当验证集上的误差在事先指定的循环次数内没有进一步改善时,算法终止。这就是提前终止策略。有效,简单,常用的正则化。

6.1 提前终止为什么具有正则化效果?

从验证集上的U形损失可看出,提前终止是起到了一种正则化策略的效果。

底层的真正机制是什么呢?作者在该节以一种假设讨论了,不赘述。

结论:提前终止可以将优化过程的参数空间,限制在初始参数值的小领域内(1995年)。

这里写图片描述

两种逼近 w^ 的方式路径相反。左图是从原点开始扩大,右图是L2惩罚逼迫最小值去逼近原点。想象用学习率 ϵ 进行 τ 个优化步骤,则 ϵτ 可表示参数空间的大小,其效果就好像是权重衰减系数的倒数。空间越大,则越接近最优点,代表着权重衰减系数越小。反之空间越小,代表着权重衰减系数越大。

猜你喜欢

转载自blog.csdn.net/niaolianjiulin/article/details/79041510