机器学习基石笔记:14 Regularization

原文地址:https://www.jianshu.com/p/e3116693e5c3

一、正则化的假设集合

通过从高次多项式的\(H\)退回到低次多项式的\(H\)来降低模型复杂度,以减小过拟合的可能性。如何退回?

图1.1 正则化

通过加上约束条件:

图1.2 约束条件

如果加了严格的约束条件,就没有必要从\(H_{10}\)退回到\(H_{2}\),直接使用\(H_{2}\)就可以了。

图1.3 严格的约束条件

因此,加上松弛点的约束条件,使得模型比\(H_{2}\)复杂,但到不了\(H_{10}\)那么复杂。

图1.4 更松弛的约束条件1
图1.5 更松弛的约束条件2

二、权重衰减正则化

图2.1 带正则项的回归问题的矩阵形式

可以通过拉格朗日乘子法处理带约束的优化问题。
可视化解释如下:
只看谷的话,需沿着梯度反方向下降到谷底;只看超球面的话,需沿着垂直于法向量的方向滚。判断当前\(W\)是否是最优解就看它能否在超球面上的同时还能向更接近谷底的方向滚。数学上,可理解为梯度反方向在法向量方向上投影不为0;否则,即梯度反方向平行于当前法向量。此时已经是最优解。
也可以通过求导证到相同结论。

图2.2 拉格朗日乘子法
图2.3 增广误差1
图2.4 增广误差2

权重衰减正则项 ------ 权重大小受到限制。

图2.5 权重衰减正则项1
图2.6 权重衰减正则项2
图2.7 权重衰减正则项3

三、正则化和VC理论

正则化后,有效VC维变小。

图3.1 正则化和VC维
图3.2 增广误差的另一种观点
图3.3 有效VC维

四、通用正则项

通用正则项选择:
基于目标的、情理上说得通的、便于求解的。
与代价函数选择类似。

图4.1 通用正则项
图4.2 L1和L2正则项
图4.3 最优的正则项系数值

注:namuta = lambda = \(\lambda\)

猜你喜欢

转载自www.cnblogs.com/cherrychenlee/p/10800276.html