史上最简单易懂、全面详细的“正则化”教程

进入正文

全文摘要

在机器学习和深度学习中，最艰难的问题就是如何面对模型的过拟合问题，处理过拟合的方式手段多样，我们常常听见的方法是“正则化”，但是，很多的资料对于正则化的介绍要么是单调片面、要么是晦涩难懂，本文汲取众家之长，由浅入深，彻底搞明白正则化的原理和应用。

本文偏长，阅读全文约20分钟。

一、模型过拟合

1.1 什么是模型的过拟合

1. 1训练的模型过拟合，根据方差+偏差的分解，则说明“方差”很大，直观的含义就是，模型的稳定性不强，表现在某一个特征输入数据“稍有波动”，模型的效果会变差。因为在测试集上面的很多数据都是没有见过的，相比于训练数据，难免会有差别，故而如果用一个过拟合的模型，在测试集上面的表现自然不好。

我们称这样的模型“太过复杂”了（注意是引号），复杂的体现在于，模型中求出的参数在训练的时候为了“迎合”误差的减少，很多参数很大（过分强调一些特征），很多参数有很小（一些微小的特征），这样就会导致模型会有一种“偏爱”。自然，因为模型的这点偏爱，导致的结果就是，测试集的数据稍有波动，表现就不好了，即所谓的过拟合。与其说是“复杂”，倒不如说是“畸形”更恰当。

我们希望模型“简单”

可以用下面这个例子去类比模型所谓的“简单”和“复杂”。比如我们可以将某一个人类比成一个模型，我们经常说这个人心思很“复杂”，稍微点点事情不满意，就会发脾气（类比过拟合），在别人看来，他的心思是真的复杂，这件事情只不过有一点点不满意（理解为测试样本一点点的波动性），真的搞不懂他心里怎么想的（这难道不是“复杂”么）。复杂的原因莫过于他过分重视一些东西，即所谓的想不开，重视的东西不能有任何偏差。而另外一些人，我们常说她们心思很“简单”，因为他们遇见一些不满意的事情，依然很淡定的对待，和平时没什么两样，心里没想那么多（这不是很简单么），直白的说，就是这个人对一切事物都

1.2 过拟合的解决办法

自然，我们希望遇到更“简单”的模型，简单的方式有以下几种：

1、获取更多的样本

2、丢弃一部分特征，增强模型的容错能力（比如PCA降维，神经网络的dropout机制）

3、不丢其特征，保留所有的特征，但是减少参数的大小（magnitude）。确保所有的特征对于预测都有所贡献，而不是“偏爱”某几种特征。

当每一个特征Xi对y都有贡献的时候，这样的模型是比较健康稳定的，可以良好地工作，

这就是正则化的目的，可以用来解决过拟合。

正则化策略：以增大训练误差为代价，来减少测试误差（如果在训练误差上很小，可能出现过拟合的情况）；

注意：这里有一个理解层面的不同。

1、有的将L1,L2称之为正则化，因为这是最普遍的用法，此正则化减少模型的“复杂度”是通过让模型的参数不那么“畸形”实现的，并没有减少参数的个数。

2、有的将dropout技术也称之为正则化，因为它通过丢弃参数，也达到了减轻模型“复杂度”的目的。

3、有的甚至更加笼统，只要是能够较轻模型“过拟合”的技术，全部称之为“正则化”毕竟正则化是以增大偏差为代价，减少模型的方差。所以只要是能够防止过拟合的手段，都可以称之为正则化，包括L1,L2（范数约束）,dropout、 drop connect、早停法、数据增强与扩充等等都统称正则法。

二、L1、L2正则化

L1、L2正则化的本质是范数约束，目的是为了“惩罚”，惩罚什么呢？后面会回答。

2.1 L2正则化

L2 正则化公式非常简单，直接在原来的损失函数基础上加上权重参数的平方和：

其中，cost(f-y) 是未包含正则化项的训练样本误差，λ 是正则化参数，是可以调节的。但是正则化项是如何推导的？接下来，我将详细介绍其中的物理意义。

我们知道，正则化的目的是限制参数过多或者过大，避免模型更加复杂。例如，使用多项式模型，如果使用 10 阶多项式，模型可能过于复杂，容易发生过拟合。所以，为了防止过拟合，我们可以将其高阶部分的权重 w 限制为 0，这样，就相当于从高阶的形式转换为低阶。

为了达到这一目的，最直观的方法就是限制 w 的个数，但是这类条件属于 NP-hard 问题，求解非常困难。所以，只能选择另一个方法，限制参数w的大小，一般的做法是寻找更宽松的限定条件：

上式是对 w 的平方和做数值上界限定，即所有w 的平方和不超过参数 C。这时候，我们的目标就转换为：最小化训练样本误差 cost（f-y），但是要遵循 w 平方和小于 C 的条件。也可以理解为，在所有参数的平方和不超过C的前提条件下，还使得样本的训练误差最小。

下面，我用一张图来说明如何在限定条件下，对 cost(f-y) 进行最小化的优化。

注意：因为图片是来自于一位网友的博客，所以图中的字母和文中使用的稍有区别，这个地方仅有两个参数w1,w2，所以正则化约束为,

在图像上展示就是一个圆而cost(f-y)=f(x1,x2,w1,w2)-y

当然，这里的x1、x2、w1、w2之间的关系的可能是一个较为复杂的函数关系，注意，这里的蓝色范围本质上是一个三维图的俯视图范围，因为X轴为w1,Y轴为w2，Z轴为f(x1,x2,w1,w2)。本质上，

cost(f-y)=f(x1,x2,w1,w2)-y和regularity=w12+w22

都是参数w1、w2的函数

如上图所示，蓝色椭圆区域是最小化 cost(f-y) 区域，红色圆圈是参数w 的限定条件区域。在没有限定条件的情况下，一般使用梯度下降算法，在蓝色椭圆区域内会一直沿着 w 梯度的反方向前进，直到找到全局最优值即可。例如空间中有一点 w（图中紫色点），此时 w 会沿着 -∇Ein 的方向移动，如图中蓝色箭头(梯度方向)所示。但是，由于存在限定条件，w 不能离开红色圆形区域，最多只能位于圆上边缘位置，沿着切线方向。w 的方向如图中红色箭头所示。

那么问题来了，存在限定条件，w 最终会在什么位置取得最优解呢？也就是说在满足限定条件的基础上，尽量让 cost(f-y) 最小。

从上面可以得知，如果不考虑正则化范围，运动的方向为“蓝色箭头”，但根据向量的分解，分解为红色箭头（逐渐朝正则化范围边界移动）和绿色剪头，那什么时候停止呢？因为有红色箭头分量的存在，迟早会到达边界，当在正则化项的边界相切的时候，就停止更新参数，我们经常看见这样一句话：代价函数在“模型代价”和“正则化约束”两项规则的综合作用下，正则化后的模型参数应该收敛在“误差等值线”与“正则项等值线”的相切的位置。下面会解释它的含义。

如上图所示：

红色表示的是“正则项等值线”，蓝色的表示的是cost(f-y)的等值线，不一定是圆，这里用圆表示。在没有正则化项时，黑色箭头是梯度的下降方向，在有了正则化项以后，相当于给运动的箭头施加了约束，一方面，我不能逃离红色箭头的约束范围，另一方面，又要保证箭头要向着梯度减小的方向运动，故而运动的曲线是图中的绿色剪头。当红色箭头和绿色剪头相切的时候，不能够再继续向下运动了，因为它就逃离了红色范围的约束。

现在可以解释正则化“惩罚”二字的含义了。它惩罚的是总的“成本函数”，因为从图中可以看出，黑色箭头到达终点后的“代价函数”很明显是低于绿色剪头所到达的终点处的代价函数，即增加正则化项之后，代价适当增大了，即模型收到了“惩罚”。根据方差-偏差分解原则，偏差增大，方差会减小，方差减小，防止过拟合的能力增强。

（注意：因为L2正则化会让参数趋于“平滑”，所以，有时候也说，惩罚大的参数，即让大的参数变小）

2.2 L1正则化

L1正则化的原理与L2正则化类似，它的定义如下：

根据L2的定义方式，则有，此处依然以两个参数w1,w2为例，则有

|w1|+|w2|<=C 它的图形为一个正方形，如下所示：

Cost(f-y)优化算法不变，L1 正则化限定了 w 的有效区域是一个正方形，且满足 |w| < C。空间中的点 w 沿着 cost(f-y)的方向移动。但是，与此同时w 不能离开红色正方形区域，最多只能位于正方形边缘位置。其推导过程与 L2 类似，就不再重复说明了。

三、正则化的数学理解

3.1 L2正则化的数学推导

我们前面从图形的角度，用了一些形象的描述去解释了L1 L2正则化的原理，那么怎么从数学角度的层面去解释为什么正则化可以解决过拟合呢？

下面以L2正则化为例：

成本函数为：

在上面的式子中，m表示的的是样本数，n表示的是参数个数，不能混淆。从这里可以看出，此时的成本函数Cost不再仅仅由模型预测值和真实值之间的差别决定了，还可参数w的取值有关。后面的正则化项是为了施加约束，现在要达到减小成本函数这一目的，就不能够随意的取w参数值了，为什么？

比如，某一很大的w确实能够使得成本函数前面的部分的取值很小，但是因为wi2会很大，而最终组合起来的成本函数并不小，反而很大。这样，要使得总的成本函数很小，参数w就不能随意取多大的值了，不让w取太大的值，这不就是正则化的一种约束吗？需要约束w本身的大小，与此同时还要使得原来部分的误差减小，这就是L2达到的效果，这其实也就是L2正则项为什么使得参数w相对较平滑（即参数w大小相差不会太大），后面还会解释“平滑”二字的原因。

比如对于参数wi，求偏导数，则有如下：

在每一次迭代的过程中，都会将参数wi收缩一点点，收缩的过程，不就是使得参数更加“平滑”吗？为什么要对wi进行收缩呢，因为成本cost与wi2是成正比的，如果是wi不缩小，成本就不会减小，所以要不断试图减小参数wi的值。

——迭代寻找最小值点的过程可以看成是“带有约束条件的非线性约束问题”

四、平顺性和稀疏性

4.1 个参数w的解释

我们先从一个参数w的例子看起。横坐标为w

假设费用函数 L 与某个参数 w 的关系如图所示：

则最优的 w 在绿点处，w 非零。

现在施加 L2 regularization，新的代价函数如图中蓝线所示：

最优的 w 在黄点处，w 的绝对值减小了，但依然非零。

而如果施加 L1 regularization，则新的代价函数如图中粉线所示：

最优的 w 就变成了 0。这里利用的就是绝对值函数的尖峰(形象理解很重要)。

两种 regularization 能不能把最优的w 变成 0，取决于原先的费用函数在 0 点处的导数。
如果本来导数不为 0，那么施加 L2 regularization 后导数依然不为 0，最优的 w 也不会变成 0。
而施加 L1 regularization 时，只要regularization 项的系数 C 大于原先费用函数在0 点处的导数的绝对值，x = 0 就会变成一个极小值点。

上面只分析了一个参数 w。事实上 L1 regularization 会使得许多参数的最优值变成 0，这样模型就稀疏了。

4.2 两个参数w1 w2的解释

4.2

下面讨论两个参数w1和w2的时候。

（这个图形实际上一个俯视图哦）

以二维情况讨论，上图左边是 L2 正则化，右边是 L1 正则化。从另一个方面来看，满足正则化条件，实际上是求解蓝色区域与黄色区域的交点，即同时满足限定条件和 cost(f-y) 最小化。对于 L2 来说，限定区域是圆，这样，得到的解 w1 或 w2 为 0 的概率很小，很大概率是非零的。（为什么？后面会讲）

对于 L1 来说，限定区域是正方形，方形与蓝色区域相交的交点是顶点的概率很大，这从视觉和常识上来看是很容易理解的。也就是说，方形的凸点会更接近cost(f-y)最优解对应的位置，而凸点处必有 w1 或 w2 为 0，因为每一个尖尖的位置是在wi的坐标轴上。这样，得到的解 w1 或 w2 为零的概率就很大了。所以，L1 正则化的解具有稀疏性。

扩展到高维，同样的道理，L2 的限定区域是平滑的，与中心点等距；所以每一个平滑的位置和cost(f-y)相交的机会是差不多大的，而 L1 的限定区域是包含很多个凸点的，尖锐的。很明显，这些凸出去的尖尖肯定更加接近cost(f-y)的最优点。而在这些凸点上，很多 wi 为 0。

这就是关于 L1 更容易得到稀疏解的原因。

我们可以这样理解，L2正则化是一个规则的平滑的图形，它在向cost（f-y）移动的过程中，任何一个地方靠近最优点的概率差不多，因为他很平滑，但是L1正则化有非常多的“尖尖”，在向cost（f-y）移动的过程中，很大概率上是“尖尖”部分靠近最优点，而尖尖部分就是wi为0的时候。

本节总结

总结：正则化减少模型的复杂度，L1减少了参数的数量（轻量化模型——稀疏解），因为有很多的0参数，L2减少了参数的差距，它使得参数更“平顺，平滑”。

L2正则化使用得更多，也是sklearn默认的正则化方式。

L1正则化主要有以下几个用途：

（1）特征选择。L1会让参数里面元素为0的尽量多，因此可以排除那些对模型结果没什么影响的特征，从而简化问题，降低模型复杂度。所以L1减轻过拟合实际上是较少特征数量。

（2）可解释性。模型参数向量系数化之后，只会留下那些重要的特征，这样就很容易解释模型结果与哪些因素之间的因果关系，具备更加清楚的解释性。

五、正则化与先验信息

5.1 二者联系

正则化与“先验信息”到底又是什么关系呢？

正则化参数等价于对参数引入先验分布（贝叶斯派的观点），使得模型复杂度变小（缩小解空间），增强模型的鲁棒性和对噪声的容忍能力（泛化能力）。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计，其中正则化项对应后验估计中的先验信息，损失函数对应后验估计中的似然函数，两者的乘积即对应贝叶斯最大后验估计的形式。其中：

L1正则化等于是引入了拉普拉斯先验

L2正则化等于是引入了高斯先验分布

这里不具体去解释了，可以查阅相关文档

六、正则化系数λ的影响

6.1 系数λ

正则化是结构风险最小化的一种策略实现，能够有效降低过拟合。损失函数实际上包含了两个方面：一个是训练样本误差。一个是正则化项。其中，参数 λ 起到了权衡的作用。

以L2 为例，若 λ 很小，对应上文中的 C 值就很大。这时候，圆形区域很大，能够让 w 更接近 cost(f-y) 最优解的位置。若 λ 近似为 0，相当于圆形区域覆盖了最优解位置，这时候，正则化失效，容易造成过拟合。相反，若 λ 很大，对应上文中的 C 值就很小。这时候，圆形区域很小，w 离 cost(f-y) 最优解的位置较远。w 被限制在一个很小的区域内变化，w 普遍较小且接近 0，起到了正则化的效果。但是，λ 过大容易造成欠拟合。欠拟合和过拟合是两种对立的状态

一句话：λ 过大容易造成欠拟合，λ 过小容易造成过拟合。

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

史上最简单易懂、全面详细的“正则化”教程

猜你喜欢