机器学习基石 Lecture14: Regularization

Regularized Hypothesis Set
Weight Decay Regularization
Regularization and VC Theory
General Regularizers

Regularized Hypothesis Set

今天要讲的是正则化的技术。之前的ppt中有一个经典的使用高次函数导致过拟合的例子，但是对应的使用了正则化的方法就会变得更加符合目标函数。也就是说正则化就像是一个从复杂的假设函数集合里回退到简单的假设集合的方法一样，名字来源于函数逼近方法里的一个问题。在这里插入图片描述
所以问题就在于如何从复杂的假设集合中会退到简单集合的结果，或者说是在复杂的假设集合里选到简单的最终结果。可以使用一个一维特征的多项式的映射函数来表示这个问题，使用的是线性规划的模型。最简单的做法就是将高次项的系数限制为0。
在这里插入图片描述
这样做就可以将对应的10阶的假设空间限制为与2阶假设相同的问题：

但是这样做似乎没有什么意义。可以进一步放松条件，改为可以是任意的3个系数不为0，因此这个新的假设空间与原来的两个有一个包含和被包含的关系：
在这里插入图片描述
但是这样做同样也很有问题那就是非常难以求解，进一步放松条件，我们可以对系数的平方和做一个上限的限制，这样就得到了一个可解的问题假设。这个假设空间用 $H(C)$ 表示。

这样的方式就叫做正则化。

Weight Decay Regularization

可以把正则化的回归问题写为矩阵形式：
在这里插入图片描述
于是我们的目标就变成了求解这个带有限制条件的最优化问题。可以先用图形化的方式来理解这个问题。首先依然是沿着梯度下降的方向移动，但是需要考虑到系数有一个限制。对于系数的限制类似于一个高维球面，如果系数w落在球面的表面，那么再进行梯度下降的时候，最终进行下降的方向只能沿着球的切面，否则就会离开球也就是破坏了限制条件。于是最终下降停止的时候也就是负梯度的方向平行于系数 $w_{REG}$ 的时候（球的法向）。也就是说最终梯度加系数的倍数为0。
在这里插入图片描述
如果假定系数 $\lambda>0$ ，那么对于线性回归问题而言，这个方差是一个线性的问题，因此可以直接得到答案：

这个方法叫做鞍回归法。求逆的部分正定因此一定可逆。
但是对于更一般的形式，解这个等式相当于最小化一个附加了一个项的error。也就是说最小化这个 $E_{aug}$ 等同于求解上面的带限制条件的优化问题：
在这里插入图片描述
从最终的结果来看，系数 $\lambda$ 与限制 $C$ 之间有一定的对应关系，最终会体现在结果上：

这样的正则化方法叫做weight-decay regularization方法。另外，在考虑使用高阶多项式时，可以选择使用正交化的空间基底，也就是勒让德多项式，这样做可以避免对高阶项系数的限制太大，因为可能高阶项的特征比较小：
在这里插入图片描述

Regularization and VC Theory

正则化与VC维理论之间也有一些简单的对应关系。当我们最小化那个限制了系数的最优化问题时，相当于是将VC维理论中 $E_{in}$ 与 $E_{out}$ 的等式右边项用了带限制的假设空间 $H(C)$ 的VC维。而最优化有限制条件的问题又等同于最优化 $E_{aug}$ 的结果，因此最优化 $E_{aug}$ 等同于将VC bound中的假设函数的VC维换了。
在这里插入图片描述
另一种看待这个augmented error的方式是， $E_{aug}$ 每一项右边比原来的 $E_{in}$ 多了一项正则项，相当于是单个的假设函数复杂度。而VC bound不等式中的 $\Omega(H)$ 相当于是整个假设空间的复杂度。因此如果 $E_{aug}$ 中多的正则项能够很好的表示 $\Omega(H)$ ，那么相当于说 $E_{aug}$ 是一个比 $E_{in}$ 更好的对于 $E_{out}$ 的代理（逼近）。
在这里插入图片描述
因此理论上直接最小化 $E_{aug}$ 是得到一个更好的逼近，而技术上操作起来（与带限制条件的最优化相比）能够自由搜索所有的假设空间 $H$ 中的假设函数。而使用了这种形式的error measure，对应的模型复杂度依然是不变的，因为所有的高维模型都有可能被考虑到，但是在实际的算法中真正起作用的VC维可能要比 $d_{vc}(H)$ 要小。
在这里插入图片描述

General Regularizers

更一般的来描述一下正则项 $\Omega(w)$ 。一般来说选择正则项有几个原则：

依赖目标函数。如果提前知道目标函数的性质，就可以在正则项里加入对应的知识。
合理性。可能需要得到的结果是比较平滑或者比较简单的（因为噪音都是不平滑的）。因此可以选择稀疏的L1正则化。
计算友好。比如可以选择L2正则化，比较易于计算。
如果得不到好的结果可以选择系数为0，也就是不使用正则化。

在这里插入图片描述
而L1和L2正则化会导致不同方向的结果。L1正则化一般用来为了得到更为稀疏的结果，也就是选择一部分特征。这样的原因是L1正则项的限制使得在梯度下降的时候容易在定点停止。

下图显示了有不同程度噪音的情况下得到最优结果的 $\lambda$ 的大小。大致对应的是噪音越大使用的 $\lambda$ 也应该越大。
在这里插入图片描述