机器学习基石第十四周笔记

一.Regularized Hypothesis Set
如果发生了过拟合那么我们该怎么办呢?之前介绍了两种情况,接下来介绍第四种方法正则化。
如下图,我们想将右边的过拟合红线,优化为左图的红线。
我们的想法是将复杂度为10的假设空间退化成复杂度为2的假设空间,那么我们该怎么做呢?
这里写图片描述
我们对两个假设空间进行分析后发现,当我们对复杂度为10的假设空间添加约束条件令w3……w10为0时,假设空间退化成复杂度为2的假设空间。
这里写图片描述
公式化描述如下图所示:
这里写图片描述
等价转换为:
这里写图片描述
事实上上述的等价问题仍然是个NP复杂难度问题,我们依然不容易解得。我们再次放宽约束,然后等价变化如下:
这里写图片描述
这时根据c的取值不同我们将得到复杂度位于0到10之间的任意复杂度的假设空间。
这样我们就能通过不同的c的取值来改变假设空间复杂度来修正过拟合。

二.Weight Decay Regularization
上一节我们已经对Ein做了正则化加了一个constrain,这一节我们就来对这个函数进行求解,并推出这个这一节的标题。
这里写图片描述
我们首先将求和的式子转换成矩阵形式(之前已经讲过转换的方法),然后将条件也转换成矩阵相乘的式子,这时条件变成了一个以原点为中心的圆将我们w的取值限定在这个圆内(如下图的红圈所示)然后图中的蓝圈为我们Ein的其中一个取值,在这个蓝圈的所有w带入Ein的值都是一样的即篮圈为等值线,我们知道一定存在某些蓝圈与红圈相交,而我们满足条件的解一定是某个与红圈相交的蓝圈。
因为在蓝圈上的点的取值都是一样的,所以蓝圈上在红圈内的点与蓝圈上在红圈上的点的效果一样,但是我们求解红圈上的点较容易且我们只需要求解一个点,所以我们要求求解蓝圈与红圈交点处的点。
那我们要求解的交点有什么特点呢?
当Ein在该点的梯度负方向与红圈该点处的法线方向平行时,这就说明该点是满足条件的能使Ein最小的点了。否则还存在其他的点使Ein最小。
终上所述我们所要求的w具备以下两个条件:
1.W必须在红圈上
2.Ein在W处的梯度与W点处的法线方向平行。
我们设梯度与法线的比值为2λ/N,则最终的求解方程式变为下图最后的那个方程式:
这里写图片描述
在给定λ的情况下,我们就能直接解出我们的w值了。
注意这个λ是与c相关的。
这里写图片描述
如果我们不直接对上述等式求解,而是求积分,那么我们就能得到一个等量变换的方程式,这个方程式不带有约束项,但是其解与我们的原始式子(带约束项)有同样的解。
这里写图片描述
这个式子就是我们的标题所讲的weight decay regularization。
而这个λ与之前的C得作用类似,不过效果相反。
这里写图片描述
这里写图片描述
但是上述求解有一个需要注意的地方,假如我们的输入xn∈[-1,+1],那么我们的高次项的值将会变得很小很小,那么这个高次项要想起作用,就需要很大的w值,但是w值已经被我们限制了大小,所以我们的算法会尽量限制甚至忽略高次项,所以我们一般会先将φ(x)进行正则化即将其进行orthonormal处理,这样算法就不会对高次的项存在偏见。
这里写图片描述

三.Regularization and VC Theory
我们接下来将从VC维的角度来解释上面的两个正则化作用:
第一节讲的正则化其实就是用条件C限制了VC维的复杂度,从而弱化过度拟合。
这里写图片描述
而第二节的正则化其实是第一节的对偶形式:
这里写图片描述
我们比较Eaug和Eout的区别发现Eout的上界为Ein加上H的复杂度,Eaug为Ein和单个h的复杂度,当单个h的复杂度能很好的代表整个H的复杂度时,Eaug能比Ein更好的接近Ein.
这里写图片描述
这里写图片描述
如果没有λ那么我们的Eaug与没正则化之前的一样,即复杂度没变,当我们考虑λ的时候我们其实是只考虑了在C范围内的那些H,所以复杂度降低了(我们之前说过C与λ是相关的)
这里写图片描述
这里写图片描述

四.General Regularizers
这一节主要讲解我们该如何设计正则化项。
主要分三类:
1.如果我们知道target function是什么样式,那么我们就设计正则化项更加的偏向于我们想要的target function.
2.如果我们想要平滑简单的假设空间,我们则选择一个L1这样的正则项。
3.如果我们希望结果容易被求解,那么我们可以使用L2正则项。
如果我们找了一个差的正则项,我们将λ=0加入,那么我们最差的结果只会是没加正则项,而不会出现更差的结果。
这里写图片描述

假面介绍L1和L2正则项。
L2正则项是个圆,平滑容易求导,所以非常容易求解结果。
这里写图片描述
L1正则项能够求出稀疏解。
这里写图片描述
选择完正则项那我们该怎么选择λ呢?
如下图所示,当存在随机(决定性)噪声时,一定的λ能够减小Eout但是λ超过一定界限Eout就会上升,而当不存在噪声时λ的存在只会使Eout增加。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/Du_Shuang/article/details/81744227
今日推荐