机器学习基石第十四讲笔记

Lecture 14: Regularization 规则化

14-1 规则化假说集

regularization:the magic 从多次的hypothesis set走回到低次的hypothesis set,避免了overfit的发生。

ill-posed problems:指有很多的函数都满足solution,所以要限制一下,不然会出现问题。

so how to step back?


高次的hypothesis和低次的区别只是高次项系数为0,这也就是为什么在图中,H2包括在H10中。


那么当把高次8个系数设为0修改为任意8个系数设为0时:


那么H2'可以视作H2和H10的中间选项,比H2要更灵活,比H10要更少冒险。

扫描二维码关注公众号,回复: 122651 查看本文章

但有一个bad news:找到一个好的sparse H2',是一个NP-hard问题。

对H2'的进一步改写,算w^2求和小于一个定值的时候,对应的hypothesis为:


那么H(C)和H2'是有overlap的,但不是完全相同。

显而易见地,随着C的增大,有如下包含关系:


14-2 Weight Decay Regularization

上一节的公式写出来为:


可以画图表示为:


现在在点w上,要朝着负梯度的方向滚下去,一路很顺利的话到点wlin,即linear regression的solution。

而限制条件,是w要在半径是根号C的圆里面,所以大部分情况下,w在圆的边际,那么这时要判断w是否是最佳解。

判断依据:在符合条件的情况下,是否还能从山坡上往下滚。(不能出限制的圆)

所以要向垂直于圆的法向量normal的地方走,即绿色箭头的方向。

那也就是说,如果现在是最好的解wREG上时,有:


此时:


解方程式后得到:

如果知道numda,问题会变得简单很多。


numda大的时候会underfit,太小会overfit。

只需要一点点的numda:a little regularization goes a long way。

numda越大,则w越短越好,C较小比较好,所以这种regularization叫做weight decay regularization,倾向于把系数变小。


14-3 规则化和VC维理论



这节基本没听懂。。不写了


14-4 General Regularizers

规则化的选择方式: target-dependent, plausible or friendly

区分一下L2 Regularizer和L1 Regularizer的区别


noise越高,regularization能发挥越好的效果。


猜你喜欢

转载自blog.csdn.net/weixin_37805505/article/details/79450146
今日推荐