L1和L2正则化的直观理解

这一部分我们可以通过图形解释两个问题(1)为什么L1正则化后可以产生稀疏模型(L1是怎么让系数等于0的)。(2)为什么L2正则化可以防止过拟合。


图(1)说明:蓝色的圆圈表示没有经过限制的损失函数在寻找最小值的过程,显示了W的不断迭代变化情况,用等高线的方式表示W变化,W∗是最小值取到的点。(图(1)来源于参考博客3)

1)为什么L1正则化后可以产生稀疏模型(L1是怎么让系数等于0的)?

 

假设带L1正则化的损失函数公式(8),α是正则化系数。注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J是不完全可导的。当我们在原始损失函数MSE后添加L1正则化项时,相当于对J做了一个约束。约束公式如下:

 

此时我们的任务变成在L约束下求出J取最小值的解。考虑二维的情况,即只有两个权值L=|w1|+|w2|。对于梯度下降法,求解L也可以在w1-w2的二维平面上画出来,如图(1)右图所示。我们发现L1正则项的优势,w∗的位置恰好是w1=0的位置,可以直观想象,因为L函数有很多『突出的角』(二维情况下四个,多维情况下更多),MSE与这些角接触的机率会远大于与L其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。

2)为什么L2正则化可以防止过拟合?

二维平面下L2正则化的函数是一个圆形,处处可导,计算方便。可以快速的找到使代价函数最小的系数。具体解释已经在上面第二部分第(3)小结解释过了。

 

总结:

我们可以看出,L2的约束函数是一个圆形,所以最优解一般不会产生在一个坐标轴上,也就是说回归的系数全都是非零的。同时,这也说明了L2正则化的缺点:模型的不可解释性。它将把不重要的预测因子的系数缩小到趋近于0,但永不达到0。也就是说,最终的模型会包含所有的预测因子。但是,在 L1中,如果将α因子调整得足够大,L1范数惩罚可以迫使一些系数估计值完全等于 0。因此,L1可以进行变量X的选择,产生稀疏模型。

猜你喜欢

转载自blog.csdn.net/beyond_2016/article/details/80011386
今日推荐