L1和L2正则化的直观理解

这一部分我们可以通过图形解释两个问题（1）为什么L1正则化后可以产生稀疏模型（L1是怎么让系数等于0的）。（2）为什么L2正则化可以防止过拟合。

图（1）说明：蓝色的圆圈表示没有经过限制的损失函数在寻找最小值的过程，显示了W的不断迭代变化情况，用等高线的方式表示W变化，W∗是最小值取到的点。（图（1）来源于参考博客3）

（1）为什么L1正则化后可以产生稀疏模型（L1是怎么让系数等于0的）？

假设带L1正则化的损失函数公式（8）,α是正则化系数。注意到L1正则化是权值的绝对值之和，J是带有绝对值符号的函数，因此J是不完全可导的。当我们在原始损失函数MSE后添加L1正则化项时，相当于对J做了一个约束。约束公式如下：

此时我们的任务变成在L约束下求出J取最小值的解。考虑二维的情况，即只有两个权值L=|w1|+|w2|。对于梯度下降法，求解L也可以在w1-w2的二维平面上画出来，如图（1）右图所示。我们发现L1正则项的优势，w∗的位置恰好是w1=0的位置，可以直观想象，因为L函数有很多『突出的角』（二维情况下四个，多维情况下更多），MSE与这些角接触的机率会远大于与L其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是为什么L1正则化可以产生稀疏模型，进而可以用于特征选择。

（2）为什么L2正则化可以防止过拟合？

二维平面下L2正则化的函数是一个圆形，处处可导，计算方便。可以快速的找到使代价函数最小的系数。具体解释已经在上面第二部分第（3）小结解释过了。

总结：

我们可以看出，L2的约束函数是一个圆形，所以最优解一般不会产生在一个坐标轴上，也就是说回归的系数全都是非零的。同时，这也说明了L2正则化的缺点：模型的不可解释性。它将把不重要的预测因子的系数缩小到趋近于0，但永不达到0。也就是说，最终的模型会包含所有的预测因子。但是，在 L1中，如果将α因子调整得足够大，L1范数惩罚可以迫使一些系数估计值完全等于 0。因此，L1可以进行变量X的选择，产生稀疏模型。

L1和L2正则化的直观理解

猜你喜欢