L1,L2范数

我们知道线性回归的损失范数可以用下面的公式来表示:

                                        E= \left \| ya-f \right \|^{2}

a是我们要求的系数,y是预测值,f是目标值。优化策略是使E越小越好。

正则化的目的是,是模型对噪声不那么敏感,减少过拟合,使模型具有更好的泛化性。


L2范数

如果我们要使用L2范数也就是岭回归(ridge regression),则有

                                E_1 = \left \| ya-f \right \|^{2} + \alpha\left \| a \right \|^2

作用是加上一个第二个式子,防止a太大,a太大会使模型对于噪声很敏感,导致过拟合的情况,所以对E进行正则化,缩小a的取值,防止过拟合的情况出现。

求解过程为:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \frac{\partial E_{1}}{\partial a}=0                               (1)

                                                 2y^{T}(ya-f)+2\alpha a=0    (2)

                                                (y^{T}y+\alpha I )a = y^{T}f            (3)

扫描二维码关注公众号,回复: 14698643 查看本文章

                                                a = (y^{T}+\alpha I)^{-1}y^{T}f          (4)


L1范数

L1 norm : \sum |a_{i}| ,绝对值之和。注意到L1正则化是权值的绝对值之和,E是带有绝对值符号的函数,因此是不完全可微的。

目标函数为

                    E_1= \left \| ya-f \right \|^{2}+\alpha\left \| a \right \|​​​​​​​

L1正则化是对稀疏的值的解决方法,ai中非常小的值会被逼近为0。这样L1正则化会自动选择重要的特征,去掉不重要的特征。


总结

a ------> L2正则化 ------> 使结果更平滑

a ------> L1正则化 ------> 使结果更稀疏

左图是L2正则化的图像,右图是L1正则化。因为L2的图像是一个圆,所以容易产生平滑的结果,而L1是一个菱形,容易在产生坐标轴上面的交点,因此会产生稀疏解。最外层的蓝色的线就是因为要产生最小的距离,所以取最近的交点是最优解。
 

猜你喜欢

转载自blog.csdn.net/qq_39696563/article/details/125713609