我们知道线性回归的损失范数可以用下面的公式来表示:
a是我们要求的系数,y是预测值,f是目标值。优化策略是使E越小越好。
正则化的目的是,是模型对噪声不那么敏感,减少过拟合,使模型具有更好的泛化性。
L2范数
如果我们要使用L2范数也就是岭回归(ridge regression),则有
作用是加上一个第二个式子,防止a太大,a太大会使模型对于噪声很敏感,导致过拟合的情况,所以对E进行正则化,缩小a的取值,防止过拟合的情况出现。
求解过程为:
(1)
(2)
(3)
(4)
L1范数
L1 norm : ,绝对值之和。注意到L1正则化是权值的绝对值之和,E是带有绝对值符号的函数,因此是不完全可微的。
目标函数为
L1正则化是对稀疏的值的解决方法,ai中非常小的值会被逼近为0。这样L1正则化会自动选择重要的特征,去掉不重要的特征。
总结
a ------> L2正则化 ------> 使结果更平滑
a ------> L1正则化 ------> 使结果更稀疏
左图是L2正则化的图像,右图是L1正则化。因为L2的图像是一个圆,所以容易产生平滑的结果,而L1是一个菱形,容易在产生坐标轴上面的交点,因此会产生稀疏解。最外层的蓝色的线就是因为要产生最小的距离,所以取最近的交点是最优解。