深度学习正则化-参数范数惩罚（L1,L2范数）

机器学习中最常用的正则化措施是限制模型的能力，其中最著名的方法就是L1和L2范数惩罚。

假如我们需要拟合一批二次函数分布的数据，但我们并不知道数据的分布规律，我们可能会先使用一次函数去拟合，再使用二次函数、三次、四次、等等次数的函数去拟合，从中选择拟合效果最好的一个函数来作为我们最终的模型。

上面的方法未免显得有些太繁琐，如果有一批数据输入指数为50的函数分布，按照以上尝试的方法难道我们要尝试50次以上？这显然不太可能。

我们可以上来就先定义一个高次多项式，例如：

$f(x) = w_{50}x^{50} + w_{49}x^{49} + ... + w_{0}x^{0}$

对于我们刚开始提出的问题，从我们定义的一个n次多项式到最佳的二次多项式：

$f(x) = 0x^{50} +0x^{49} + ... + w_{2}x^{2} + 0x^{0}$

我们发现，其实就是限制高次项的系数为0.用数学符号表示：

$min(J(w))$ s.t. $w_{50} = w_{49} = ... = w_{3} = 0$

这样的思路固然好，但是就是不方便实现，我们需要记录所有的函数对应的参数，对于深度学习这种拥有百万级参数规模的学习模型来说，那简直是不可想象的。

因此我们放松限制，仅仅控制参数的数目，而不是从高到低的顺序限制参数。我们将不为0的参数数量限制再c以内来达到限制模型的目的，如下式子所示：

扫描二维码关注公众号，回复： 4232585 查看本文章

$min(J(w)) s.t.\sum_{i=1}^{m} I(w_{i} \neq 0) \leqslant c$

这种方式被称为L0范数惩罚。

虽然我们已经放松了限制，但是以上表达式并不完美，对于实际应用并不是太友好，那么我们不妨再放松一下限制，不要求非零的参数个数控制再c以内，但要求参数绝对值数值的和控制再c以内，如下式所示：

$min(J(w)) s.t.\sum_{i=1}^{m} |w_{i}| \leqslant c$

这种参数数值总和的限制被称之为L1范数惩罚，也被成为参数稀疏性惩罚。

虽然高次项系数可能不为0，但如果发生如下式子中的情况，那么高次项也可以被轻松忽略了：

$f(x) = 0.0001x^{50} +0.0003x^{49} + ... + w_{2}x^{2} + w_{1}x^{0}$

加入L1范数惩罚项的代价函数如下所示：

$J(w) = J(w) + \lambda ||w||_{1}$

计算加入L1范数惩罚函数的代价函数的梯度：(由于绝对值不可导，我们其实只是在原代价函数梯度的基础上再加上lambda与参数本身的符号函数乘积。

$\frac{\partial J(w) }{\partial w_{i}} = \frac{\partial J(w) }{\partial w_{i}} + \lambda sign(w_{i})$

相对于权重衰减，L1范数限制的更为严格，因此也就更加稀疏，稀疏性也就是我们最终优化所得的参数中有很多0，稀疏性一大好处就是有利于特征选择。

虽然我们已经更加放松了限制，但是这还是不完美，因为带有绝对值，我们都知道，绝对值函数再求梯度时不可导，因此我们再次放宽限制，将求绝对值和变为求平方和，如下式所示，这就是L2范数惩罚，也就是我们熟悉的权重衰减惩罚。

$min(J(w)) s.t.\sum_{i=1}^{m} (w_{i})^{2} \leqslant c$

我们可以通过控制c值的大小来限制模型的学习能力，c越大，模型能力就越强（过拟合），c越小，模型能力就越弱（欠拟合）。该条件极值可以通过拉格朗日乘子法来进行求解。

对于L2范数求梯度：

$\frac{\partial J(w) }{\partial w_{i}} = \frac{\partial J(w) }{\partial w_{i}} + 2\lambda w_{i}$

对于以上式子，若 $\lambda$ 为0，则新的代价函数与原代价函数等价。（ $\lambda$ >=0）