20924039

作者：陶轻松
链接：https://www.zhihu.com/question/20924039/answer/131421690
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

By the way，各位计算机界的叔叔、阿姨、伯伯、婶婶，经过不懈的努力，发现了这个公式很多有意思的地方，它们发现0范数比较恶心，很难求，求解的难度是个NP完全问题。然后很多脑袋瓜子聪明的叔叔、阿姨、伯伯、婶婶就想啊，0范数难求，咱们就求1范数呗，然后就研究出了下面的等式：

一定的条件我就不解释了，这里有一堆算法，例如主成分KPCA等等，例子我就不在举了，还是原话，以后我会尽量多写点这些算法生动点的推到过程，很简单，注重过程，不要死记硬背书本上的结果就好。
上面概括而言就是一句话总结：1范数和0范数可以实现稀疏，1因具有比L0更好的优化求解特性而被广泛应用。然后L2范数，是下面这么理解的，我就直接查别人给的解释好了，反正简单，就不自己动脑子解释了：
L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦；所以大家比起1范数，更钟爱2范数。
所以我们就看到书籍中，一来就是，r(d)= $\frac{\lambda }{2}$ $\left| \left| W \right| \right| ^{2}$ 或者r(d)= ${\lambda }$ $\left| W \right| _{1}$ 这种结构了，然后在机器学习当中还能看到下面的结构：
min{ $\sum_{i}^{N}{(y-W^{T}x )} + \frac{\lambda }{2} \left| \left| W \right| \right| _{2} ^{2}$ } ， $\lambda$ >=0

『科学计算』L0、L1与L2范数_理解 https://www.cnblogs.com/hellcat/p/7979711.html

L0范数是指向量中非0的元素的个数。

1）下降速度：

我们知道，L1和L2都是规则化的方式，我们将权值参数以L1或者L2的方式放到代价函数里面去。然后模型就会尝试去最小化这些权值参数。而这个最小化就像一个下坡的过程，L1和L2的差别就在于这个“坡”不同，如下图：L1就是按绝对值函数的“坡”下降的，而L2是按二次函数的“坡”下降。所以实际上在0附近，L1的下降速度比L2的下降速度要快，会非常快得降到0。

2）模型空间的限制：

实际上，对于L1和L2规则化的代价函数来说，我们可以写成以下形式：

也就是说，我们将模型空间限制在w的一个L1-ball 中。为了便于可视化，我们考虑两维的情况，在(w1, w2)平面上可以画出目标函数的等高线，而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解：

可以看到，L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现，而目标函数的测地线除非位置摆得非常好，大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性，例如图中的相交点就有w1=0，而更高维的时候（想象一下三维的L1-ball 是什么样的？）除了角点以外，还有很多边的轮廓也是既有很大的概率成为第一次相交的地方，又会产生稀疏性。

相比之下，L2-ball 就没有这样的性质，因为没有角，所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性，而L2-regularization 不行的原因了。

总结：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。

四、数值计算角度理解L1和L2正则化与参数稀疏

作者：王赟 Maigo
链接：https://www.zhihu.com/question/37096933/answer/70426653
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

假设费用函数 L 与某个参数 x 的关系如图所示：

则最优的 x 在绿点处，x 非零。

现在施加 L2 regularization，新的费用函数（ $L + Cx^2$ ）如图中蓝线所示：

最优的 x 在黄点处，x 的绝对值减小了，但依然非零。

而如果施加 L1 regularization，则新的费用函数（ $L + C|x|$ ）如图中粉线所示：

最优的 x 就变成了 0。这里利用的就是绝对值函数的尖峰。

两种 regularization 能不能把最优的 x 变成 0，取决于原先的费用函数在 0 点处的导数。
如果本来导数不为 0，那么施加 L2 regularization 后导数依然不为 0，最优的 x 也不会变成 0。
而施加 L1 regularization 时，只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。

上面只分析了一个参数 x。事实上 L1 regularization 会使得许多参数的最优值变成 0，这样模型就稀疏了。

范数（norm）几种范数的简单介绍 https://blog.csdn.net/a493823882/article/details/80569888

5、范数

当时，也就是范数，它主要被用来度量向量元素的最大值，与L0一样，通常情况下表示为

来表示

L0、L1与L2范数_理解

机器学习中常常提到的正则化到底是什么意思？https://www.zhihu.com/question/20924039

四、数值计算角度理解L1和L2正则化与参数稀疏

范数（norm） 几种范数的简单介绍 https://blog.csdn.net/a493823882/article/details/80569888

猜你喜欢

范数（norm）几种范数的简单介绍 https://blog.csdn.net/a493823882/article/details/80569888