常用loss以及L0,L1以及L2范数

  1. 如果是Square loss,那就是最小二乘了;
  2. 如果是Hinge Loss,那就是著名的SVM了;
  3. 如果是exp-Loss,那就是牛逼的 Boosting了;
  4. 如果是log-Loss,那就是Logistic Regression了;

https://blog.csdn.net/luojun2007/article/details/78136615

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。换句话说,让参数W是稀疏的。(NP-hard,其中,NP是指非确定性多项式(non-deterministic polynomial,缩写NP))

L1范数是指向量中各个元素绝对值之和。L1范数是L0范数的最优凸近似。任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。W的L1范数是绝对值,|w|在w=0处是不可微。

L2范数是指向量中各元素的平方和然后开根。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。

https://www.cnblogs.com/little-YTMM/p/5879093.html

一个是绝对值最小,一个是平方最小:

L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。

猜你喜欢

转载自blog.csdn.net/nathan1025/article/details/82624262