深度学习总结一:范数

版权声明:本博所有原创文章,欢迎转载,转载请注明出处 https://blog.csdn.net/qq_34553043/article/details/83045285

深度学习总结一:范数


对应代码
w = a r g m i n w i L ( y i , f ( x i ; w ) ) + λ ψ ( w ) w^* = argmin_w \sum_iL(y_i, f(x_i;w)) + \lambda\psi(w)
监督学习过程: 最小化误差同时规划参数。例如公式中的L项作用是拟合数据, λ ψ ( w ) \lambda\psi(w) 项作用是防止过拟合,简化模型使模型具有更好的泛化能力
当模型复杂化,产生过拟合时,可增大 λ \lambda 或者选择其他形式的 ψ ( w ) \psi(w) ,使 λ ψ ( w ) \lambda\psi(w) 所占的比重增大,约束参数。
这里挑选部分范数说明。

L0范数和L1范数

L0范数是指向量中非零元素的个数。如果用L0规则化一个参数矩阵W,就是希望W中大部分元素是零,实现稀疏化。
L1范数也称为曼哈顿距离。
S = i = 1 n w i S = \sum_{i=1}^n \left|w_i\right|
在这里插入图片描述
如图,目标函数是(w1,w2)空间上的等高线,L1范数则是一个正方形。两者最优解在相交于坐标轴处。那么存在一个权重参数为0,即稀疏化。
L0和L1都可以实现稀疏化,不过一般选用L1而不用L0,原因包括:1)L0范数很难优化求解(NP难);2)L1是L0的最优凸近似,比L0更容易优化求解。(这一段解释过于数学化,姑且当做结论记住)

L2范数

L2范数也称为欧几里得距离和。
S = i = 1 n ( w i ) 2 S = \sum_{i=1}^n (w_i)^2
在这里插入图片描述
与L1范数不同的是L2范数与目标函数最优解并不在坐标轴上,L2会选择更多特征。但因为L2范数的规则项||W||2 尽可能小,可以使得W每个元素都很小,接近于零。

猜你喜欢

转载自blog.csdn.net/qq_34553043/article/details/83045285