为什么L1正则具有稀疏性

因为L1会把很小的值压为0,将W变成了一个稀疏矩阵了,而L2则是整体的降小,只是W越大W降的越大,但是不会变成0,更能体现原始特征。因此常用L1来做特征选择。

L1只和稀疏的数据发生交叉,不稀疏的地方就不交叉。

猜你喜欢

转载自blog.csdn.net/weixin_38241876/article/details/89520066