参考原文https://github.com/Catherine08/AI-paper-reading/blob/master/Regression%20shrinkage%20and%20selection%20via%20the%20lasso%E8%AE%BA%E6%96%87.pdf

最小二乘解

这个能用的推导太多了，在此不赘述。
当 $X^{T} X$ 为满秩矩阵或正定矩阵时，可以求得：
$\vec{w}^{*}=\left(X^{T} X\right)^{-1} X^{T} \vec{y}$

但是，在实际问题中， $X^{T} X$ 往往并不是满秩矩阵：自行列向量之间存在高度多重共线
性，或列向量数大于行向量数。这会导致偏回归系数无解或结果无效，为了能够克服这问题，可以使用子集选择将高自相关变量删除，或者选用岭回归也能够避免 $X^{T} X$ 不可逆的情况。

岭回归推导和Shrinkage

岭回归在$X^{T} X$的基础上加上一个较小的λ扰动，从而使得行列式不再为0：
$\vec{w}^{*}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} \vec{y}$

设 OLS （最小二乘回归）的解为 $\bar{w}$ ，岭回归的解为 $\bar{w'}$

$\begin{array}{l} \bar{w'}_{i}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} y \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X\right)\left(X^{T} X\right)^{-1} X^{T} y \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X\right) \bar{w} \\ =\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} X+\lambda I-\lambda I\right) \bar{w} \\ =\left(I-\lambda\left(X^{T} X+\lambda I\right)^{-1}\right) \bar{w}<\bar{w} \end{array}$
这里就出现了shrinkage。

可以看出， $\bar{w'}$ 是对 $\bar{w}$ 向原点的压缩，并不会出现某一系数为 0 的稀疏解情况。但是，在实际问题中，特征存在冗余，稀疏解有利于找到有用的维度并减少冗余，提预测高鲁棒性和准确性。

Lasso稀疏性推导

Lasso公式：
$\vec{w}^{*}=\arg \min _{\vec{w}^{*}}\left[\sum_{1}^{N}\left(W^{T} \vec{X}_{\iota}-y_{i}\right)^{2}+\lambda \sum_{j=1}^{p+1}\left|w_{j}\right|\right]=\arg \min _{\vec{w}^{*}} \sum_{i=1}^{N}\left(W^{T} \vec{X}_{i}-y_{i}\right)^{2} \\ \sum_{j=1}^{p+1}\left|w_{j}\right| \leq t$
在这里插入图片描述
原文中作者还讨论了：
$\hat{\beta}_{j}=\operatorname{sign}\left(\hat{\beta}_{j}^{0}\right)\left(\left|\hat{\beta}_{j}^{0}\right|-\gamma\right)^{+}$
有兴趣的同学可以去原文看看。

总结

对于回归问题，lasso 有两个重要特点：

对系数进行压缩；
能特征选择。
这两个特点解决了 OLS 的无解情况，相比岭回归多了特征选择的作用。
从另一角度，lasso 可以看作对 OLS 加上 l1 正则化，有控制模型复杂度的作用。

Haor.L

原创文章 27 获赞 56 访问量 1万+

关注私信

正则化，岭回归Shrinkage，lasso稀疏性推导和论文总结

最小二乘解

岭回归推导和Shrinkage

Lasso稀疏性推导

总结

猜你喜欢