岭回归的统计学解释

一、背景

在从曲线拟合谈平方和误差函数与最大似然的关系一文中，说明了极大似然与平方和误差函数之间的关系。但是，平方和损失函数易导致过拟合，原因有两点。

1、当样本规模有限而特征数量较为庞大时，训练过程容易受到到数据中的边缘特征的干扰。

2、从统计上看，当训练数据不充分时，高斯似然函数关于方差的估计的期望会小于实际方差。

说来说去，都是训练数据不充分所致，但得到大量的训练数据通常需要付出较高的代价，机器学习的目标是在数据不充分的条件下找到应对过拟合的策略。

二、岭回归

岭回归属于正则化的一种，它是在平方损失函数的基础上加入了待求解参数的二次项约束，形式为：

$\bg_white \frac{1}{2}\sum_{n=1}^{N}\left \{ y(x_n,\textbf{\textit{w}})-t_n\right \}^2+\lambda ||\textbf{\textit{w}}||^2\ \ \ \ \ \ \ \ (1)$

其中，参数 $\lambda$ 控制正则化的力度，起到了权衡偏差和方差的作用，当 $\lambda$ 等于 0 时，上式退化为的平方和损失函数。

三、统计学解释

岭回归的统计学解释与贝叶斯定理有关。具体的，在似然函数的基础上引入参数的先验分布，借助似然函数和先验分布去最大化参数的后验概率，即

$\bg_white p(\textbf{\textit{w}}|\textbf{x},\textbf{t},\alpha ,\beta )\propto p(\textbf{t}|\textbf{x},\textbf{\textit{w}},\beta )p(\textbf{\textit{w}}|\alpha )\ \ \ \ \ \ \ \ (2)$

这种给定数据集，通过最大化后验概率来确定参数的方法被称为最大后验，简称MAP。为简单起见，令先验概率的形式为高斯分布，即

$p(\textbf{\textit{w}}|\alpha )=\textbf{\textit{N}}(\textbf{\textit{w}}|\textbf{0},\alpha^{-1}\textbf{\textit{I}})\ \ \ \ \ \ \ \ (3)$

根据（3）式，并结合从曲线拟合谈平方和误差函数与最大似然的关系中对似然函数的推导，对（2）式取负对数进行化简，可得最大化（2）式便是最大化下式

$\frac{\beta }{2}\sum_{n=1}^{N}\left \{ y(x_n,\textbf{\textit{w}})-t_n\right \}^2+\frac{\alpha }{2}\textbf{\textit{w}}^T\textbf{\textit{w}}\ \ \ \ \ \ \ \ (4)$

显然，（4）式即（1）式岭回归的等价形式。

四、直观解释

（4）式中， $\alpha$ 充当了调节参数，本质是依托贝叶斯定理的 最大后验 技术。

岭回归有减小回归系数的效果，这可以从（2）式进行直观的理解，最大化（2）式即同时最大化似然函数和先验概率，要使得先验概率最大化，参数 $\textbf{\textit{w}}$ 必然要趋近于均值 $\textbf{\textit{u}}$ 附近，而 $\textbf{\textit{u}}$ 等于 $\textbf{0}$ ，因此岭回归有减小参数 $\textbf{\textit{w}}$ 的效果。

参数 $\textbf{\textit{w}}$ 较小，意味着最终拟合出的曲线相对较为光滑，不会轻易陷入过拟合。

对（2）式整体上可以这样理解： 似然函数的最大化易于学习到训练数据中的边缘特征，因此，我们需要给参数 $\textbf{\textit{w}}$ 一个约束，这个参数在未得到任何训练数据之前，我们已经知悉它的概率分布。我们希望得到一个参数值，该参数值不仅使得似然函数的值较大，同时取得该参数值的先验概率值也较大。

Paul-LangJun

发布了94 篇原创文章 · 获赞 31 · 访问量 9万+

私信关注