机器学习基础(三):线性回归

一、前言

作为回归问题中最简单的线性回归应该是机器学习入门最应该掌握和熟悉的算法。在用最小二乘法来求解线性回归的时候, 如果 X X 不满秩, 则二乘法存在多个解,并存在过拟合的情况。为了避免出现这些情况,对普通的线性回归进行正则化。其中使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。

二、线性回归

1.最小二乘估计

假设数据集 D = ( x 1 y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) D={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)} ,其中 x i = ( x i 1 , x i 2 , . . . , x i d ) T x_i=(x_{i1},x_{i2},...,x_{id})^T ,线性回归试图通过线性组合对该数据集进行拟合,模型可表示为:
f ( x ) = ω 1 x 1 + ω 2 x 2 + . . . + ω d x d + b f ( x ) = ω T x + b f(x)=\omega_1x_1+\omega_2x_2+...+\omega_dx_d+b\\ \Rightarrow f(x)=\omega^Tx+b
其中 ω = ( ω 1 , ω 2 , . . . , ω d ) T \omega=(\omega_1,\omega_2,...,\omega_d)^T b b 可看作 ω 0 x 0 \omega_0x_0 ,令 x 0 = 1 x_0=1 。将 b b 纳入 ω \omega ,形成新的 ω \omega ,则有:
f ( x ) = ω 0 + ω 1 x 1 + ω 2 x 2 + . . . + ω d x d f ( x ) = ω T x f(x)=\omega_0+\omega_1x_1+\omega_2x_2+...+\omega_dx_d\\ \Rightarrow f(x)=\omega^Tx
最优的模型使所有样本 x i x_i 作为输入时产生的输出都能尽可能地接近 y i y_i 。因此,对于矩阵 X = ( x 1 , x 1 , . . . , x n ) T X=(x_1,x_1,...,x_n)^T ,采用最小二乘估计(LSE,Least Square Estimate),以均方误差作为损失函数:
J ( ω ) = 1 N i = 1 N y i ω T x i 2 = 1 N ( Y X ω ) T ( Y X ω ) = 1 N ( Y T ω T X T ) ( Y X ω ) = 1 N ( Y T Y ω T X T Y Y T X ω + ω T X T X ω ) = 1 N ( Y T Y 2 ω T X T Y + ω T X T X ω ) \begin{aligned} J(\omega) & =\frac1N\sum_{i=1}^N\left\|y_i-\omega^Tx_i\right\|^2\\ & = \frac1N(Y-X\omega)^T(Y-X\omega)\\ & = \frac1N(Y^T-\omega^TX^T)(Y-X\omega)\\ & = \frac1N(Y^TY-\omega^TX^TY-Y^TX\omega+\omega^TX^TX\omega)\\ & = \frac1N(Y^TY-2\omega^TX^TY+\omega^TX^TX\omega)\\ \end{aligned}
该损失函数关于 ω \omega 求偏导,得:
J ( ω ) ω = 1 N ( 2 X T Y + 2 X T X ω ) = 0 ω = ( X T X ) 1 X T Y \frac{\partial J(\omega)}{\partial\omega}=\frac1N(-2X^TY+2X^TX\omega)=0\\ \Rightarrow\omega^*=(X^TX)^{-1}X^TY

2.极大似然估计(频率派)

训练数据与模型预测的数据存在误差 ε \varepsilon ,假设该噪声符合高斯分布 ε N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma^2) ,则模型可表示为:
y = ω T x + ε y=\omega^Tx+\varepsilon
因此,在给定参数 x x ω \omega 时, y x , ω N ( ω T x , σ 2 ) y\left|x,\omega\right.\sim N(\omega^Tx,\sigma^2) ,则似然函数:
L ( ω ) = log i = 1 N P ( y i x i , ω ) = i = 1 N log P ( y i x i , ω ) = i = 1 N log ( 1 2 π σ e ( y i ω T x i ) 2 2 σ 2 ) = i = 1 N ( log 1 2 π σ ( y i ω T x i ) 2 2 σ 2 ) \begin{aligned} L(\omega) &=\log\prod_{i=1}^NP(y_i\left|x_i,\omega)\right.\\ & = \sum_{i=1}^N\log P(y_i\left|x_i,\omega)\right.\\ & =\sum_{i=1}^N\log(\frac1{\sqrt{2\mathrm\pi}\sigma}e^{-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}})\\ & =\sum_{i=1}^N(\log\frac1{\sqrt{2\mathrm\pi}\sigma}-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}) \end{aligned}

似然函数最大化,即极大似然估计(MLE,Maximum Likelihood Estimation)得到的 ω \omega 即为模型的解:
ω ^ = a r g    m a x ω L ( ω ) = a r g    m a x ω i = 1 N 1 2 σ 2 ( y i ω T x i ) 2 = a r g    m i n ω i = 1 N ( y i ω T x i ) 2 \begin{aligned} \widehat\omega & =arg\;\underset\omega{max}L(\omega)\\ & =arg\;\underset\omega{max}\sum_{i=1}^N-\frac1{2\sigma^2}{(y_i-\omega^Tx_i)}^2\\ & =arg\;\underset\omega{min}\sum_{i=1}^N{(y_i-\omega^Tx_i)}^2\end{aligned}

由此可以看出最大化 L ( ω ) L(\omega) 等价于最小化 J ( ω ) J(\omega) ,即证得最小二乘法实际上是在假设误差项满足高斯分布情况下使似然函数最大化。

三、岭回归

1.正则化的最小二乘估计

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。损失函数的表现形式为:
J ( ω ) = i = 1 N y i ω T x i 2 + λ ω 2 2 = ( Y X ω ) T ( Y X ω ) + λ ω T ω = ( Y T ω T X T ) ( Y X ω ) + λ ω T ω = Y T Y ω T X T Y Y T X ω + ω T X T X ω + λ ω T ω = Y T Y 2 ω T X T Y + ω T ( X T X + λ I ) ω \begin{aligned} J(\omega) & =\sum_{i=1}^N\left\|y_i-\omega^Tx_i\right\|^2+\lambda\left\|\omega\right\|_2^2\\ & = (Y-X\omega)^T(Y-X\omega)+\lambda\omega^T\omega\\ & = (Y^T-\omega^TX^T)(Y-X\omega)+\lambda\omega^T\omega\\ & = Y^TY-\omega^TX^TY-Y^TX\omega+\omega^TX^TX\omega+\lambda\omega^T\omega\\ & = Y^TY-2\omega^TX^TY+\omega^T(X^TX+\lambda I)\omega \end{aligned}
该损失函数关于 ω \omega 求偏导,得:
J ( ω ) ω = 2 X T Y + 2 ( X T X + λ I ) ω = 0 ω = ( X T X + λ I ) 1 X T Y \frac{\partial J(\omega)}{\partial\omega}=-2X^TY+2(X^TX+\lambda I)\omega=0\\ \Rightarrow\omega^*=(X^TX+\lambda I)^{-1}X^TY
其中, X T X X^TX 为半正定矩阵, I I 为对角矩阵,则 X T X + λ I X^TX+\lambda I 是正定矩阵,是可逆的,因此在 X T X X^TX 不可逆,通常的线性回归无法求解 ω \omega 时,岭回归课对 ω \omega 进行求解。 λ > 0 \lambda>0 是控制模型复杂度的因子(可看作收缩率的大小), λ \lambda 越大,收缩率越大,那么系数对于共线性的鲁棒性更强。

2.最大后验概率(贝叶斯派)

在训练数据与模型预测的数据存在的误差 ε \varepsilon 符合高斯分布 ε N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma^2) 的情况下,假定参数 ω \omega 也服从一个高斯分布,即 ω N ( 0 , σ 0 2 ) \omega\sim N(0,\sigma_0^2) ,则:
P ( ω ) = 1 2 π σ 0 e ω 2 2 σ 0 2 P(\omega) =\frac1{\sqrt{2\mathrm\pi}\sigma_0}e^{-\frac{\left\|\omega\right\|^2}{2\sigma_0^2}}

在给定参数 x x ω \omega 时, y x , ω N ( ω T x , σ 2 ) y\left|x,\omega\right.\sim N(\omega^Tx,\sigma^2) ,有:
P ( y ω ) = 1 2 π σ e ( y ω T x ) 2 2 σ 2 P(y\left|\omega)\right.=\frac1{\sqrt{2\mathrm\pi}\sigma}e^{-\frac{(y-\omega^Tx)^2}{2\sigma^2}}

根据最大后验概率估计(MAP,Maximum A Posteriori)得到的 ω \omega 即为模型的解:
ω ^ = a r g    m a x ω log P ( ω y ) = a r g    m a x ω log P ( y ω ) P ( ω ) P ( y ) = a r g    m a x ω log P ( y ω ) P ( ω ) = a r g    m a x ω ( log 1 2 π σ 0 σ ( ω 2 2 σ 0 2 + ( y ω T x ) 2 2 σ 2 ) ) = a r g    m i n ω ( y ω T x ) 2 + σ 2 2 σ 0 2 ω 2 \begin{aligned} \widehat\omega & =arg\;\underset\omega{max}\log P(\omega\left|y)\right.\\ & =arg\;\underset\omega{max}\log \frac{P(y\left|\omega)\right.P(\omega)}{P(y)}\\ & =arg\;\underset\omega{max}\log P(y\left|\omega)\right.P(\omega)\\ & =arg\;\underset\omega{max}(\log \frac1{2\mathrm\pi\sigma_0\sigma}-(\frac{\left\|\omega\right\|^2}{2\sigma_0^2}+\frac{(y-\omega^Tx)^2}{2\sigma^2}))\\ & =arg\;\underset\omega{min}(y-\omega^Tx)^2+\frac{\sigma^2}{2\sigma_0^2}\left\|\omega\right\|^2\\ \end{aligned}
经过MAP:
ω ^ = a r g    m i n ω i = 1 N ( y i ω T x i ) 2 + σ 2 2 σ 0 2 ω 2 2 \widehat\omega=arg\;\underset\omega{min}\sum_{i=1}^N(y_i-\omega^Tx_i)^2+\frac{\sigma^2}{2\sigma_0^2}\left\|\omega\right\|_2^2
由此可以看出最大化后验概率 P ( ω y ) P(\omega\left|y)\right. 等价于最小化 J ( ω ) J(\omega) ,即证得正则化的最小二乘法实际上是在假设误差项和先验均满足高斯分布情况下使后验概率最大化。

四、总结

本文依次从普通的最小二乘估计、最大似然估计、正则化的最小二乘估计及最大后验概率的角度对线性回归模型进行推导。由此可证得最小二乘估计LSE可与极大似然估计MLE(噪声符合高斯分布为前提)等价,正则化的最小二乘估计RSLE可与最大后验概率估计MAP(噪声和先验符合高斯分布为前提)等价。最大后验概率估计较最大似然估计而言,增加一个假定服从高斯分布的先验知识。

参考资料
[1]机器学习-白板推导系列(三)-线性回归(Linear Regression)
[2]线性回归详解
[3]岭回归
[4]线性回归(频率学派-最大似然估计)与岭回归(贝叶斯角度-最大后验估计)的概率解释

发布了6 篇原创文章 · 获赞 6 · 访问量 285

猜你喜欢

转载自blog.csdn.net/lygeneral/article/details/104239688