线性回归与岭回归的公式推导

线性回归

何为线性?

给定由 $d$ 个属性描述的一个示例， $x=(x_1;x_2;\cdots;x_d)$ ，其中 $x_i$ 是 $x$ 在第 $i$ 个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即
$f(x)=w_1x_1+w_2x_2+\cdots+w_dx_d+b$

向量形式为
$f(x)=w^Tx+b$

其中， $w=(w_1;w_2;\cdots;w_d)$ 。 $w$ 和 $b$ 学得之后，模型就得以确定。

何为线性回归？

给定数据集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\}$ ，其中 $x_i=(x_{i1};x_{i2};\cdots;x_{id}),y_i\in{R}$ 。线性回归指试图学习一个线性模型 $f(x_i)=w^Tx_i+b$ 来准确预测实值输出标记，使得 $f(x_i)\simeq{y_i}$ 。

先考虑一元线性回归，何为一元呢，指输入属性数目只有一个。此时，可忽略关于属性的下标，即 $D=\{(x_i,y_i)\}_{i=1}^n$

如何求解 $w$ 和 $b$ 呢？自然是最小二乘法。
$(w^*,b^*)=\argmin_{(w,b)}\sum_i^n(f(x_i)-y_i)^2=\argmin_{(w,b)}\sum_i^n(y_i-wx_i-b)^2$

求解 $w$ 和 $b$ 使得 $E_{(w,b)}=\sum_{i=i}^m(y_i-wx_i-b)^2$ 最小化的过程，称为线性回归模型的最小二乘“参数估计”。
$\frac{\partial{E_{(w,b)}}}{\partial{w}}=2\bigg(w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i\bigg)$

$\frac{\partial{E_{(w,b)}}}{\partial{b}}=2\bigg(mb-\sum_{i=1}^{m}(y_i-wx_i)\bigg)$

得到 $w$ 和 $b$ 的最优解的闭式解
$w=\frac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\frac{1}{m}\Big(\sum_{i=1}^{m}x_i\Big)^2}$

$b=\frac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)$

其中， $\bar{x}=\frac{1}{m}\sum_{i=1}^mx_i$ 为 $x$ 的均值。

接下来考虑多元线性回归。类似的使用最小二乘法来估计 $w$ 和 $b$ 。

由于机器学习中向量一般为列向量，把数据集 $D$ 表示为一个 $n\times{(d+1)}$ 大小的矩阵 $X$ ，其中每行对应一个示例，每行前 $d$ 个元素对应示例的 $d$ 个属性值，每行最后一个元素恒为1。另外，将 $w$ 和 $b$ 吸收进向量形式 $\hat{w}=(w;b)$
$\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d} &1\\ x_{21} & x_{22} & \cdots & x_{2d} &1\\ \vdots & \vdots & \ddots & \vdots& \vdots\\ x_{n1} & x_{n2} & \cdots & x_{nd} &1 \end{bmatrix}_{n\times{(d+1)}} y=\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix}_{n\times1} \hat{w}= \begin{bmatrix} w_{1} \\ w_{2} \\ \vdots \\ w_{d} \\ b \end{bmatrix}_{(d+1)\times1}$

于是，根据最小二乘法求解 $\hat{w}$
$\hat{w}^*=\argmin_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w})$

令 $E_{\hat{w}}=(y-X\hat{w})^T(y-X\hat{w})$ ，则
$E_{\hat{w}}=(y-X\hat{w})^T(y-X\hat{w})=(y^T-\hat{w}^TX^T)(y-X\hat{w})=y^Ty-y^TX\hat{w}-\hat{w}^TX^Ty+\hat{w}^TX^TX\hat{w}$

由于误差为实数，因此式中每个均为实数，而又因为
$y^TX\hat{w}=(\hat{w}^TX^Ty)^T$

最终，化简得
$E_{\hat{w}}=y^Ty-2\hat{w}^TX^Ty+\hat{w}^TX^TX\hat{w}$

对 $\hat{w}$ 求导，

$\frac{dA^TB}{A}=B，\frac{dX^TAX}{A}=2AX$

$\frac{\partial{E_{\hat{w}}}}{\partial{\hat{w}}}=2X^TX\hat{w}-2X^Ty=2X^T(X\hat{w}-y)=0$

求解时会设计逆矩阵的计算，因此当 $X^TX$ 为满秩矩阵或正定矩阵时，可得
$\hat{w}^*=(X^TX)^{-1}X^Ty$

令 $\hat{x}_i^*=(x_i,1)$ ，学习到的线性回归模型为
$f(\hat{x}_i)=\hat{x}_i^T(X^TX)^{-1}X^Ty$

岭回归

在现实任务中， $X^TX$ 往往不是满秩矩阵，例如当样本的属性数目大于样本数，导致 $X$ 的列数大于行数， $X^TX$ 显然不满秩。不满秩则意味着有多个解 $\hat{w}$ ，选择哪一个解呢？常见做法是引入正则化项。
$\hat{w}^*=\argmin_{\hat{w}}[(y-X\hat{w})^T(y-X\hat{w})+\lambda{P(w)}]$

其中， $P (w)$ 为惩罚项， $\lambda$ 为惩罚系数。当 $P(w)=\|\hat{w}\|^2$ ，则称为岭回归。

令 $E_{\hat{w}}=(y-X\hat{w})^T(y-X\hat{w})+\lambda{\hat{w}^T\hat{w}}$ ，则
$E_{\hat{w}}=(y^T-\hat{w}^TX^T)(y-X\hat{w})+\lambda{\hat{w}^T\hat{w}}=y^Ty-y^TX\hat{w}-\hat{w}^TX^Ty+\hat{w}^TX^TX\hat{w}+\lambda{\hat{w}^T\hat{w}}$

进一步化简，得
$E_{\hat{w}}=\hat{w}^T(X^TX+\lambda{I})\hat{w}-2\hat{w}^TX^Ty+y^Ty$

对 $\hat{w}$ 求导，
$\frac{\partial{E_{\hat{w}}}}{\partial{\hat{w}}}=2(X^TX+\lambda{I})\hat{w}-2X^Ty=0$

最终解得，
$\hat{w}^*=(X^TX+\lambda{I})^{-1}X^Ty$

参考文献

深入理解线性回归与岭回归(数学推导)
《机器学习》—— 周志华

线性回归与岭回归的公式推导

线性回归

岭回归

猜你喜欢