线性模型（三）之线性回归

在前一篇博客线性模型（二）之多项式拟合中介绍了一维数据的多项式拟合问题。理解多项式拟合后，再来看线性回归，会发现，如出一辙。线性回归和多项式拟合的主要区别在于：

1. 线性回归基础

线性回归的输入是多维的

线性回归模型不仅是参数的线性函数，也是输入 $\mathbf{x}$ 的线性函数，即不会像多项式拟合中会有 $x^2,x^3$ 等高次幂出现。

线性回归的基本形式如下：

输入：数据集 $D=\{(\mathbf{x}_1,y_1), (\mathbf{x}_2,y_2), .., (\mathbf{x}_N,y_N)\}$ ，其中 $\mathbf{x}_i = \{x_{i1},x_{i2},...,x_{id}\}$ ， $d$ 表示输入数据的维度是 $d$ 维，并且 $x_{ij}\in R,y_i \in R$ .
输出： $f(\mathbf{x}) = \mathbf{w}\mathbf{x} + b = w_1x_1 + w_2x_2 + ... + w_dx_d +b$

从这里可以看出，和多项式拟合是非常相似的，同样选择平方误差作为损失函数。

\begin{aligned} E (w, b) & = \sum_{i = 1}^{N} [f (x_{i}) - y_{i}]^{2} \\ = \sum_{i = 1}^{N} [w_{1} x_{i 1} + w_{2} x_{i 2} + . . . + w_{d} x_{i d} - y_{i}]^{2} \end{aligned}

$\begin{equation*} \begin{aligned} E(\mathbf{w},b) &= \sum_{i=1}^{N} [f(\mathbf{x}_i) - y_i]^2 \\ &= \sum_{i=1}^{N} [ w_1x_{i1} + w_2x_{i2} + ... + w_dx_{id}- y_i]^2 \end{aligned} \end{equation*}$

同理，可以用求偏导再联立方程求解。当然是用矩阵形式的最小二乘法则是通用的做法。用矩阵表示误差函数

E (w) = {‖ X w^{T} - y ‖}_{2}

$\begin{equation*} E( \mathbf{w}) = {\lVert \mathbf{X}\mathbf{w}^T - \mathbf{y} \rVert}_2 \end{equation*}$

其中， $\mathbf{w} = [b, w_1, w_2, ..., w_d]$ ，将 $b$ 吸收了， $\mathbf{y} = \{y_1,y_2,...,y_N\}^T$

\begin{matrix} X = [\begin{matrix} 1 & x_{11} & x_{12} & . . . & x_{1 d} \\ 1 & x_{21} & x_{22} & . . . & x_{2 d} \\ . . . & . . . & . . . & . . . & . . . \\ 1 & x_{N 1} & x_{N 2} & . . . & x_{N d} \end{matrix}] \end{matrix}

$\begin{gather*} \mathbf{X} = \begin{bmatrix} 1 & x_{11} & x_{12} &... &x_{1d} \\ 1 & x_{21} & x_{22} &... &x_{2d} \\ ... & ... & ... & ... & ... \\ 1 & x_{N1} & x_{N2} &... &x_{Nd} \\ \end{bmatrix} \end{gather*}$

和多项式拟合中，矩阵求导一样，求解得到

w^{T} = (X^{T} X)^{- 1} X^{T} y

$\begin{equation*} \mathbf{w}^T = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \end{equation*}$

如果只是是用单纯的线性回归，容易导致模型过拟合，因此一般会使用正则化技术。在线性回归的基础上，加上 $L_1$ 正则项，就是lasso回归，而加上 $L_2$ 正则项，就构成了ridge回归。

2. ridge回归（岭回归）

ridge回归，又称之为岭回归，是在线性回归的损失函数上增加了 $L_2$ 正则项，公式如下：

E (w) = {‖ X w^{T} - y ‖}_{2} + ‖ w ‖_{2}

$\begin{equation*} E( \mathbf{w}) = {\lVert \mathbf{X}\mathbf{w}^T - \mathbf{y} \rVert}_2 + \lVert \mathbf{w}\rVert_2 \end{equation*}$

同样，对其求导，令导数为0，可以得到参数 $\mathbf{w}$ 的值。

w = (X^{T} w + I) X^{T} y

$\begin{equation*} \mathbf{w} = (\mathbf{X}^T\mathbf{w} + \mathbf{I})\mathbf{X}^T \mathbf{y} \end{equation*}$

可见，ridge回归的求解方式和基础的线性回归时类似的。

3. lasso回归

lasso回归是在线性回归的损失函数上增加了 $L_1$ 正则化，因为 $L_1$ 正则化可以使得部分参数为0，因此可以起到特征选择的作用。损失函数变成如下的形式：

E (w) = {‖ X w^{T} - y ‖}_{2} + ‖ w ‖_{1}

$\begin{equation*} E( \mathbf{w}) = {\lVert \mathbf{X}\mathbf{w}^T - \mathbf{y} \rVert}_2 + \lVert \mathbf{w}\rVert_1 \end{equation*}$

在lasso回归中，损失函数不连续可导，因此无解析解，一般采用坐标轴下降法进行迭代求解。