线性回归（Linear Regression）

之前并未做过笔记，所以这篇文章是对线性模型的回顾，对应：

第一周：（06）1.6 线性回归模型
第一周：（07）1.6 线性回归模型-优化算法
第一周：（08）1.6 线性回归模型-模型选择
《机器学习》（西瓜书）：第3章线性模型 - 3.1 基本形式
《机器学习》（西瓜书）：第3章线性模型 - 3.2 线性回归
sklearn官方文档

线性回归（Linear Regression）

1 线性模型（Linear Models）

给定由d个属性描述的示例 ${\boldsymbol x} = (x_1, x_2, \cdots, x_d)$ ，其中 $x_i$ 是 $\boldsymbol x$ 在第i个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测的函数，即：

\hat{y} (ω, x) = f (x) = ω_{0} + ω_{1} x_{1} + ω_{2} x_{2} + \dots + ω_{d} x_{d}

$\hat{y}(\boldsymbol{\omega, x}) = f(\boldsymbol{x}) = \omega_0 + \omega_1 x_1 + \omega_2 x_2 + \cdots + \omega_d x_d$
其中，

ω = (ω_{0}, ω_{1}, ω_{2}, \dots, ω_{d})

$\boldsymbol{\omega} = (\omega_0, \omega_1, \omega_2, \cdots, \omega_d)$ 。

注意，在sklearn中， $\boldsymbol{\omega} = (\omega_1, \omega_2, \cdots, \omega_d)$ 用coef_表示，而 $\omega_0$ 用intercept_表示。

sklearn官方文档原文

$\hat{y} (ω, x) = ω_{0} + ω_{1} x_{1} + ω_{2} x_{2} + \dots + ω_{p} x_{p}$ $\hat{y}(\boldsymbol{\omega, x}) = \omega_0 + \omega_1 x_1 + \omega_2 x_2 + \cdots + \omega_p x_p$
Across the module, we designate the vector $\boldsymbol{\omega} = (\omega_1, \omega_2, \cdots, \omega_p)$ as coef_ and $\omega_0$ as intercept_.

在sklearn中，线性模型来自同一个模块，且使用方法一样，伪代码：

# 导入模块
from sklearn import linear_model

# 使用流程

## 1 新建模型
model = linear_model.线性模型(线性模型参数)

## 2 训练模型
model.fit(X_train)

## 3 预测结果
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

2 线性回归（Linear Regression）与最小二乘法（Ordinary Least Squares）

给定数据集 $D = \{ ({\boldsymbol x}_1, y_1), ({\boldsymbol x}_2, y_2), \cdots, ({\boldsymbol x}_m, y_m) \}$ ，其中 ${\boldsymbol x}_i = (x_{i1}, x_{i2}, \cdots, x_{id})^T, y_i \in {\mathbb R}$ 。

“线性回归”（linear regression）试图学得一个线性模型以尽可能准确地预测输出标记：

f (x_{i}) = ω^{T} x_{i} + b 使得 f (x_{i}) ⋍ y_{i}

$f(\boldsymbol{x_i}) = \boldsymbol{\omega^T} \boldsymbol{x_i} + b \quad \text{使得} \quad f(\boldsymbol{x_i}) \backsimeq y_i$

为了确定其中的 $\boldsymbol{\omega}$ 与 $b$ ，我们将使用回归任务最常用的性能度量方法“均方误差”来衡量 $f(\boldsymbol{x})$ 与 $y$ 之间的差别，我们试图让它最小。

而均方误差的几何意义对应了“欧氏距离”（Euclidean distance）。

2.1 最小二乘法（Ordinary Least Squares）

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”（Ordinary Least Squares）。

假设 $d = 1$ ，即 $\boldsymbol{x} = \{ x_i \}$ ，则线性回归的试图学得：

f (x_{i}) = ω x_{i} + b

$f(x_i) = \omega x_i + b$

均方误差最小化：

\begin{aligned} min E_{(ω, b)} & = \underset{ω}{\arg min} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2} \\ = \underset{ω}{\arg min} \sum_{i = 1}^{m} (y_{i} - ω x_{i} - b)^{2} \end{aligned}

$\begin{aligned} \min{E_{(\omega, b)}} &= \underset{\omega}{\arg \min} \sum_{i = 1}^{m} (f(x_i) - y_i)^2 \\[2ex] &= \underset{\omega}{\arg \min} \sum_{i = 1}^{m} (y_i - \omega x_i - b)^2 \end{aligned}$

最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。所以，为了使上式最小，分别对 $\omega, b$ 求导：

对 $\omega$ 求导详细过程：

$\begin{aligned} \frac{\partial E_{(ω, b)}}{\partial ω} & = \frac{\partial (\sum_{i = 1}^{m} (y_{i} - ω x_{i} - b)^{2})}{\partial ω} \\ = 2 (\sum_{i = 1}^{m} (y_{i} - ω x_{i} - b) (y_{i} - ω x_{i} - b)^{'}) \\ = 2 (\sum_{i = 1}^{m} (y_{i} - ω x_{i} - b) (- x_{i})) \\ = 2 (\sum_{i = 1}^{m} (ω x_{i}^{2} - y_{i} x_{i} + b x_{i})) \\ = 2 (\sum_{i = 1}^{m} (ω x_{i}^{2}) - \sum_{i = 1}^{m} (y_{i} x_{i} - b x_{i})) \\ = 2 (ω \sum_{i = 1}^{m} x^{2} - \sum_{i = 1}^{m} (y_{i} - b) x_{i}) \end{aligned}$ $\begin{aligned} \frac{\partial E_{(\omega, b)}}{\partial\omega} &= \frac{\partial \left( \sum_{i = 1}^{m} (y_i - \omega x_i - b)^2 \right)}{\partial\omega} \\[2ex] &= 2 \left( \sum_{i = 1}^{m} (y_i - \omega x_i - b)(y_i - \omega x_i - b)^\prime \right) \\[2ex] &= 2 \left( \sum_{i = 1}^{m} (y_i - \omega x_i - b)(-x_i) \right) \\[2ex] &= 2 \left( \sum_{i = 1}^{m} (\omega x_i^2 - y_ix_i + bx_i) \right) \\[2ex] &= 2 \left( \sum_{i = 1}^{m} (\omega x_i^2) - \sum_{i = 1}^{m} (y_ix_i - bx_i) \right) \\[2ex] &= 2 \left( \omega \sum_{i = 1}^{m} x^2 - \sum_{i = 1}^{m} (y_i - b) x_i \right) \end{aligned}$
对 $b$ 求导详细过程：

$\begin{aligned} \frac{\partial E_{(ω, b)}}{\partial b} & = \frac{\partial (\sum_{i = 1}^{m} (y_{i} - ω x_{i} - b)^{2})}{\partial b} \\ = 2 (\sum_{i = 1}^{m} (y_{i} - ω x_{i} - b) (y_{i} - ω x_{i} - b)^{'}) \\ = 2 (\sum_{i = 1}^{m} (y_{i} - ω x_{i} - b) (- 1)) \\ = 2 (\sum_{i = 1}^{m} (ω x_{i} - y_{i} + b)) \\ = 2 (\sum_{i = 1}^{m} b + \sum_{i = 1}^{m} (ω x_{i} - y_{i})) \\ = 2 (m b - \sum_{i = 1}^{m} (y_{i} - ω x_{i})) \end{aligned}$ $\begin{aligned} \frac{\partial E_{(\omega, b)}}{\partial b} &= \frac{\partial \left( \sum_{i = 1}^{m} (y_i - \omega x_i - b)^2 \right)}{\partial b} \\[2ex] &= 2 \left( \sum_{i = 1}^{m} (y_i - \omega x_i - b)(y_i - \omega x_i - b)^\prime \right) \\[2ex] &= 2 \left( \sum_{i = 1}^{m} (y_i - \omega x_i - b)(-1) \right) \\[2ex] &= 2 \left( \sum_{i = 1}^{m} (\omega x_i - y_i + b) \right) \\[2ex] &= 2 \left( \sum_{i = 1}^{m} b + \sum_{i = 1}^{m} (\omega x_i - y_i) \right) \\[2ex] &= 2 \left( mb - \sum_{i = 1}^{m} (y_i - \omega x_i) \right) \end{aligned}$

然后再令他们等于零，这样可以解得最优解的闭式（closed-form）：

{\begin{cases} 2 (ω \sum_{i = 1}^{m} x^{2} - \sum_{i = 1}^{m} (y_{i} - b) x_{i}) & = 0 \\ 2 (m b - \sum_{i = 1}^{m} (y_{i} - ω x_{i})) & = 0 \end{cases} ⟹ {\begin{cases} ω & = \frac{\sum_{i = 1}^{m} y_{i} (x_{i} - \frac{1}{m} \sum_{i = 1}^{m} x_{i})}{\sum_{i = 1}^{m} x_{i}^{2} - \frac{1}{m} {(\sum_{i = 1}^{m} x_{i})}^{2}} \\ b & = \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - ω x_{i}) \end{cases}

$\begin{cases} 2 \left( \omega \sum_{i = 1}^{m} x^2 - \sum_{i = 1}^{m} (y_i - b) x_i \right) &= 0 \\[4ex] 2 \left( mb - \sum_{i = 1}^{m} (y_i - \omega x_i) \right) &= 0 \end{cases} \quad \implies \quad \begin{cases} \omega &= \dfrac { \sum_{i = 1}^{m} y_i (x_i - \frac{1}{m} \sum_{i = 1}^{m} x_i) } { \sum_{i = 1}^{m} x_i^2 - \frac{1}{m} \left( \sum_{i = 1}^{m} x_i \right)^2 } \\[4ex] b &= \frac{1}{m} \sum_{i = 1}^{m} (y_i - \omega x_i) \end{cases}$

直接求解 $\omega$ （不使用克莱默法则）详细过程：

那么将b带入到第一个式子得：

$\begin{aligned} 2 (ω \sum_{i = 1}^{m} x^{2} - \sum_{i = 1}^{m} (y_{i} - b) x_{i}) & = 0 \\ ω \sum_{i = 1}^{m} x^{2} & = \sum_{i = 1}^{m} (y_{i} - b) x_{i} \\ ω \sum_{i = 1}^{m} x^{2} & = \sum_{i = 1}^{m} (y_{i} - \frac{1}{m} \sum_{i = 1}^{m} (y_{i} - ω x_{i})) x_{i} \\ ω \sum_{i = 1}^{m} x^{2} & = \sum_{i = 1}^{m} (y_{i} x_{i} - \frac{x_{i}}{m} \sum_{i = 1}^{m} y_{i} + \frac{ω x_{i}}{m} \sum_{i = 1}^{m} x_{i}) \\ ω \sum_{i = 1}^{m} x^{2} & = \sum_{i = 1}^{m} y_{i} x_{i} - \sum_{i = 1}^{m} (\frac{x_{i}}{m} \sum_{i = 1}^{m} y_{i}) + \sum_{i = 1}^{m} (ω x_{i} \cdot \frac{1}{m} \sum_{i = 1}^{m} x_{i}) & , (\frac{1}{m} \sum_{i = i}^{m} x_{i} = \bar{x}, 均值是常数) \\ ω \sum_{i = 1}^{m} x^{2} & = \sum_{i = 1}^{m} y_{i} x_{i} - \sum_{i = 1}^{m} (y_{i} \cdot \frac{1}{m} \sum_{i = 1}^{m} x_{i}) + \frac{ω}{m} {(\sum_{i = 1}^{m} x_{i})}^{2} & , (\sum (a \sum b) = \sum \sum (a b)) \\ ω \sum_{i = 1}^{m} x^{2} - \frac{ω}{m} {(\sum_{i = 1}^{m} x_{i})}^{2} & = \sum_{i = 1}^{m} y_{i} (x_{i} - \frac{1}{m} \sum_{i = 1}^{m} x_{i}) \\ ω & = \frac{\sum_{i = 1}^{m} y_{i} (x_{i} - \frac{1}{m} \sum_{i = 1}^{m} x_{i})}{\sum_{i = 1}^{m} x_{i}^{2} - \frac{1}{m} {(\sum_{i = 1}^{m} x_{i})}^{2}} \end{aligned}$ $\begin{aligned} 2 \left( \omega \sum_{i = 1}^{m} x^2 - \sum_{i = 1}^{m} (y_i - b) x_i \right) &= 0 \\[2ex] \omega \sum_{i = 1}^{m} x^2 &= \sum_{i = 1}^{m} (y_i - b) x_i \\[2ex] \omega \sum_{i = 1}^{m} x^2 &= \sum_{i = 1}^{m} \left(y_i - \frac{1}{m} \sum_{i = 1}^{m} (y_i - \omega x_i) \right) x_i \\[2ex] \omega \sum_{i = 1}^{m} x^2 &= \sum_{i = 1}^{m} \left(y_i x_i - \frac{x_i}{m} \sum_{i = 1}^{m} y_i + \frac{\omega x_i}{m} \sum_{i = 1}^{m} x_i \right) \\[2ex] \omega \sum_{i = 1}^{m} x^2 &= \sum_{i = 1}^{m} y_i x_i - \sum_{i = 1}^{m} \left(\frac{x_i}{m} \sum_{i = 1}^{m} y_i \right) + \sum_{i = 1}^{m} \left( \omega x_i \cdot \frac{1}{m} \sum_{i = 1}^{m} x_i \right) &, \left( \frac{1}{m} \sum_{i = i}^{m} x_i = \bar{x} ,\, \text{均值是常数} \right) \\[2ex] \omega \sum_{i = 1}^{m} x^2 &= \sum_{i = 1}^{m} y_i x_i - \sum_{i = 1}^{m} \left(y_i \cdot \frac{1}{m} \sum_{i = 1}^{m} x_i \right) + \frac{\omega}{m} \left( \sum_{i = 1}^{m} x_i \right)^2 &, \left( \sum (a \sum b) = \sum \sum (ab) \right) \\[2ex] \omega \sum_{i = 1}^{m} x^2 - \frac{\omega}{m} \left( \sum_{i = 1}^{m} x_i \right)^2 &= \sum_{i = 1}^{m} y_i \left( x_i - \frac{1}{m} \sum_{i = 1}^{m} x_i \right) \\[2ex] \omega &= \dfrac { \sum_{i = 1}^{m} y_i (x_i - \frac{1}{m} \sum_{i = 1}^{m} x_i) } { \sum_{i = 1}^{m} x_i^2 - \frac{1}{m} \left( \sum_{i = 1}^{m} x_i \right)^2 } \end{aligned}$

2.2 线性回归（Linear Regression）

放到一般情况，即 ${\boldsymbol x} = (x_1, x_2, \cdots, x_d)$ ，试图学得：

f (x_{i}) = ω^{T} x_{i} + b 使得 f (x_{i}) ⋍ y_{i}

$f(\boldsymbol{x}_i) = \boldsymbol{\omega^T} \boldsymbol{x}_i + b \quad \text{使得} \quad f(\boldsymbol{x_i}) \backsimeq y_i$
这称为“多元线性回归”（multivariate linear regression）。

我们将它适用于所有样本：

y = X \hat{ω}

$\boldsymbol{y = \mathbf{X} \hat\omega}$

其中：

$\boldsymbol{y} = (y_1, y_2, \cdots, y_m)^T$
$X = [\begin{matrix} 1 & x_{11} & x_{12} & \dots & x_{1 d} \\ 1 & x_{21} & x_{22} & \dots & x_{2 d} \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & x_{m 1} & x_{m 2} & \dots & x_{m d} \end{matrix}] = [\begin{matrix} 1 & x_{1}^{T} \\ 1 & x_{2}^{T} \\ ⋮ & ⋮ \\ 1 & x_{m}^{T} \end{matrix}]$ $\mathbf{X} = \begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1d} \\[2ex] 1 & x_{21} & x_{22} & \cdots & x_{2d} \\[2ex] \vdots & \vdots & \vdots & \ddots & \vdots \\[2ex] 1 & x_{m1} & x_{m2} & \cdots & x_{md} \end{bmatrix} = \begin{bmatrix} 1 & \boldsymbol{x}_1^T \\[2ex] 1 & \boldsymbol{x}_2^T \\[2ex] \vdots & \vdots \\[2ex] 1 & \boldsymbol{x}_m^T \\[2ex] \end{bmatrix}$
$\boldsymbol{\hat\omega} = (\boldsymbol{\omega}; b)$

和之前类似的，我们得到均方误差最小化：

min E_{(ω, b)} = \underset{ω}{\arg min} (y - X \hat{ω})^{T} (y - X \hat{ω})

$\min{E_{(\boldsymbol{\omega, b})}} = \underset{\boldsymbol{\omega}}{\arg \min} \boldsymbol{ (y - \mathbf{X}\hat\omega)^T (y - \mathbf{X} \hat\omega)}$

对 $\boldsymbol{\hat\omega}$ 求导得：

$\frac{\partial E_{\hat{ω}}}{\partial \hat{ω}} = \frac{\partial ((y - X \hat{ω})^{T} (y - X \hat{ω}))}{\partial \hat{ω}} = 2 X^{T} (X \hat{ω} - y)$ $\frac{\partial E_{\boldsymbol{\hat\omega}}}{\partial \boldsymbol{\hat\omega}} = \frac{\partial \left( \boldsymbol{ (y - \mathbf{X}\hat\omega)^T (y - \mathbf{X} \hat\omega)} \right)}{\partial \boldsymbol{\hat\omega}} = 2 \boldsymbol{ \mathbf{X}^T (\mathbf{X} \hat\omega - y) }$

同样的令它等于零，这样可以解得最优解的闭式（closed-form）：

\begin{aligned} 2 X^{T} (X \hat{ω} - y) & = 0 \\ X^{T} X \hat{ω} & = X^{T} y \\ (X^{T} X)^{- 1} X^{T} X \hat{ω} & = (X^{T} X)^{- 1} X^{T} y & , i f X^{T} X & = | \begin{array}{ll} 满秩矩阵（full-rank matrix） \\ o r \\ 正定矩阵（positive definite matrix） \end{array} \\ \hat{ω} & = (X^{T} X)^{- 1} X^{T} y \end{aligned}

$\begin{aligned} 2 \boldsymbol{ \mathbf{X}^T (\mathbf{X} \hat\omega - y) } &= 0 \\[2ex] \boldsymbol{ \mathbf{X}^T \mathbf{X} \hat\omega } &= \boldsymbol{ \mathbf{X}^T y } \\[2ex] \boldsymbol{ (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{X} \hat\omega} &= \boldsymbol{ (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T y} &, if \quad \mathbf{X}^T \mathbf{X} &= \left| \begin{array}{ll} \text{满秩矩阵（full-rank matrix）} \\ or \\ \text{正定矩阵（positive definite matrix）} \end{array} \right. \\[2ex] \boldsymbol{ \hat\omega } &= \boldsymbol{ (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T y} \end{aligned}$

则可得出多元最终模型：

f (X_{i}) = X_{i} (X^{T} X)^{- 1} X^{T} y

$f(\boldsymbol{X}_i) = \boldsymbol{X}_i \boldsymbol{ (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T y}$

几乎所有的任务中， $\mathbf{X^TX}$ 都不是满秩矩阵。此时可解出多个 $X_i$ ，选择哪一个作为输出，将由学习算法决定，常见的是引入正则项（regularization）

正则项为空时，也可以称为最小二乘回归。

2.3 sklearn中的线性回归模型

在sklearn中，导入线性回归：

# 线性回归
from sklearn.linear_model import LinearRegression

# 带交叉验证的线性回归
from sklearn.linear_model import LinearRegressionCV

# 使用和之前介绍的一样，以LinearRegression为例
LR = LinearRegression()
LR.fit(X_train)
y_test_pred = LR.predict(X_test)

3 带正则的线性回归（Linear Regression With Regularizer）

3.1 Lasso（L1正则）

它的目标函数为：

\frac{1}{2 \times N_{s a m p l e s}} \times | | y - X ω | |_{2}^{2} + λ | | ω | |_{1}

$\frac{1}{2 \times N_{samples}} \times || \boldsymbol{y} - \boldsymbol{X}\boldsymbol{\omega} ||^2_2 + \lambda || \boldsymbol{\omega} ||_1$

由于 $\lambda || \boldsymbol{\omega} ||_1$ 在 $\omega_j = 0$ 时，不可w微，所以在梯度下降法进行优化求解时，需要使用次梯度。

在sklearn中，导入Lasso：

# Lasso
from sklearn.linear_model import Lasso

# 带交叉验证的Lasso
from sklearn.linear_model import LassoCV

# 使用Lars算法的 Lasso 
from sklearn.linear_model import LassoLars

# 使用Lars算法训练，带交叉验证的 Lasso
from sklearn.linear_model import LassoLarsCV

# 使用赤池或贝叶斯进行模型选择，使用Lars算法训练的 Lasso
from sklearn.linear_model import LassoLarsIC

# 使用方法同LinearRegression
# 其中 alpha 对应 公式中的 lambda

3.2 Ridge（岭回归）（L2正则）

又称为吉洪诺夫正则化方法（Tikhonov regularization），它的目标函数为：

\frac{1}{2 \times N_{s a m p l e s}} \times | | y - X ω | |_{2}^{2} + λ | | ω | |_{2}^{2}

$\frac{1}{2 \times N_{samples}} \times || \boldsymbol{y} - \boldsymbol{X}\boldsymbol{\omega} ||^2_2 + \lambda || \boldsymbol{\omega} ||^2_2$

在sklearn中，导入Ridge：

# 岭回归
from sklearn.linear_model import Ridge

# 带交叉验证的岭回归
from sklearn.linear_model import RidgeCV

# 使用方法同LinearRegression
# 其中 alpha 对应 公式中的 lambda

AI（006） - 笔记 - 回顾线性回归（Linear Regression）