【机器学习·西瓜书学习笔记·线性模型】线性回归——最小二乘法（least square method）

线性模型的基本形式

给定由 $d$ 个属性描述的实例 $\mathbf{x}=\left ( x_1;x_2;...;x_d \right )$ ,其中 $x_i$ 是 $\mathbf{x}$ 在第 $i$ 个属性上的取值，线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即

$f\left ( \mathbf{x} \right )=\omega _1x_1+\omega _2x_2+...+\omega _dx_d+b$

一般用向量形式写成：

$f\left ( \textbf{x} \right )=\mathbf{w}^T\mathbf{x}+b$

$\mathbf{w}$ 和 $b$ 确定后，模型就得以确定

参数查阅表

$\hat{\omega }=\left ( \omega ;b \right )$

把数据集 $D$ 表示为一个m*（d+1）大小的矩阵 $\textbf{X}$ ，其中每行对应于一个实例，每行前d个元素对应于实例的d个属性值，最后一个元素恒置于1，即

$\textbf{X}=\begin{pmatrix} x_{11}& x_{12}&...&x_{1d}&1\\ x_{21}& x_{22}&...&x_{2d}&1\\\vdots & \vdots &\ddots &\vdots &\vdots \\x_{m1}& x_{m2}&...&x_{md}&1\end{pmatrix}=\begin{pmatrix} \mathbf{x}^T_1&1\\ \mathbf{x}^T_2&1\\\vdots &\vdots \\\mathbf{x}^T_m&1 \end{pmatrix}$

（一）均方误差（mean squared error）

基于欧几里得距离（Euclidean distance），我们得到回归任务最常用的性能度量均方误差

$E\left ( f\text{;}D\right )=\frac{1}{m}\sum_{i=1}^{m}\left ( f\left ( x_i \right )-y_i \right )^2$

更一般的描述

$E\left ( f\text{;}D \right )=\int_{\mathbf{x}\sim D}^{}\left ( f\left ( \textbf{x}\right ) -y\right )^2p\left ( \textbf{x} \right )d\mathbf{x}$

p.s. D为给定样例集， $y_i$ 是实例 $x_i$ 的真实标记，概率密度函数 $p\left ( \cdot \right )$

(二)最小二乘法做单元线性回归

最小二乘法基于均方误差最小化，在线性模型中可用于单个属性（ $x_i$ ）多个数据的线性回归。求解 $\omega$ 和 $b$ 使

$E\left ( \omega \text{,}b \right )=\sum_{i=1}^{m}\left ( y_i-\omega x_i-b \right )^2$

均方误差最小。

分别对 $\omega$ 和 $b$ 进行求导，得到

$\frac{\partial E\left ( \omega \text{,}b \right )}{\partial \omega }=2\left ( \omega \sum_{i=1}^{m} x^2_i-\sum_{i=1}^{m}\left ( y_i-b \right )x_i\right )$

$\frac {\partial E\left ( \omega \text{,}b \right )}{\partial b}=2\left ( mb-\sum _{i=1}^m\left ( y_i-\omega x_i \right )\right )$

然后联立两式等于0，得到最优解

$\omega =\frac{\sum_{i=1}^{m}y_i\left ( x_i-\bar{x} \right )}{\sum_{i=1}^{m}x^2-\frac{1}{m}\left ( \sum_{i=1}^{m}x_i \right )^2}$

$b=\frac{1}{m}\sum_{i=1}^{m}\left ( y_i-\omega x_i \right )$

p.s. $\bar{x}$ 是 $x$ 的均值

最优解 $\omega$ 和 $b$ 带入线性模型，得到

$f\left ( x_i \right )=\omega x_i+b$

（三）最小二乘法做多元线性回归

更一般化，做多个属性多个数据的线性回归。最小二乘法对 $\mathbf{w}$ 和 $b$ 进行估计，使得 $f\left ( \textbf{x}_i \right )=\mathbf{w}^T\mathbf{x}+b,f\left ( \textbf{x}_i \right )\simeq y_i$

参考上面过程,对 $E_{\mathbf{\hat{\omega }}}=\left ( \mathbf{y-X\hat{\omega }} \right )^T\left ( \mathbf{y-X\hat{\omega }} \right )$ 求导得

$\frac{\partial E_{\mathbf{\hat{\omega }}}}{\partial \hat{\omega }}=2\textbf{X}^T\left ( \mathbf{X\hat{\omega }-y} \right )$

等于0，当 $\mathbf{X}^T \mathbf{X}$ 为满轶矩阵或正定矩阵得最优解

$\hat{\omega }^*=\left ( \mathbf{X}^T \mathbf{X} \right )^{-1} \mathbf{X}^T\mathbf{y}$

则解出模型。