1 最小二乘法简介

最小二乘法（Least square method，又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。（来自于百度百科）

注：最小二乘法用途很广，不仅限于线性回归

2 最小二乘法历史

1801年，意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后，由于谷神星运行至太阳背后，使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星，但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。

法国科学家勒让德于1806年独立发明“最小二乘法”，但因不为世人所知而默默无闻。

勒让德曾与高斯为谁最早创立最小二乘法原理发生争执。

1829年，高斯提供了最小二乘法的优化效果强于其他方法的证明，因此被称为高斯-马尔可夫定理。

最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。正如美国统计学家斯蒂格勒( S. M. Stigler)所说,“最小二乘法之于数理统计学犹如微积分之于数学”。最小二乘法是参数回归的最基本得方法所以研究最小二乘法原理及其应用对于统计的学习有很重要的意义。（来自于百度百科）

3 基本形式

给定由 $d$ 个属性描述的示例 ${\bf{x}} = ({x_1};{x_2}; \ldots ;{x_d})$ ，其中 ${x_i}$ 是 ${\bf{x}}$ 现在第 $i$ 个属性上取值，线性模型去学习一个通过属性的线性组合来进行预测的函数，即

$f({\bf{x}}) = {\omega _1}{x_1} + {\omega _2}{x_2} + \ldots + {\omega _d}{x_d} + b$

一般用向量形式表示更为简洁：

$f({\bf{x}}) = {{\bf{\omega }}^{\rm{T}}}{\bf{x}} + b$

其中， ${\bf{\omega }} = ({\omega _1};{\omega _2}; \ldots ;{\omega _d})$

其实可以很简单的理解，如下图直线是由很多点组成的，如果事先不知道直线的方程，只有一些点，那么根据这些点求得的函数就是这条直线。我们的任务就是根据已知的一些数据求解得到函数。当然这只是一元线性回归，还有多元线性回归与之类似。

回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线性就是一个超平面。

4 一元线性回归

给定数据集：

$D = \{ ({x_1},{y_1}),({x_2},{y_2}), \ldots ,({x_m},{y_m})\} = \{ ({x_i},{y_i})\} _{i = 1}^m$

其中， ${x_i} \in {\Cal R}$ 和 ${y_i} \in {\Cal R}$ 。

而线性回归视图学得：

$f({x_i}) = \omega {x_i} + b$ , 使得 $f({x_i}) \approx {y_i}$

其实就是找到一个函数使得数据尽可能的在这个函数内。那么如何确定参数 $\omega$ 和 $b$ 呢？

显然，关键在于如何衡量 $f({x_i})$ 与 ${y_i}$ 之间的差距，我们使用均方误差来进行度量。因此我们将差距最小问题转化为均方误差最小化，即：

$({\omega ^ * },{b^ * }) = \mathop {\arg \min }\limits_{(\omega ,b)} \sum\limits_{i = 1}^m {{{\left( {f({x_i}) - {y_i}} \right)}^2}} = \mathop {\arg \min }\limits_{(\omega ,b)} \sum\limits_{i = 1}^m {{{\left( {{y_i} - \omega {x_i} - b} \right)}^2}}$

其中， ${\omega ^ * },{b^ * }$ 分别表示 $\omega$ 和 $b$ 的解。

均方误差的几何意义就是常用的欧式几何距离，简称欧氏距离(Euclidean distance)。基于均方误差最小化进行模型求解的方法称为最小二乘法。在线性回归中，最小二乘法就是试图找到一条直线，使得所有样本到直线上的欧氏距离之和最小。

求解 $\omega$ 和 $b$ 使 ${E_{(\omega ,b)}} = \sum\limits_{i = 1}^m {{{\left( {{y_i} - \omega {x_i} - b} \right)}^2}}$ 最小化的过程，称之为线性回归模型的最小二乘法“参数估计”(parameter estimation)。为了得到最小值，我们只需要将函数 ${E_{(\omega ,b)}}$ 求导即可。则 ${E_{(\omega ,b)}}$ 分别对 $\omega$ 和 $b$ 求导，得到：

$\frac{{\partial {E_{(\omega ,b)}}}}{{\partial \omega }} = 2\left( {w\sum\limits_{i = 1}^m {x_i^2 - \sum\limits_{i = 1}^m {\left( {{y_i} - b} \right){x_i}} } } \right)$

$\frac{{\partial {E_{(\omega ,b)}}}}{{\partial \omega }} = 2\left( {mb - \sum\limits_{i = 1}^m {\left( {{y_i} - \omega {x_i}} \right)} } \right)$

求得倒数为零的解，即为最优解，则令导数 $\frac{{\partial {E_{(\omega ,b)}}}}{{\partial \omega }} = 0$ ， $\frac{{\partial {E_{(\omega ,b)}}}}{{\partial \omega }} = 0$ 可得到 $\omega$ 和 $b$ 的最优解分别为：

$\omega = \frac{{\sum\limits_{i = 1}^m {{y_i}({x_i} - \bar x)} }}{{\sum\limits_{i = 1}^m {x_i^2 - \frac{1}{m}{{\left( {\sum\limits_{i = 1}^m {{x_i}} } \right)}^2}} }}$

$b = \frac{1}{m}\sum\limits_{i = 1}^m {({y_i} - \omega {x_i})}$

其中， $x$ 的均值为 $\bar x = \sum\limits_{i = 1}^m {{x_i}}$ 。

5 多元线性回归

更一般的情况就是多元线性回归，给出数据集：

$D = \{ ({{\bf{x}}_1},{y_1}),({{\bf{x}}_2},{y_2}), \ldots ,({{\bf{x}}_m},{y_m})\} = \{ ({{\bf{x}}_i},{y_i})\} _{i = 1}^m$

其中， ${{\bf{x}}_i} \in {\Cal R}$ 和 ${y_i} \in {\Cal R}$ 。

此时我们试图学得：

$f({{\bf{x}}_i}) = {{\bf{\omega }}^{\text{T}}}{{\bf{x}}_i} + b$ , 使得 $f({{\bf{x}}_i}) \approx {y_i}$

这种称之为多元线性回归(multivariate linear regression)。

类似地方法，可以利用最小二乘法来对进行估计。为了方便讨论，我们将 $\omega$ 和 $b$ 吸入向量形式 ${\bf{\hat \omega }} = \left( {{\bf{\omega }};b} \right)$ 。

相应的，把数据集 $D = \{ ({{\bf{x}}_1},{y_1}),({{\bf{x}}_2},{y_2}), \ldots ,({{\bf{x}}_m},{y_m})\} = \{ ({{\bf{x}}_i},{y_i})\} _{i = 1}^m$ 表示为一个 $m \times \left( {d + 1} \right)$ 维大小的矩阵 ${\bf{X}}$ ，其中每行对应于一个示例，该行前 $d$ 个元素对应于示例的 $d$ 个属性值，最后一个元素恒置为1，即：

${\bf{X}} = \left( {\begin{array}{*{20}{c}} {{x_{11}}}&{{x_{12}}}& \cdots &{{x_{1d}}}&1\\ {{x_{21}}}&{{x_{22}}}& \cdots &{{x_{2d}}}&1\\ \vdots & \vdots & \ddots & \vdots & \vdots \\ {{x_{m1}}}&{{x_{m1}}}& \cdots &{{x_{md}}}&1 \end{array}} \right) = \left( {\begin{array}{*{20}{c}} {x_1^{\rm{T}}}&1\\ {x_2^{\rm{T}}}&1\\ \vdots & \vdots \\ {x_m^{\rm{T}}}&1 \end{array}} \right)$

再将标记也写成向量形式 ${\bf{y}} = \left( {{y_1};{y_2}; \ldots ;{y_m}} \right)$ ，类似地，均方误差最小化，即：

${{\bf{\hat \omega }}^ * } = \mathop {\arg \min }\limits_{{\bf{\hat \omega }}} {\left( {{\bf{y}} - {\bf{X\hat \omega }}} \right)^{\rm{T}}}\left( {{\bf{y}} - {\bf{X\hat \omega }}} \right)$

令 ${E_{{\bf{\hat \omega }}}} = {\left( {y - {\bf{X\hat \omega }}} \right)^{\rm{T}}}\left( {y - {\bf{X\hat \omega }}} \right)$ ，为了得到最小值，我们只需要将函数 ${E_{{\bf{\hat \omega }}}}$ 求导即可。则 ${E_{{\bf{\hat \omega }}}}$ 对 ${\bf{\hat \omega }} = \left( {{\bf{\omega }};b} \right)$ 求导，得到：