又称最小平方法，一种优化方法，由高斯，勒让德独立提出，但高斯先发现，勒让德先发表

小结;

用途：给一组数据找一个拟合性最好的最佳匹配的函数；根据拟合函数求未知数据。
思想：最小化误差的平方和，主要是在最小化超定方程组（方程数比未知数多）的残差（观测值与模型提供的拟合值之间的差距）平方和。
本质:找一个直线/超平面，使得所有样本点到它的欧式距离之和最小。
最小二乘方法用于线性回归就是最小二乘参数估计。
它是用线性方法进行回归学习，找到一个预测值。而用线性模型进行分类就要考虑逻辑回归了。

原理推导

线性模型(可解释性好，是非线性模型的基础)试图学习以下预测函数:
$y=w_1x_1+w_2x_2+\cdots+w_nx_n+b$

写成向量形式：
$y=\boldsymbol w^T \boldsymbol x+b$

在这里插入图片描述
前面说了，最小二乘的思想就是最小化误差的平方和,共m个数据，每个数据都是d维的向量（d个特征）， $y_i$ 是数据对应的真实值， $\boldsymbol {w^Tx_i}+b$ 是函数的拟合值：
$\boldsymbol y=\left[\begin{matrix} y_1\\ y_2\\ \vdots\\ y_m \end{matrix} \right]$
$\boldsymbol w=\left[ \begin{matrix} w_1 \\ w_2 \\ \vdots \\ w_d \end{matrix} \right]$

$X=\left[ \begin{matrix} x_1^T \\ x_2^T \\ \vdots \\ x_m^T \end{matrix} \right]=\left[ \begin{matrix} x_{11}&x_{12}&\cdots & x_{1d}\\ x_{21}&x_{22}&\cdots & x_{2d} \\ \vdots \\ x_{m1}&x_{m2}&\cdots & x_{md} \end{matrix} \right]$

扫描二维码关注公众号，回复： 6210987 查看本文章

残差的平方和自然就是最小二乘问题对应的能量函数了：
$min \quad J= \sum_{i=1}^m(y_i-\boldsymbol {w^Tx_i}-b)^2$

我们要找到上述优化问题的解对应的模型：
$(w^*,b^*)=argmin\sum_{i=1}^m(y_i-\boldsymbol {w^Tx_i}-b)^2$

这是个无约束的优化问题，直接对 $\boldsymbol w$ 和b求偏导令为0就可以得到闭式解了，很easy。

为了便于高维表示，令 $\hat{w}=[\boldsymbol w;b]=\left[ \begin{matrix} w_1 \\ w_2 \\ \vdots \\ w_d \\ b \end{matrix} \right]$
$\hat{X}=[\boldsymbol X，1]=\left[ \begin{matrix} x_1^T&1 \\ x_2^T &1 \\ \vdots & \vdots \\ x_m^T&1 \end{matrix} \right]=\left[ \begin{matrix} x_{11}&x_{12}&\cdots & x_{1d}&1\\ x_{21}&x_{22}&\cdots & x_{2d} &1\\ \vdots & \vdots& \vdots& \vdots& \vdots \\ x_{m1}&x_{m2}&\cdots & x_{md} &1 \end{matrix} \right]$

高维情况下的能量函数可写为：
$min \quad J=(\boldsymbol y-\hat{X} \hat{\boldsymbol w})^T(\boldsymbol y-\hat{X} \hat{\boldsymbol w})$

无约束的优化问题，直接对 $\boldsymbol w$ 和b,即 $\hat{w}$ 求偏导令为0

$\left\{ \begin{aligned} \frac{\partial J}{\partial \boldsymbol w}&=&0\\ \frac{\partial J}{\partial b}&=&0 \end{aligned} \right.$

即 $\frac{\partial J}{\partial \hat{\boldsymbol w}}=0$

$\therefore \frac{\partial [\boldsymbol y^T\boldsymbol y-\boldsymbol y^T\hat{X}\hat{\boldsymbol w}-\hat{\boldsymbol w}^T\hat{X}^T\boldsymbol y+\hat{\boldsymbol w}^T\hat{X}^T\hat{X} \hat{\boldsymbol w}]}{\partial \hat{\boldsymbol w}}=0$

$\therefore -(\boldsymbol y^T\hat{X})^T-\hat{X}^T\boldsymbol y+2\hat{X}^T\hat{X} \hat{\boldsymbol w}=0$

$\therefore \hat{X}^T\hat{X} \hat{\boldsymbol w}=\hat{X}^T\boldsymbol y$

若 $\hat{X}^T\hat{X}$ 可逆/满秩，则有唯一解 $\hat{\boldsymbol w}^*=(\hat{X}^T\hat{X})^{-1}\hat{X}^T\boldsymbol y$

若不满秩（更常见），则有多个解均可使得误差平方和最小。到底选哪个要由学习算法的偏好决定。常见的做法是引入正则项。

最小二乘法least-squares

原理推导

猜你喜欢