最小二乘法least-squares

版权声明:原创文章转载需注明出处。 https://blog.csdn.net/qq_36607894/article/details/90110317

又称最小平方法,一种优化方法,由高斯,勒让德独立提出,但高斯先发现,勒让德先发表

小结;

  1. 用途:给一组数据找一个拟合性最好的最佳匹配的函数;根据拟合函数求未知数据。

  2. 思想:最小化误差的平方和,主要是在最小化超定方程组(方程数比未知数多)的残差(观测值与模型提供的拟合值之间的差距)平方和。

  3. 本质:找一个直线/超平面,使得所有样本点到它的欧式距离之和最小。

  4. 最小二乘方法用于线性回归就是最小二乘参数估计

  5. 它是用线性方法进行回归学习,找到一个预测值。而用线性模型进行分类就要考虑逻辑回归了。


原理推导

线性模型(可解释性好,是非线性模型的基础)试图学习以下预测函数:
y = w 1 x 1 + w 2 x 2 + + w n x n + b y=w_1x_1+w_2x_2+\cdots+w_nx_n+b

写成向量形式:
y = w T x + b y=\boldsymbol w^T \boldsymbol x+b

在这里插入图片描述
前面说了,最小二乘的思想就是最小化误差的平方和,共m个数据,每个数据都是d维的向量(d个特征), y i y_i 是数据对应的真实值, w T x i + b \boldsymbol {w^Tx_i}+b 是函数的拟合值:
y = [ y 1 y 2 y m ] \boldsymbol y=\left[\begin{matrix} y_1\\ y_2\\ \vdots\\ y_m \end{matrix} \right]
w = [ w 1 w 2 w d ] \boldsymbol w=\left[ \begin{matrix} w_1 \\ w_2 \\ \vdots \\ w_d \end{matrix} \right]

X = [ x 1 T x 2 T x m T ] = [ x 11 x 12 x 1 d x 21 x 22 x 2 d x m 1 x m 2 x m d ] X=\left[ \begin{matrix} x_1^T \\ x_2^T \\ \vdots \\ x_m^T \end{matrix} \right]=\left[ \begin{matrix} x_{11}&x_{12}&\cdots & x_{1d}\\ x_{21}&x_{22}&\cdots & x_{2d} \\ \vdots \\ x_{m1}&x_{m2}&\cdots & x_{md} \end{matrix} \right]

扫描二维码关注公众号,回复: 6210987 查看本文章

残差的平方和自然就是最小二乘问题对应的能量函数了:
m i n J = i = 1 m ( y i w T x i b ) 2 min \quad J= \sum_{i=1}^m(y_i-\boldsymbol {w^Tx_i}-b)^2

我们要找到上述优化问题的解对应的模型:
( w , b ) = a r g m i n i = 1 m ( y i w T x i b ) 2 (w^*,b^*)=argmin\sum_{i=1}^m(y_i-\boldsymbol {w^Tx_i}-b)^2

这是个无约束的优化问题,直接对 w \boldsymbol w 和b求偏导令为0就可以得到闭式解了,很easy。

为了便于高维表示,令 w ^ = [ w ; b ] = [ w 1 w 2 w d b ] \hat{w}=[\boldsymbol w;b]=\left[ \begin{matrix} w_1 \\ w_2 \\ \vdots \\ w_d \\ b \end{matrix} \right]
X ^ = [ X 1 ] = [ x 1 T 1 x 2 T 1 x m T 1 ] = [ x 11 x 12 x 1 d 1 x 21 x 22 x 2 d 1 x m 1 x m 2 x m d 1 ] \hat{X}=[\boldsymbol X,1]=\left[ \begin{matrix} x_1^T&1 \\ x_2^T &1 \\ \vdots & \vdots \\ x_m^T&1 \end{matrix} \right]=\left[ \begin{matrix} x_{11}&x_{12}&\cdots & x_{1d}&1\\ x_{21}&x_{22}&\cdots & x_{2d} &1\\ \vdots & \vdots& \vdots& \vdots& \vdots \\ x_{m1}&x_{m2}&\cdots & x_{md} &1 \end{matrix} \right]

高维情况下的能量函数可写为:
m i n J = ( y X ^ w ^ ) T ( y X ^ w ^ ) min \quad J=(\boldsymbol y-\hat{X} \hat{\boldsymbol w})^T(\boldsymbol y-\hat{X} \hat{\boldsymbol w})

无约束的优化问题,直接对 w \boldsymbol w 和b,即 w ^ \hat{w} 求偏导令为0

{ J w = 0 J b = 0 \left\{ \begin{aligned} \frac{\partial J}{\partial \boldsymbol w}&=&0\\ \frac{\partial J}{\partial b}&=&0 \end{aligned} \right.

J w ^ = 0 \frac{\partial J}{\partial \hat{\boldsymbol w}}=0

[ y T y y T X ^ w ^ w ^ T X ^ T y + w ^ T X ^ T X ^ w ^ ] w ^ = 0 \therefore \frac{\partial [\boldsymbol y^T\boldsymbol y-\boldsymbol y^T\hat{X}\hat{\boldsymbol w}-\hat{\boldsymbol w}^T\hat{X}^T\boldsymbol y+\hat{\boldsymbol w}^T\hat{X}^T\hat{X} \hat{\boldsymbol w}]}{\partial \hat{\boldsymbol w}}=0

( y T X ^ ) T X ^ T y + 2 X ^ T X ^ w ^ = 0 \therefore -(\boldsymbol y^T\hat{X})^T-\hat{X}^T\boldsymbol y+2\hat{X}^T\hat{X} \hat{\boldsymbol w}=0

X ^ T X ^ w ^ = X ^ T y \therefore \hat{X}^T\hat{X} \hat{\boldsymbol w}=\hat{X}^T\boldsymbol y

X ^ T X ^ \hat{X}^T\hat{X} 可逆/满秩,则有唯一解 w ^ = ( X ^ T X ^ ) 1 X ^ T y \hat{\boldsymbol w}^*=(\hat{X}^T\hat{X})^{-1}\hat{X}^T\boldsymbol y

若不满秩(更常见),则有多个解均可使得误差平方和最小。到底选哪个要由学习算法的偏好决定。常见的做法是引入正则项

猜你喜欢

转载自blog.csdn.net/qq_36607894/article/details/90110317