版权声明:原创文章转载需注明出处。 https://blog.csdn.net/qq_36607894/article/details/90110317
又称最小平方法,一种优化方法,由高斯,勒让德独立提出,但高斯先发现,勒让德先发表
小结;
-
用途:给一组数据找一个拟合性最好的最佳匹配的函数;根据拟合函数求未知数据。
-
思想:最小化误差的平方和,主要是在最小化超定方程组(方程数比未知数多)的残差(观测值与模型提供的拟合值之间的差距)平方和。
-
本质:找一个直线/超平面,使得所有样本点到它的欧式距离之和最小。
-
最小二乘方法用于线性回归就是最小二乘参数估计。
-
它是用线性方法进行回归学习,找到一个预测值。而用线性模型进行分类就要考虑逻辑回归了。
原理推导
线性模型(可解释性好,是非线性模型的基础)试图学习以下预测函数:
y=w1x1+w2x2+⋯+wnxn+b
写成向量形式:
y=wTx+b
前面说了,最小二乘的思想就是最小化误差的平方和,共m个数据,每个数据都是d维的向量(d个特征),
yi是数据对应的真实值,
wTxi+b是函数的拟合值:
y=⎣⎢⎢⎢⎡y1y2⋮ym⎦⎥⎥⎥⎤
w=⎣⎢⎢⎢⎡w1w2⋮wd⎦⎥⎥⎥⎤
X=⎣⎢⎢⎢⎡x1Tx2T⋮xmT⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22xm2⋯⋯⋯x1dx2dxmd⎦⎥⎥⎥⎤
扫描二维码关注公众号,回复:
6210987 查看本文章
残差的平方和自然就是最小二乘问题对应的能量函数了:
minJ=i=1∑m(yi−wTxi−b)2
我们要找到上述优化问题的解对应的模型:
(w∗,b∗)=argmini=1∑m(yi−wTxi−b)2
这是个无约束的优化问题,直接对
w和b求偏导令为0就可以得到闭式解了,很easy。
为了便于高维表示,令
w^=[w;b]=⎣⎢⎢⎢⎢⎢⎡w1w2⋮wdb⎦⎥⎥⎥⎥⎥⎤
X^=[X,1]=⎣⎢⎢⎢⎡x1Tx2T⋮xmT11⋮1⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2⋯⋯⋮⋯x1dx2d⋮xmd11⋮1⎦⎥⎥⎥⎤
高维情况下的能量函数可写为:
minJ=(y−X^w^)T(y−X^w^)
无约束的优化问题,直接对
w和b,即
w^求偏导令为0
⎩⎪⎪⎨⎪⎪⎧∂w∂J∂b∂J==00
即
∂w^∂J=0
∴∂w^∂[yTy−yTX^w^−w^TX^Ty+w^TX^TX^w^]=0
∴−(yTX^)T−X^Ty+2X^TX^w^=0
∴X^TX^w^=X^Ty
若
X^TX^可逆/满秩,则有唯一解
w^∗=(X^TX^)−1X^Ty
若不满秩(更常见),则有多个解均可使得误差平方和最小。到底选哪个要由学习算法的偏好决定。常见的做法是引入正则项。