线性回归之最小二乘法(Least Squares)推导

假设 n 维空间变量点为 x = ( x 1 , x 2 , , x n ) T , 并假设有 m 个这样的样本点 记为 x ( 1 ) , x ( 2 ) , , x ( m ) ,我们希望找到一个这样的超平面,来使得尽可能的拟合这些样本点,形式化表示等价于我们希望找到这样的系数 w b 使得 w T x + b y ,为了简化上述表达式,我们将 w b 放到一起简记为 ( w T , b ) = w T ,并令 x n ( i ) = 1 ,于是上述表达式等价于找到 w T 使得 w T x y

我们记样本点集为矩阵 X ,则有

X = ( x ( 1 ) T x ( 2 ) T x ( m ) T ) = ( x 1 ( 1 ) x 2 ( 1 ) x n ( 1 ) x 1 ( 2 ) x 2 ( 2 ) x n ( 2 ) x 1 ( m ) x 2 ( m ) x n ( m ) )

于是上述表述等价于找到 w 使得 X w y .

考虑这样的一个特殊情形:假设所有的样本点正好在一个超平面,且样本点所张成的空间( S p a n   S p a c e )为该 n 维空间,意味着 m n r a n k ( X ) = n
此时方程 X w = y 恰好有唯一解(即为该超平面) ,推导如下:

X w = y X T X w = X T y w = ( X T X ) 1 X T y

(注:因为 X 为列满秩,所以 r a n k ( X T X ) = r a n k ( X ) = n ,即 X T X 为可逆方阵)

而对于一般情形,所有的样本点一般不会在同一个超平面中,所以方程 X w = y 此时是无解的,这个方程组也称之为超定方程组( O v e r d e t e r m i n e d   S y s t e m ),即方程数量超过未知数个数,此时我们希望找到一个超平面使得 X w y 且误差 X w y 尽可能的小(这里符号   L 2 范数,利用度量欧几里得距离来衡量误差大小是比较符合常识的)。形式化表达等价于

w ^ = arg min w X w y

为了便于计算,我们不妨令

w ^ = arg min w X w y = arg min w X w y 2

扫描二维码关注公众号,回复: 2978543 查看本文章

且令

L ( w 1 , w 2 , , w n ) = X w y 2

仍不妨假设此时 X 是列满秩的
上述问题转化为了求极值问题,我们很自然的想到了利用导数来寻找极值。
于是对 w i 求偏导且令其为零

L w i = 2 ( x i ( 1 ) , x i ( 2 ) , , x i ( m ) ) ( X w y ) = 0

于是

( L w 1 , L w 2 , , L w n ) T = 0 T 2 X T ( X w y ) = 0 X T X w X T y = 0

即推出

w = ( X T X ) 1 X T y

上述就是众所周知的线性最小二乘法的基本思想
然而,这里会有两个问题
(1) 为什么在这个情况下我们找到的是极小值?
(2) 为什么这个极小值就是我们需要的最小值?

猜你喜欢

转载自blog.csdn.net/qq_27576655/article/details/82218489