一元线性回归模型

前言

 本文主要介绍了一元线性回归模型的数学模型,回归参数估计,三种显著性检验( F 检验, R 2 判定系数,估计标准差),并给出了使用最小二乘法推导回归参数的详细过程。

1, 数学模型

 假设 Y = a + b X + ϵ ,其中:

  • X 是可控变量;

  • Y 是随机变量

  • a + b X Y 随着 X 变化而线性变化的部分;

  • ϵ 是随机误差,它是其他的一切微小的,不确定的影响因素的总和,其值具有不可观测行,通常假定 ϵ N ( 0 , σ 2 )

 函数 f ( X ) = E ( X | Y ) = a + b X 称为一元线性回归函数,其中:

  • a 为回归常数, b 为回归系数, a b 统称为回归参数;
  • X 为回归自变量;
  • Y 为回归因变量。

 假定 ( x 1 , y 1 ) , ( x 2 , y 2 , , ( x n , y n ) ) ( X , Y ) 的一组观测值,则一元线性模型可以表示为

(1) (8) y i = a + b x i + ϵ i , ϵ i N ( 0 , σ 2 ) , i = 1 , 2 , , n )

 其中,各 ϵ i 相互独立。

2, 回归参数的估计

 使用最小二乘原理,估计回归参数 a b ,使得误差平方和 i = 1 n ϵ 2 = i = 1 n ( y i a b x i ) 2 最小,

即: Q ( a , b ) = i = 1 n ( y i a b x i ) 2 取最小值。

 求 Q 关于 a b 的一阶偏导数,并使它们为0,解得 b 的最小二乘估计为:

(2) (9) b = i = 1 n ( x i x ¯ ) ( y i y ¯ ) 2 i = 1 n ( x i x ¯ ) 2 = L x y L x x

 其中:

  • x ¯ = 1 n i = 1 n x i
  • y ¯ = 1 n i = 1 n y i
  • L x y = i = 1 n ( x i x ¯ ) ( y i y ¯ ) 2
  • L x x = i = 1 n ( x i x ¯ ) 2

 这样, b a 的最小二乘估计可以写成

(3) { b ^ = L x y L x x a ^ = y ¯ b ^ x ¯

 在得到 a ^ b ^ 后,称 Y ^ = a ^ + b ^ X 为一元回归方程。

 通常取参数 σ 2 = 1 n 2 i = 2 n ( y i a ^ b ^ x i ) 2 为参数 σ 2 的估计(最小二乘估计),并且是无偏估计。

3,回归方程显著性检验

 对于一元回归方程进行检验等于检验

H 0 : b = 0 H 1 : b 0

3.1 平方和的分解

 为寻找检验 H 0 的方法,将 X Y 的线性影响与随机波动引起的变差分开,变差的大小用实际观察值 y 与其均值 y ¯ 之差 y y ¯ 来表示。
 而n次观察值的总变差可由离差的平方和 S S T 来表示

(10) S S T = i = 1 n ( y i y ¯ ) 2

 上式被称为观察值 y 1 , y 2 , , y n 的离差平方和。 S S T 反映了观察值 y i ( i = 1 , 2 , , n ) 总的分散程度,对 S S T 进行分解,可得:
(11) S S T = i = 1 n ( y i y ¯ ) 2 = i = 1 n [ ( y ^ i y ¯ ) + ( y i y ^ ) ] 2 = i = 1 n ( y ^ i y ¯ ) 2 + i = 1 n ( y i y ^ ) 2 + 2 i = 1 n ( y ^ i y ¯ ) ( y ^ i y ^ )

 可以证明 i = 1 n ( y ^ i y ¯ ) ( y ^ i y ^ ) = 0 ,所以则有:
(12) S S T = i = 1 n ( y ^ i y ¯ ) 2 + i = 1 n ( y i y ^ ) 2 = S S R + S S E

 其中:
(13) S S R = i = 1 n ( y ^ i y ¯ ) 2 S S E = i = 1 n ( y i y ^ ) 2

S S R 叫做回归平方和,反映了 y i ( 1 , 2 , , n ) 的分散程度,这种分散程度是由于 Y X 之间的线性关系引起的。

S S E 叫做残差平方和,反映了 y i 与回归值 y ^ i 的偏离程度,它是 X Y 的线性影响之外的其余因素产生的误差。

3.2 F 检验法

H 0 成立时,可以证明:

F = S S R S S E / ( n 2 ) F ( 1 , n 2 )

 对于给定的显著性水平 α ,拒绝域为 W = { F > F α ( 1 , n 2 ) } ,对于 F 检验统计量的 p 值,如果 p < α ,则拒绝 H 0 ,表明两个变量之间的线性关系显著,这种检验法成为 F 检验法

3.3 判定系数法

 回归平方和 S S R 占总平方和 S S T 的比例称为判定系数,也称决定系数,记做 R 2 ,其计算公式为

R 2 = S S R S S T = i = 1 n ( y ^ i y ¯ ) 2 i = 1 n ( y i y ¯ ) 2

 在一元线性回归中,判定系数 R 2 可以用来检验回归直线对数据的拟合程度,

 如果 Y 的变化和 X 相关, S S E =0,则 S S T = S S R ,于是 R 2 =1,拟合是完全的,

 如果 Y 的变化与 X 无关,此时,则 R 2 =0。

 可见 R 2 [ 0 , 1 ] R 2 越接近于1,回归直线的拟合程度越好, R 2 越接近于0,回归直线拟合的程度越差。

3.4 估计标准误差

 估计标准误差是残差平方和 S S E 的均方根,即残差的标准差,用 s e 来表示,其计算公式为:

s e = S S E n p 1 = i = 1 n ( y i y ^ i ) 2 n p 1

 其中 p 为自变量的个数。

s e 反映了用回归方程预测因变量时产生的预测误差的大小,因此从另一方面反映了回归直线的拟合程度。

4,最小二乘法公式推导

 下面进行进行 ( 2 ) 式的推导。

 首先,原函数为

(4) Q ( a , b ) = i = 1 n ( y i a b x i ) 2

 对 ( 4 ) 式分别对 a b 求一阶偏导数,得到下面公式:
(5) Q a = i = 1 n 2 ( y i a b x i ) ( 1 )

(6) Q b = i = 1 n 2 ( y i a b x i ) ( x i )

 对 ( 5 ) 式,由一阶偏导数为0,可转化为:

Q a = i = 1 n ( y i a b x i ) = 0

 即:
n y ¯ n a n b x ¯ = 0

 所以求得 a 的表达式为:
(7) a = y ¯ b x ¯

 对 ( 6 ) 式,由偏导数为0,可化简为:
i = 1 n ( y i a b x i ) ( x i ) = i = 1 n ( y i x i a x i b x i 2 ) = 0

 继续化简则有:
(8) i = 1 n ( y i x i a x i b x i 2 ) = i = 1 n x i y i a n x ¯ i = 1 n x i 2

 将 ( 7 ) 式带入 ( 8 ) 式,则有
(14) i = 1 n x i y i a n x ¯ i = 1 n x i 2 = i = 1 n x i y i ( y ¯ b x ¯ ) n x ¯ i = 1 n x i 2 = i = 1 n x i y i n x ¯ y ¯ + b ( n x ¯ 2 i = 1 n x i 2 ) = 0

 可得:
(9) b = i = 1 n x i y i b x ¯ y ¯ i = 1 n x i 2 n x i 2

 又有:
(10) i = 1 n ( x i x ¯ ) ( y i y ¯ ) = i = 1 n x i y i x ¯ y i x i y ¯ + x ¯ y ¯ ) = i = 1 n ( x i y i x ¯ y i x i y ¯ + x ¯ y ¯ ) = i = 1 n x i y i n x ¯ y ¯ n x ¯ y ¯ + n x ¯ y ¯ = i = 1 n x i y i n x ¯ y ¯

(11) i = 1 n ( x i x ¯ ) 2 = i = 1 n x i 2 2 x ¯ x i x ¯ 2 ) = i = 1 n x i 2 2 n x ¯ 2 + x ¯ 2 = i = 1 n x i 2 n x ¯ 2

 将公式 ( 10 ) 和公式 ( 11 ) 带入公式 ( 9 ) ,即可得到公式 ( 2 ) ,即:

(2) (15) b = i = 1 n ( x i x ¯ ) ( y i y ¯ ) 2 i = 1 n ( x i x ¯ ) 2 = L x y L x x

 最终得到 a b 的估计公式如下:
(13) { b ^ = i = 1 n ( x i x ¯ ) ( y i y ¯ ) 2 i = 1 n ( x i x ¯ ) 2 = L x y L x x a ^ = y ¯ b ^ x ¯

猜你喜欢

转载自blog.csdn.net/weixin_41500849/article/details/80310719