前言
本文主要介绍了一元线性回归模型的数学模型,回归参数估计,三种显著性检验(
F
检验,
R2
判定系数,估计标准差),并给出了使用最小二乘法推导回归参数的详细过程。
1, 数学模型
假设
Y=a+bX+ϵ
,其中:
X
是可控变量;
Y
是随机变量
a+bX
是
Y
随着
X
变化而线性变化的部分;
ϵ
是随机误差,它是其他的一切微小的,不确定的影响因素的总和,其值具有不可观测行,通常假定
ϵ∼N(0,σ2)
。
函数
f(X)=E(X|Y)=a+bX
称为一元线性回归函数,其中:
-
a
为回归常数,
b
为回归系数,
a
和
b
统称为回归参数;
-
X
为回归自变量;
-
Y
为回归因变量。
假定
(x1,y1),(x2,y2,⋯,(xn,yn))
是
(X,Y)
的一组观测值,则一元线性模型可以表示为
yi=a+bxi+ϵi,ϵi∼N(0,σ2),i=1,2,⋯,n(8))(1)
其中,各
ϵi
相互独立。
2, 回归参数的估计
使用最小二乘原理,估计回归参数
a
和
b
,使得误差平方和
∑i=1nϵ2=∑i=1n(yi−a−bxi)2
最小,
即:
Q(a,b)=∑i=1n(yi−a−bxi)2
取最小值。
求
Q
关于
a
和
b
的一阶偏导数,并使它们为0,解得
b
的最小二乘估计为:
b=∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)2∑i=1n(xi−x¯¯¯)2=LxyLxx(9)(2)
其中:
-
x¯¯¯=1n∑i=1nxi
-
y¯¯¯=1n∑i=1nyi
-
Lxy=∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)2
-
Lxx=∑i=1n(xi−x¯¯¯)2
这样,
b
和
a
的最小二乘估计可以写成
{b^=LxyLxxa^=y¯¯¯−b^x¯¯¯(3)
在得到
a^
和
b^
后,称
Y^=a^+b^X
为一元回归方程。
通常取参数
σ2=1n−2∑i=2n(yi−a^−b^xi)2
为参数
σ2
的估计(最小二乘估计),并且是无偏估计。
3,回归方程显著性检验
对于一元回归方程进行检验等于检验
H0:b=0H1:b≠0
3.1 平方和的分解
为寻找检验
H0
的方法,将
X
对
Y
的线性影响与随机波动引起的变差分开,变差的大小用实际观察值
y
与其均值
y¯¯¯
之差
y−y¯¯¯
来表示。
而n次观察值的总变差可由离差的平方和
SST
来表示
SST=∑i=1n(yi−y¯¯¯)2(10)
上式被称为观察值
y1,y2,⋯,yn
的离差平方和。
SST
反映了观察值
yi(i=1,2,⋯,n)
总的分散程度,对
SST
进行分解,可得:
SST=∑i=1n(yi−y¯¯¯)2=∑i=1n[(y^i−y¯¯¯)+(yi−y^)]2=∑i=1n(y^i−y¯¯¯)2+∑i=1n(yi−y^)2+2∑i=1n(y^i−y¯¯¯)(y^i−y^)(11)
可以证明
∑i=1n(y^i−y¯¯¯)(y^i−y^)=0
,所以则有:
SST=∑i=1n(y^i−y¯¯¯)2+∑i=1n(yi−y^)2=SSR+SSE(12)
其中:
SSRSSE=∑i=1n(y^i−y¯¯¯)2=∑i=1n(yi−y^)2(13)
SSR
叫做回归平方和,反映了
yi(1,2,⋯,n)
的分散程度,这种分散程度是由于
Y
和
X
之间的线性关系引起的。
SSE
叫做残差平方和,反映了
yi
与回归值
y^i
的偏离程度,它是
X
对
Y
的线性影响之外的其余因素产生的误差。
3.2
F
检验法
H0
成立时,可以证明:
F=SSRSSE/(n−2)∼F(1,n−2)
对于给定的显著性水平
α
,拒绝域为
W={F>Fα(1,n−2)}
,对于
F
检验统计量的
p
值,如果
p<α
,则拒绝
H0
,表明两个变量之间的线性关系显著,这种检验法成为
F
检验法
3.3 判定系数法
回归平方和
SSR
占总平方和
SST
的比例称为判定系数,也称决定系数,记做
R2
,其计算公式为
R2=SSRSST=∑i=1n(y^i−y¯¯¯)2∑i=1n(yi−y¯¯¯)2
在一元线性回归中,判定系数
R2
可以用来检验回归直线对数据的拟合程度,
如果
Y
的变化和
X
相关,
SSE
=0,则
SST
=
SSR
,于是
R2
=1,拟合是完全的,
如果
Y
的变化与
X
无关,此时,则
R2
=0。
可见
R2∈[0,1]
,
R2
越接近于1,回归直线的拟合程度越好,
R2
越接近于0,回归直线拟合的程度越差。
3.4 估计标准误差
估计标准误差是残差平方和
SSE
的均方根,即残差的标准差,用
se
来表示,其计算公式为:
se=SSEn−p−1−−−−−−−−√=∑i=1n(yi−y^i)2n−p−1−−−−−−−−−−⎷
其中
p
为自变量的个数。
se
反映了用回归方程预测因变量时产生的预测误差的大小,因此从另一方面反映了回归直线的拟合程度。
4,最小二乘法公式推导
下面进行进行
(2)
式的推导。
首先,原函数为
Q(a,b)=∑i=1n(yi−a−bxi)2(4)
对
(4)
式分别对
a
和
b
求一阶偏导数,得到下面公式:
∂Q∂a=∑i=1n2(yi−a−bxi)(−1)(5)
∂Q∂b=∑i=1n2(yi−a−bxi)(−xi)(6)
对
(5)
式,由一阶偏导数为0,可转化为:
∂Q∂a=∑i=1n(yi−a−bxi)=0
即:
ny¯¯¯−na−nbx¯¯¯=0
所以求得
a
的表达式为:
a=y¯¯¯−bx¯¯¯(7)
对
(6)
式,由偏导数为0,可化简为:
∑i=1n(yi−a−bxi)(xi)=∑i=1n(yixi−axi−bx2i)=0
继续化简则有:
∑i=1n(yixi−axi−bx2i)=∑i=1nxiyi−anx¯¯¯−∑i=1nx2i(8)
将
(7)
式带入
(8)
式,则有
∑i=1nxiyi−anx¯¯¯−∑i=1nx2i=∑i=1nxiyi−(y¯¯¯−bx¯¯¯)nx¯¯¯−∑i=1nx2i=∑i=1nxiyi−nx¯¯¯y¯¯¯+b(nx¯¯¯2−∑i=1nx2i)=0(14)
可得:
b=∑i=1nxiyi−bx¯¯¯y¯¯¯∑i=1nx2i−nx2i(9)
又有:
∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)=∑i=1n(xiyi−x¯¯¯yi−xiy¯¯¯+x¯¯¯y¯¯¯)=∑i=1n(xiyi−x¯¯¯yi−xiy¯¯¯+x¯¯¯y¯¯¯)=∑i=1nxiyi−nx¯¯¯y¯¯¯−nx¯¯¯y¯¯¯+nx¯¯¯y¯¯¯=∑i=1nxiyi−nx¯¯¯y¯¯¯(10)
∑i=1n(xi−x¯¯¯)2=∑i=1n(x2i−2x¯¯¯xi−x¯¯¯2)=∑i=1nx2i−2nx¯¯¯2+x¯¯¯2=∑i=1nx2i−nx¯¯¯2(11)
将公式
(10)
和公式
(11)
带入公式
(9)
,即可得到公式
(2)
,即:
b=∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)2∑i=1n(xi−x¯¯¯)2=LxyLxx(15)(2)
最终得到
a
和
b
的估计公式如下:
⎧⎩⎨⎪⎪⎪⎪⎪⎪b^=∑i=1n(xi−x¯¯¯)(yi−y¯¯¯)2∑i=1n(xi−x¯¯¯)2=LxyLxxa^=y¯¯¯−b^x¯¯¯(13)