回归分析(一)(一元线性回归)

客观世界中变量之间的关系一般可以分为两种类型。一种类型是,变量之间存在确定性关系,或称为函数关系。例如,圆的面积 A A A 与圆的半径 r r r 之间有关系 A = π r 2 A=\pi r^2 A=πr2。这一类关系的特点是:一个变量随着其他变量的确定而确定。另一种类型是,变量之间存在相关关系。所谓变量间存在相关关系反映在以下两方面:其一,变量之间有某种联系;其二,这种联系又不同于函数关系,当自变量取某一数值时,因变量的取值带有随机性,是不确定的。即在这类相关关系中,“因变量”大都是随机变量。

回归分析就是研究随机因变量与可控自变量之间相关关系的一种统计方法。

一元线性回归模型

设随机变量 y y y 与可控变量 x x x 之间有相关关系,即当自变量 x x x 取定值时, y y y 有一个确定的分布与之对应。如果 y y y 的数学期望存在,那么其值随 x x x 的取值而定,因而是 x x x 的函数,记为 μ ( x ) \mu(x) μ(x),即 μ ( x ) = E [ y ∣ x ] \mu(x)=E[y|x] μ(x)=E[yx],称 μ ( x ) \mu(x) μ(x) y y y 关于 x x x回归函数

若假定 y y y 满足关系式 y = μ ( x ) + ε y=\mu(x)+\varepsilon y=μ(x)+ε,其中 ε \varepsilon ε 为具有零均值、有限方差的随机变量,则这就构建了一种回归模型,回归分析的基本任务是利用试验数据来推断回归函数 μ ( x ) \mu(x) μ(x)

如果将回归函数局限在线性函数类中,即 μ ( x ) = a + b x \mu(x)=a+bx μ(x)=a+bx,那么对 μ ( x ) \mu(x) μ(x) 的推断就简化为对线性函数 a + b x a+bx a+bx 中的两个未知参数 a , b a,b a,b 进行估计。下面就来介绍简单的回归模型——一元线性回归模型。

x x x 是可控变量, y y y 是与之相关的随机变量,假定它们满足关系式
y = a + b x + ε ,   ε ∼ N ( 0 , σ 2 ) y=a+bx+\varepsilon,\ \varepsilon \sim N(0,\sigma^2) y=a+bx+ε, εN(0,σ2) 其中, a , b a,b a,b回归系数

x x x 取不全相同的值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 时,对 y y y 依次作独立观测试验,得 n n n 对试验数据: ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) (x_1,y_1),(x_2,y_2),...,(x_n,y_n) (x1,y1),(x2,y2),...,(xn,yn)。它们满足关系式
y i = a + b x i + ε i , i = 1 , ⋯   , n ε 1 , ⋯   , ε n 为 i.i.d 且  ε 1 ∼ N ( 0 , σ 2 ) } \left.\left.\begin{array}{l}y_i=a+bx_i+\varepsilon_i,i=1,\cdots,n\\\varepsilon_1,\cdots,\varepsilon_n\text{为\ i.i.d\ 且\ }\varepsilon_1\sim N(0,\sigma^2)\end{array}\right.\right\} yi=a+bxi+εi,i=1,,nε1,,εn i.i.d  ε1N(0,σ2)} 通常称上式为线性模型。对模型主要考虑下列问题:

  1. n n n 对试验数据 ( x i , y i ) (x_i,y_i) (xi,yi) a , b , σ 2 a,b,\sigma^2 a,b,σ2 作估计;
  2. 对回归系数 b b b 作假设检验;
  3. y y y 作预测。

一元线性回归模型得参数估计

a , b a,b a,b 的最小二乘估计

作离差平方和
Q ( a , b ) = ∑ i = 1 n ( y i − a − b x i ) 2 Q(a,b)=\sum_{i=1}^n(y_i-a-bx_i)^2 Q(a,b)=i=1n(yiabxi)2 选择参数 a , b a,b a,b 使 Q ( a , b ) Q(a,b) Q(a,b) 达到最小,这种方法称为最小二乘法。用最小二乘法求出的估计量称为参数的最小二乘估计。经过一系列推导,可得 a , b a,b a,b 的最小二乘估计为
b ^ = ∑ i = 1 n x i y i − n x ˉ y ˉ ∑ i = 1 n x i 2 − n x ˉ 2 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 a ^ = y ˉ − b ^ x ˉ \hat{b}=\frac{\sum_{i=1}^n x_iy_i-n\bar{x}\bar{y}}{\sum_{i=1}^n x_i^2-n\bar{x}^2}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} \\ \hat{a}=\bar{y}-\hat{b}\bar{x} b^=i=1nxi2nxˉ2i=1nxiyinxˉyˉ=i=1n(xixˉ)2i=1n(xixˉ)(yiyˉ)a^=yˉb^xˉ a ^ + b ^ x \hat{a}+\hat{b}x a^+b^x经验回归函数

σ 2 \sigma^2 σ2 的估计

因为 σ 2 = D ( ε ) = E ( ε 2 ) \sigma^2=D(\varepsilon)=E(\varepsilon^2) σ2=D(ε)=E(ε2),所以考虑用 1 n ∑ i = 1 n ε i 2 \frac{1}{n}\sum_{i=1}^n\varepsilon^2_i n1i=1nεi2 作为 σ 2 \sigma^2 σ2 的矩估计。由于 ε i = y i − a − b x i \varepsilon_i=y_i-a-bx_i εi=yiabxi 是未知的,以 a ^ , b ^ \hat{a},\hat{b} a^,b^ 替换未知参数,从而得到 σ 2 \sigma^2 σ2 的形式上的矩估计
σ ^ 2 = 1 n ∑ i = 1 n ( y i − a ^ − b ^ x i ) 2 \hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(y_i-\hat{a}-\hat{b}x_i)^2 σ^2=n1i=1n(yia^b^xi)2 为了便于计算,将之变形为
σ ^ 2 = 1 n ∑ i = 1 n ( y i − y ˉ ) 2 − b ^ 2 n ∑ i = 1 n ( x i − x ˉ ) 2 \hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(y_i-\bar{y})^2 - \frac{\hat{b}^2}{n} \sum_{i=1}^n(x_i-\bar{x})^2 σ^2=n1i=1n(yiyˉ)2nb^2i=1n(xixˉ)2

参数估计量的概率分布

b ^ \hat{b} b^ 的分布


l x x ≅ ∑ i = 1 n ( x i − x ˉ ) 2 l x y ≅ ∑ i = 1 n ( y i − y ˉ ) 2 l x y ≅ ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) = ∑ i = 1 n ( x i − x ˉ ) y i \begin{aligned}l_{xx}&\cong\sum_{i=1}^n(x_i-\bar{x})^2\\l_{xy}&\cong\sum_{i=1}^n(y_i-\bar{y})^2\\l_{xy}&\cong\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^n(x_i-\bar{x})y_i\end{aligned} lxxlxylxyi=1n(xixˉ)2i=1n(yiyˉ)2i=1n(xixˉ)(yiyˉ)=i=1n(xixˉ)yi 因为
b ^ = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 = l x y l x x = ∑ i = 1 n c i y i \hat{b}=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}=\frac{l_{xy}}{l_{xx}}=\sum_{i=1}^nc_iy_i b^=i=1n(xixˉ)2i=1n(xixˉ)(yiyˉ)=lxxlxy=i=1nciyi 其中 c i = ( x i − x ˉ ) l x x c_i=\frac{(x_i-\bar{x})}{l_{xx}} ci=lxx(xixˉ),又因为 y 1 , . . . , y n y_1,...,y_n y1,...,yn 相互独立且 y i ∼ N ( a + b x i , σ 2 ) y_i \sim N(a+bx_i, \sigma^2) yiN(a+bxi,σ2),所以 b ^ \hat{b} b^ 服从正态分布。它的期望值为 E b ^ = b E\hat{b}=b Eb^=b,方差为 D b ^ = σ 2 l x x D\hat{b}=\frac{\sigma^2}{l_{xx}} Db^=lxxσ2

a ^ \hat{a} a^ 的分布

由于 a ^ = y ˉ − b ^ x ˉ = ∑ i = 1 n [ 1 n − ( x i − x ‾ ) x ‾ l x x ] y i \hat{a}=\bar{y}-\hat{b}\bar{x}=\sum_{i=1}^{n}\biggl[\frac{1}{n}-\frac{(x_{i}-\overline{x})\overline{x}}{l_{xx}}\biggr]y_{i} a^=yˉb^xˉ=i=1n[n1lxx(xix)x]yi,可见 a ^ \hat{a} a^ 也服从正态分布。其均值为 a a a,方差为 [ 1 n + x ˉ 2 l x x ] σ 2 \Big[\frac{1}{n}+\frac{\bar{x}^{2}}{l_{xx}}\Big]\sigma^{2} [n1+lxxxˉ2]σ2

一元线性回归的假设检验

易知,若线性模型符合实际,则 b b b 不应为零。为此,提出如下假设:
H 0 : b = 0 H_0:b=0 H0:b=0 t = b ^ σ ^ ∗ l x x ( 其中  σ ^ ∗ = σ ^ ∗ 2 ) t=\frac{\hat{b}}{\hat{\sigma}^{*}}\sqrt{l_{xx}}(\text{其中\ }\hat{\sigma}^{*}=\sqrt{\hat{\sigma}^{*2}}) t=σ^b^lxx (其中 σ^=σ^2 ) 作为检验统计量,当 H 0 H_0 H0 成立时,由 b ^ \hat{b} b^ 的分布知 t ∼ t ( n − 2 ) t \sim t(n-2) tt(n2)。故对给定的显著水平 α \alpha α,假设 H 0 H_0 H0 的拒绝域为 W = { ∣ t ∣ ≥ t α / 2 ( n − 2 ) } W=\{|t| \ge t_{\alpha/2}(n-2)\} W={ ttα/2(n2)}.


r ≜ l x y l x x l y y = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 r\triangleq\frac{l_{xy}}{\sqrt{l_{xx}l_{yy}}}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}} rlxxlyy lxy=i=1n(xixˉ)2 i=1n(yiyˉ)2 i=1n(xixˉ)(yiyˉ) r r r 可以描述变量间线性相关的密切程度,并且它是无量纲的。在线性相关的研究中,通常都用 r r r 衡量变量间线性相关的密切程度, r r r 称为经验相关系数样本相关系数

参考文献

[1] 《应用数理统计》,施雨,西安交通大学出版社。

猜你喜欢

转载自blog.csdn.net/myDarling_/article/details/134815797