统计学_贾俊平——思考题第12章多元线性回归

1.解释多元回归模型、多元回归方程、估计的多元回归方程的含义。

(1)多元回归模型:设因变量为 y y y k k k 个自变量分别为 x 1 , x 2 , . . . , x k x_1,x_2,...,x_k x1,x2,...,xk,描述因变量 y y y 如何依赖于自变量 x 1 , x 2 , . . . , x k x_1,x_2,...,x_k x1,x2,...,xk 和误差项 ε \varepsilon ε 的方程称为多元回归模型。其一般形式可表示为:
y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k x k + ϵ y=\beta _0+\beta _1x_1+\beta _2x_2+...+\beta _kx_k+\epsilon y=β0+β1x1+β2x2+...+βkxk+ϵ

(2)多元回归方程:根据回归模型的假定有 E ( y ) = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k x k + ϵ E(y)=\beta _0+\beta _1x_1+\beta _2x_2+...+\beta _kx_k+\epsilon E(y)=β0+β1x1+β2x2+...+βkxk+ϵ,称为多元回归方程,它描述了因变量 y y y 的期望值与自变量 x 1 , x 2 , . . . , x k x_1,x_2,...,x_k x1,x2,...,xk 之间的关系。

(3)估计的多元回归方程:回归方程中的参数 β 0 , β 1 , β 2 , . . . , β k \beta _0,\beta _1,\beta _2,...,\beta _k β0,β1,β2,...,βk 是未知的,需要利用样本数据去估计它们。当用样本统计量 β ^ 0 , β ^ 1 , β ^ 2 , . . . , β ^ k \hat{\beta} _0,\hat{\beta} _1,\hat{\beta} _2,...,\hat{\beta} _k β^0,β^1,β^2,...,β^k 去估计回归方程中的未知参数 β 0 , β 1 , β 2 , . . . , β k \beta _0,\beta _1,\beta _2,...,\beta _k β0,β1,β2,...,βk 时,就得到了估计的多元回归方程,其一般形式为:
y ^ = β ^ 0 + β ^ 1 x 1 + β ^ 2 x 2 + . . . + β ^ k x k \hat{y} =\hat{\beta} _0+\hat{\beta} _1x_1+\hat{\beta}_2x_2+...+\hat{\beta}_kx_k y^=β^0+β^1x1+β^2x2+...+β^kxk
式中, β ^ 0 , β ^ 1 , β ^ 2 , . . . , β ^ k \hat{\beta} _0,\hat{\beta} _1,\hat{\beta} _2,...,\hat{\beta} _k β^0,β^1,β^2,...,β^k 是参数 β 0 , β 1 , β 2 , . . . , β k \beta _0,\beta _1,\beta _2,...,\beta _k β0,β1,β2,...,βk 的估计值, y ^ \hat{y} y^ 是因变量 y y y 的估计值。其中 β 1 , β 2 , . . . , β k \beta _1,\beta _2,...,\beta _k β1,β2,...,βk 称为偏回归系数。

2.多元线性回归模型中有哪些基本假定?

多元回归模型的基本假定有:

(1)自变量 x 1 , x 2 , . . . , x k x_1,x_2,...,x_k x1,x2,...,xk 是非随机的、固定的,且相互之间互不相关(无多重共线性),同时样本容量必须大于所要估计的回归系数的个数,即 n > k n>k n>k
(2)误差项 ϵ \epsilon ϵ 是一个期望值为 0 的随机变量,即 E ( ϵ ) = 0 E( \epsilon )=0 E(ϵ)=0
(3)对于自变量 x 1 , x 2 , . . . , x k x_1,x_2,...,x_k x1,x2,...,xk 的所有值, ϵ \epsilon ϵ 的方差 σ 2 \sigma ^2 σ2 都相同,且无序列相关,即 D ( ε i ) = σ 2 , C o v ( ε i , ε j ) = 0 , i ≠ j D(\varepsilon _i)=\sigma ^2,Cov(\varepsilon _i,\varepsilon _j)=0,i\ne j D(εi)=σ2,Cov(εi,εj)=0,i=j
(4)误差项 ϵ \epsilon ϵ 是一个服从正态分布的随机变量,且相互独立,即 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N(0,\sigma ^2) εN(0,σ2)

3.解释多重判定系数和调整的多重判定系数的含义和作用。

(1)多重判定系数是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量 y y y 的变差中被估计的回归方程所解释的比例,其计算公式为: R 2 = S S R / S S T = 1 − S S E / S S T R^2=SSR/SST=1-SSE/SST R2SSR/SST1SSE/SST

(2)调整的多重判定系数考虑了样本量( n n n)和模型中自变量的个数( k k k)的影响,这就使得 R a 2 R^2 _a Ra2 的值永远小于 R 2 R^2 R2,而且 R a 2 R^2 _a Ra2 的值不会由于模型中自变量个数的增加而越来越接近 1,其计算公式为: R a 2 = 1 − ( 1 − R 2 ) × n − 1 n − k − 1 R^2 _a=1-(1-R^2)\times \frac{n-1}{n-k-1} Ra2=1(1R2)×nk1n1

4.解释多重共线性的含义。

当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性。

5.多重共线性对回归分析有哪些影响?

回归分析中存在多重共线性时将会产生以下问题:

(1)变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;
(2)多重共线性可能对参数估计值的正负号产生影响,特别是 β i \beta_i βi 的正负号有可能同预期的正负号相反。

6.多重共线性的判别方法主要有哪些?

检测多重共线性的方法有多种,其中最简单的是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。如果有一个或多个相关系数显著,就表示模型中存在相关的自变量,也即存在多重共线性问题。

具体来说,如果出现下列情况,暗示存在多重共线性:
(1)模型中各对自变量之间显著相关;
(2)当模型的线性关系检验(F 检验)显著时,几乎所有回归系数 β i \beta_i βi t t t 检验却不显著;
(3)回归系数的正负号与预期的相反。
(4)容忍度与方差扩大因子。某个自变量的容忍度等于 1 减去该自变量为因变量而其他 k − 1 k-1 k1 个自变量为预测变量时所得到的线性回归模型的判定系数,即 1 − R i 2 1-R^2 _i 1Ri2。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1 时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数,即 V I F = 1 / ( 1 − R i 2 ) VIF=1/(1-R^2 _i) VIF=1/(1Ri2)。显然, V I F VIF VIF 越大,多重共线性越严重。一般认为 V I F VIF VIF 大于 10 时,存在严重的多重共线性。

7.多重共线性的处理方法有哪些?

多重共线性的处理有以下几种方法:

(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。
(2)如果要在模型中保留所有的自变量,那就应该:①避免根据 t t t 统计量对单个参数 β \beta β 进行检验;②对因变量 y y y 值的推断(估计或预测)限定在自变量样本值的范围内。

8.在多元线性回归中,选择自变量的方法有哪些?

在多元线性回归中,变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等。

(1)向前选择是从模型中没有自变量开始,不断向模型中增加自变量,直至增加自变量不能使 F 统计量的值显著增加;
(2)向后剔除与向前选择法相反,它首先将自变量全部加入模型中,然后一个个剔除,直至剔除一个自变量不会使 SSE 显著减小为止,这时,模型中所剩的自变量都是显著的;
(3)逐步回归是向前选择和向后剔除的结合,前两步与向前选择法相同,然后向模型中不断增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致 SSE 显著减少。

猜你喜欢

转载自blog.csdn.net/J__aries/article/details/131317633