[DataAnalysis]多元线性回归深入浅出-案例+模型假设+参数估计方法+模型评判方法+变量选择+多重共线性问题

一、案例介绍

1、目的：利用上市公司当年的公开财务指标预测来年盈利情况最重要的投资人决策依据。

2、数据来源：随机抽取深市和沪市2002和2003年的500个上市公司样本预测来年的净资产收益率。

3、解释变量包括：资产周转率、当年净资产收益率、债务资本比率、市盈率、应收账款/主营业务收入、主营业务利润、存货/资产总计（反映公司存货状况）、对数资产总计（反映公司规模）

二、描述性分析

1、各个标量的均值、最小值、中位数、最大数和标准差

2、变量相关性分析：相关性矩阵

3、当期净资产收益率和往期净资产收益率的散点图

三、建立模型：

1、多元线性回归模型：

2、模型假设：

（1）解释变量是非随机的，且各解释变量之间互不相关（多重共线性）

（2）随机误差项具有零均值、同方差和不序列相关性

（3）解释变量和随机项不相关

（4）随机项满足正态分布

总结即：随机项满足零均值、同方差、不序列相关的正态分布；解释变量和随机项不相关且解释变量之间互不相关

3、参数估计：

（1）最小二乘估计量：

$RSS=\sum (y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i1}- \hat{\beta_{2}}x_{i2}-...-\hat{\beta_{p}}x_{ip})^2$

（2）方差估计量：

$\hat{\sigma }^2=RSS/(n-p-1)$

（3）拟合优度：

总平方和： $SST=\sum (y_i-\bar{y})^2$

残差平方和： $SSe=\sum (y_i-\bar{y})^2$

R-square： $R^2=1-\frac{SSE}{SST}$

4、显著性检验：

（1）F检验

假设： $H_0:\beta_i=0 vs H_1:\beta_i\neq 0$

检验统计量： $F=\frac{(SST-SSE)/p)}{SSE/(n-p-1))}\sim F_{p,n-p-1}$

（2）t检验

假设： $H_0:\beta_i=0 vs H_1:\beta_i\neq 0$

检验统计量： $T=\frac{\hat{\beta_i}}{\sqrt{\sigma ^2/n}}\sim t_{n-p-1}$

5、模型检验

（1）异方差性

（2）正态性检验：

QQ图：残差的分位数和正态分布的分位数呈线性关系

Shapiro-Wilk normality test

Kolmogorov-Smirnov test

（3）异常值检验：待补充

Cook距离

（4）多重共线性检验：

见五介绍多重共线性

四、变量选择与预测：

只有三个变量显著性通过，但是无法排除其他变量是否有预测能力。从而我们通过AIC和BIC准则选择。原理：同时考虑到了模型复杂度和拟合效果。

$AIC=n(log(\frac{RSS}{n})+1+log(2\pi ))+2p$

$BIC=n(log(\frac{RSS}{n})+1+log(2\pi))+logn*p$

五、多重共线性问题：

1、变量相关性对模型造成的影响：

（1）完全多重共线性会使OLS（普通最小二乘）系数矩阵方程解不唯一（基本上不存在完全多重共线性，多是不完全多重共线性），不完全多重共线性会使OLS估计量的方差和标准误较大（因为），即使得估计精度很小和置信区间变宽。

（2）多重共线性由于自变量之间的相关性，从而变量估计系数可能出现完全相反的符号或者难以置信的数值。

（3）可能出现显著自变量回归系数不显著：因为标准误较大，从而t检验的t值较小，倾向于接受原假设。

（4）R方值较高，但t值并不都是统计显著的。R²等于回归平方和在总平方和中所占的比率，即回归方程所能解释的因变量变异性的百分比。具体解释见补充资料1：回归拟合增加解释变量为什么增加拟合优度。方差膨胀因子越接近1,多重共线性越严重。这个时候R2越接近1。

2、多重共线性的诊断方法：

（1）R2较高但t值统计显著的不多。

（2）解释变量两两高度相关。

（3）方差膨胀因子

3、方差膨胀因子：

（1）考虑辅助回归： $x_i=a+\sum_{j=1}^{n}b_jx_j+e$

（2） $R_{i}^{2}$ 是辅助回归的拟合优度

（3）方差膨胀因子： $VIF_i=\frac{1}{1-{R_{i}}^{2}}$

在一定程度上在多大程度上第i个变量所包含的信息被其他变量覆盖。一般认为小于10就没有多重共线性问题。

[DataAnalysis]多元线性回归深入浅出-案例+模型假设+参数估计方法+模型评判方法+变量选择+多重共线性问题

猜你喜欢