建模之多元线性回归分析

关于回归的基础知识

1.回归分析用来研究变量X和Y之间的相关性
2.Y俗称因变量，即核心变量：连续数值型变量，0-1型变量，定序变量（数字代表了程度），计数变量（到访的次数），生存变量（年龄）。 X为解释变量，Y为被解释变量。
3.回归分析的目的：识别重要的解释变量，判断相关性的方向，估计权重（即回归系数）。
4.回归分析的分类：

在这里插入图片描述 5.数据的分类：横截面数据，时间序列数据，面板数据。（本次的多元回归分析用于解决横截面数据）
6.对于线性的理解:有的模型可以通过变量代换进行转换成线性模型。如含有平方项和交互项的模型。（所以一个模型中可以含有一个变量的多种形式，如平方，三次方，交互项。因为在回归中各个解释变量之间可以有相关性）
7.注意模型构建成功之后，要对模型进行解释，如回归系数的解释：在保持其它变量不变的情况下, $xi$ 每增加一个单位，因变量增加（或减少）多少个单位。
8.关于内生性：遗漏变量会导致内生性，即同一个解释变量前后回归系数变化很大，导致模型分析不准确，不满足无偏和一致性（样本数足够多时，拟合值会趋近于观测值的期望）
$y=\beta 0+\beta1 x_{1}+\beta 2x_{2}+\wedge +\beta kx_{k}+u$
u为无法观测且满足一定条件的扰动项，其中包含了所有与Y有关但是没有添加到回归模型中的变量。如果这些变量与我i们已经添加的自变量相关，则会存在内生性·。
使用蒙纳卡罗模拟发现某一自变量与u的相关系数越大，回归系数的估计值与正确值偏差越大。
9.模型无内生性不显示，可以弱化。将解释变量分为两类，一类是核心解释变量（我们所关注的变量），一类是控制变量。在实际应用中，只要保证核心解释变量与u不相关即可。
10.对变量取对数构造新的变量,
（1）减弱数据的异方差性（2）如果变量本身不符合正态分布，取了对数后可能渐近服从正态分布（3）模型形式的需要，让模型具有经济学意义。
11.对四类模型回归系数的解释:
一元线性回归。
双对数模型：x每增加1%，y平均变化b%
半对数模型：x每增加1个单位，y平均变化（100b）%（对y取对数）
半对数模型：x每增加1%，y平均变化b/100。（对x取对数）
12.在回归中对定性变量的解释
虚拟变量的引入（0-1型变量）
定性变量前的回归系数是在控制其他变量不变的情况下，该虚拟变量与对照组的差异。
为了避免多重共线性的影响引入虚拟变量的个数是分类数-1。
加入虚拟变量使用软件Stata回归，stata会自动检测完全多重共线性问题
注意整理表格，修改字体，不要直接把截图放到论文里。
13.对二值因变量常常使用probit回归。

对数据进行预处理（数据可视化）

使用excel对数据进行预处理，将区域转换为表格，便于管理。修改定性和定量数据的背景，进行总览，制成一个简单的表格放入论文中，进行一个总体情况的介绍·。
在excel中复制由公式得到的某一行或某一列时，注意粘贴为数值。
折线图与柱状图的结合使用。

对数据进行描述性统计

可以用·excel，SPSS，stata.
注意Stata中的语法（符号是英文）
导入数据，保存代码在do-file中。分别对定量数据和定性数据进行描述性统计，顺便可以设置虚拟变量。
注意tabulate每次只能对一个定性变量进行描述性统计
得到结果后，粘贴到Excel中美化（三线表）
当定性数据太多，只能放到附录中，每一个数据对应的分类进行频数统计绘制饼状图（excel）更加直观放入论文中。（数据透视表）做柱状图时注意对数据进行排序。使用数据透视表可以进行交互的分析。

利用Stata进行回归分析

在Stata中用reg进行回归时，默认使用OLS普通最小二乘法进行回归。
Model代表SSR;Residual代表SSE;Total代表总体平方和SST；SS代表；df代表自由度；Coef代表回归系数；Std.Err.代表标准误差（它的作用在于构造t统计量——回归系数除以标准误差）
首先要进行联合显著性检验（F统计量），检验这K个自变量前的回归系数是否都等于零。原假设是全部等于零·。
用t检验来检验回归系数的显著性，比较P值。（由于量纲的影响单看回归系数的大小没有意义，不能看出显著性）
置信区间包含原点说明回归系数的显著性不强。
回归用的是定量数据的变量和虚拟变量。
注意解读图标和某些数据的意义。（注意虚拟变量回归系数的解读）
将回归后得到的表格存到word文档中时，美化表格改变字体·，分析回归系数的意义。
回归模型的拟合优度很低，调整后通常更低，回归分为解释型回归（更多关注整体显著性，拟合优度小没有影响），预测型回归（唯拟合优度大是论）。也可以通过对模型进行调整，如·对数据取对数或者平方后进行回归（不要轻易改变变量，否则难以解释或者有内生性问题）
使用调整后拟合优度：因为引入的自变量越多，拟合优度越大。我们更倾向于使用调整后的拟合优度，如果新引入的自变量对SSE的减少程度比较小，那么调整后的拟合优度反而会变小。

利用Stata进行标准化回归（剔除量纲的影响）b

1.标准化回归是用来比较各个自变量对因变量的重要程度。
2.对数据进行标准化，就是将原始数据减去他的均数之后，再除以该变量的标准差，计算得到的新的变量的值，新变量构成的回归方程称为标准化回归方程，回归后相应可得到标准化的回归系数。（只关注显著的回归系数，标准化系数的绝对值越大，说明对因变量影响越大）即先用未标准化的回归系数进行显著性检验，在通过标准化的回归系数进行变量的重要性判断。

对模型进行稳健性检验

1.更改研究对象（针对某一问题，没有固定研究对象）。
2.更改计量方法。
3.加入其他的控制变量。

扰动项问题

1.我们通常把扰动项看成是便于我们分析的球型扰动项，它满足“同方差”和“无自相关”的条件。但是横截面数据容易出现异方差的问题，时间序列数据容易出现自相关（ui和uj的协方差不为零）的问题。
2.若扰动项中包含与自变量相关的变量会造成内生性，使模型不准确。

关于异方差

1.异方差：异方差性是相对于同方差而言的。所谓同方差（主对角线元素相同），是为了保证回归参数估计量具有良好的统计性质，经典线性回归模型的一个重要假定：总体回归函数中的随机误差项（扰动项）满足同方差性，即它们都有相同的方差。如果这一假定不满足，即：随机误差项具有不同的方差，则称线性回归模型存在异方差性。
简单来说就是对于不同的观测值，扰动项的方差不同
2.存在异方差的后果：OLS 估计出来的回归系数仍然是无偏的，一致的，但是假设检验无法使用，因为假设检验构造的t统计量是回归系数除以标准误，而标准误由于异方差的影响而不准确。OLS 不再是最优线性无偏估计量。例如：当自变量x增大时，数据越来越发散。
3.解决异方差的办法：（1）使用OLS和稳健的标准误差（常用）（2）使用广义最小二乘法（分配不同的权重）。
4.检验异方差：画散点图（看数据波动的程度）；BP检验和怀特检验（应用范围更广）（原假设是不存在异方差）。

多重共线性的问题

1.多重共线性是指某一自变量与其他自变量的相关性很大。
2.严格的多重共线性往往不存在，完全多重共线性stata会自动识别并删去。非严格的多重共线性往往更常见，会使得对系数的估计不准确。往往表现在：模型的拟合优度很大，联合性检验也很显著，但是但是单个系数的t检验不显著，或者系数的估计值不合理，甚至符号和预期相反。也可能是增减解释变量对系数的估计值影响很大（类似于内生性）。
多重共线性的主要后果是对单个系数的解释不准确，可能使它不显著。
3.检验多重共线性：方差膨胀因子VIF。
4.多重共线性的处理方法