STATA IV估计，工具变量回归法，命令与小结（更新ING）

为了方便理解，这里假设因变量为y，解释变量为x1(内生)、x2，控制变量为c1，工具变量为z1。

OLS回归

y = β1x1 +β2x2 + β3*c1 + e

1.直接ols回归

reg y x1 x2 c1

2.异方差检验
在完成基本的OLS回归后，输入：

#1.Breusch-Pagan test(B-P)检验
reg y x1 x2 x3 c1
estat hettest,iid rhs
	#对所有解释变量做检验
estat hettest x1 x2,iid 
	#仅对x1 x2做检验
#2.White怀特检验，它用所有解释变量及他们的高次项和交叉项来对残差平方做回归，得到R方后再做LM检验。相对于BP检验，更适用于大样本。
reg y x1 x2 x3 c1
estat imtest,white

3.处理异方差
（1）OLS+异方差稳健标准误，即在reg命令后加上’,r’,或者’,robust’
#注：处理后回归结果不会显示adj-R2,输入di e(r2-a)查看
（2）加权最小二乘法（WLS）与可行加权最小二乘法（FWLS），但一般只有异方差非常严重并且对条件方差函数的具体形式很有把握的时候采用FWLS

reg y A B C 
predict e,residual                       
gen lne2=log(e^2)                     
reg lne2 A （当你怀疑异方差主要由解释变量A引起）                    predict lne2f                   
gen e2f=exp(lne2f)                  
reg y A B  C [aw=1/e2f],robust

在这里插入图片描述

4.内生性检验
（1）若模型存在内生性，则应使用异方差稳健的Durbin-Wu-Huasman test(DWH)，它使用扩充解释变量的方法产生稳健的检验统计量。

estat endogenous

在这里插入图片描述
（2）其他情况可选：

#1.Huasman检验
Huasman iv ols
    #先把其他模型est store为另外的名字，然后再进行检验
#2.ovtest
ovtest
	#Ramsey RESET test，根据p值判断，若p小于0，则不能排除内生性的可能

5.多重共线性
当vif全部小于10并且平均大于1时，排除多重共线

estat vif
#若存在问题，可采用逐步回归进行修正：
sw reg y x1 x2 c1,pr(0.05)
	#注：含二次项的要另外处理

工具变量回归

内生性来源：测量误差、样本选择问题、互为因果、遗漏变量、模型设定等
估计方法：2sls、2sls small（适合小样本）、liml（适合弱工具变量）、gmm（适合异方差）

#2SLS
ivregress 2sls y x2 c1 (x1 = z)
ivregress 2sls y x2 c1 (x1 = z),vce(robust)  	      
    #vce(robust)代表控制异方差的存在
#liml，对若工具变量更不敏感的有限信息最大似然法，若与2sls的结果差不多，则认为不存在若工具变量的问题
ivregress liml y x2 c1 (x1 = z),r

#注：在大样本下，LIML 与2SLS是渐近等价的
#GMM
ivregress gmm y x2 c1 (x1 = z)

1.检验解释变量的内生性

reg y x1 x2 c1
est store ols
ivregress 2sls y x2 c1 (x1 = z)
est store iv
hausman ols iv,constant sigmamore

#注：若存在异方差,则Hausman检验不成立，应使用：
estat endogenous

2.弱工具变量检验

#弱工具变量检验
estat firststage,forcenonrobust all

共输出三张表：

扫描二维码关注公众号，回复： 15427150 查看本文章

第一张为关键诊断统计量的概述性统计表，若F统计量大于经验值10则确定z并非若工具变量。
注：回归R-sq和调整R-sq值如果很低则表示工具变量对拟合的贡献很小，也反映了IV方法对估计精度的损失；partial
R-sq是控制了其他变量后的拟合度，若其值降低，则表明需要警惕弱工具变量的可能性
第二张给出了Shea’s partial R-squared，当只有一个内生解释变量，它会等价于前述partial R-sq。
第三张是stock-yogo检验结果，当Minimum eigenvalue statistic 值大于16.38时认为Z不是弱工具变量。

3.过度识别检验
当存在多个内生变量时，需要考虑工具变量的个数以确保所有的变量都能被识别。

如果工具变量个数少于内生变量个数，则无法进行 2SLS 估计，称为“不可识别”（unidentified）；
如果工具变量个数正好等于内生变量个数，则称为 “恰好识别”（justidentified 或 exactly identified）；
如果工具变量个数大于内生变量个数，则称为“过度识别”（overidentified）。在恰好识别或过度识别的情况下，均可进行 2SLS
估计；而在不可识别的情况下，则无法进行。

#过度识别检验
estat overid
 # 若是Sargan-Basman检验的统计量对应的p值大于0.05，则认为所有的工具变量都是外生的，也就是有效的，反之则是无效的。

其他命令

1.中心化和标准化（需安装center）

findit center
#中心化
center x1 x2 c1
	#注：生成的新变量默认前面带'c_',若要自己命名：
center x1,g(new_x1)

#标准化
center x1,x2,c1,prefix(z_) standardize
	#注：生成的新变量默认前面带'z_',

注：
1.STATA常用统计命令
2.工具变量回归