本篇是本人总结的基本Stata使用手册(3):模型设定问题~
3. 模型设定问题
3.1 异方差与加权最小二乘
- 画残差图
.rvfplot %residual-versus-fitted plot
.rvpplot varname %residual-versus-predictor plot
- BP检验
.estat hettest,iid rhs %其中estat是为估计后统计量(post-estimation statistics),
hettest表示作异方差检验(heteroskedasticity test)p值越小,认为存在异方差
.estat hettest [varlist],iid %只对某些解释变量任辅助回归
- White检验
.estat imtest,white %p值越小,拒绝同方差假设,即存在异方差
- WLS(加权最小二乘)
.reg y x1 x2 x3 [aw=1/var] %aw 是 analytical weight,是振动项方差的倒数。
.reg y x1 x2 x3 [aw=1/var],r %WLS的稳健标准误
- 实现 WLS的过程
.qui reg y x1 x2 x3
.predict e1,r
.gen e2=e1^2
.gen lne2=log(e2)
.reg lne2 x1 %假设hat(ln(sigma_i)^2)为 x1的线性函数
.predict lne2f
.gen e2f=exp(lne2f)
.reg y x1 x2 x3 [aw=1/e2f]
3.2 自相关与广义最小二乘
- 时间序列算子
.tsset year %将 year作为时间变量
.reg y L(1/4).x % y对 x作一阶至四阶滞后的回归
- 画残差图
.scatter e1 L.e1 %画残差与其滞后的散点图
.ac e1 %看残差的自相关图,ac表示自相关(autocorrelation)
- BG检验
.estat bgodfrey,lags(p) nomiss0 %lags(p)指定滞后的阶数,nomiss0表示不添加 0的BG检验。
- Q检验
.wntestq e1,lags(p) %wntestq 表示 white noise Q
.corrgram e1,lags(p) %画自相关图
- DW检验
.estat dwatson
- HAC稳健标准误
Newey y x1 x2 x3,lag(p) %提供 Newey-West标准误
- 广义最小二乘(FGLS)
.prais y x1 x2 x3,corc %corc 表示使用 CO估计法,默认使用 PW估计法
.prais y x1 x2 x3,nolog %不显示迭代过程
3.3 模型设定与数据问题
- 计算信息准则
.estat ic,%运用由大到小的序贯 t规则(解释变量个数)
- Ramsey的RESET检验
.estat ovtest,rhs %p<\alpha,遗漏了高次项
- 计算 VIF(方差膨胀因子)
.estat vif %max(vif)>10,认为存在多重共线性
- 计算极端数据的影响力
.predict lev,leverage %极端数据的影响力,用 lev的最大值与平均值作比
- 生成虚拟变量
.tabulate province,generate(prov) %tabulate 表示将变量按其取值列表,生成名称为
prov的虚拟变量。之后的回归指令为 reg y x1 x2 x3 prov2-prov30,必须少加一个
- 经济结构变动(邹检验)
.reg c y
.scalar ssr=e(rss) %获利残差平方和
.reg c y if year<1992 %怀疑在1992年发生了经济结构变动
.scalar ssr1=e(rss)
.reg c y if year>=1992
.scalar ssr2=e(rss)
.di((ssr-ssr1-ssr2)/2)/((ssr1+ssr2)/32) %32=n-2k
.gen d=(year>1991) %生成虚拟变量再作回归
.gen yd=y*d
.reg c y d yd
.test d yd %检验y与yd的联合显著性
- 缺失数据与线性插值
.ipolate y x,gen(newvar)