Stata: 因变量是类别变量时采用什么方法估计?

Stata连享会   计量专题 || 精品课程 || 简书推文 || 公众号合集

点击查看完整推文列表

连享会计量方法专题……https://gitee.com/arlionn/Course

问题背景

多数情况下,我们的被解释变量都是连续变量,但也有些情况下,我们会对分类变量感兴趣,比如,出门时选择何种交通工具?大学毕业时是否继续读研?等等。那么,此时,该用何种模型来分析比较合适呢?

分类变量可以被进一步分为多种类型,要根据情况来选择合适的模型。

0/1 变量

例如,是否结婚? 是否生二胎? 是否买越野车 ……,被解释变量都是非此即彼的二元选择问题。此时,最为常用的是 LogitProbit 模型,二者虽然形式上有差异,在系数解释、概率预测方面的差异却很小。

若使用 Stata 进行估计,语法也很简单。

sysuse auto, clear 
logit foreign price weight mpg  // Logit 估计
probit foreign price weight mpg // Probit 估计

更为详细的介绍,请参阅:

类别数目较小的分类变量

例如,被解释变量为「 y y = 出行交通工具选择」:1 步行;2 电动车;3 汽车;4 地铁。显然,各个类别虽然用数字加以区分,但数字之间并无大小区分,只起到了「标记」作用。

类似的例子还有很多,例如:

  • y y = 上市公司的融资方式」:1 内部融资;2 债务融资;3 权益融资 (这是比较规范的例子)
  • y y = 上市公司的融资方式」:1 内部融资;2 银行贷款;3 公司债券;4 定向增发;5 公开二次发行 (这是比较糟糕的例子)
  • y y = 高管激励方式=」:1 货币薪酬;2 股票期权;3 绩效奖金

此时可以使用 多元 Logit/Probit 模型 (Multinomial Logit/Probit regression) 进行估计,对应的 Stata 命令是 mlogitmprobit。Stata 帮助文件和电子手册提供了详细的范例和说明。

本质上,可以把多元 Logit 视为多个二元 Logit,同时附加一些约束条件,例如,要求各种选择的概率之和为 1,且每一组二元 Logit 模型的干扰项之间彼此存在一定相关性。

如下是相关参考资料:

类别数目较多的情形

类别数较多时,比如,超过 10 组甚至 20 组,直接进行分析的难度较大。退一步来讲,此时组间的差异分析也不容易进行,经济含义比较难以说清楚。

一个比较稳妥的处理方式是,根据相关的理论和经验分析对现有的分类进行适当合并,使分析对象相对集中一些。

例如,可以把「A. 银行短期贷款;B. 银行长期贷款;C. 商业票据;D. 可赎回债券」等融资方式都归类为「1. 债务融资」,进而与「2. 内部融资」和「3.权益融资」放在一起进行对比分析。 从理论上讲,上述小类 (A, B, C, D) 虽然也有差别,当相对于大类 (1, 2, 3) 之间的差异而言,这些差别的重要性就会大大降低。从大类层面进行分析便于我们抓住问题的本质。

具有序别特征的分类变量

有时候,我们是无法明确区分「类别变量」和「序别变量」的。例如,「HY - 幸福感」 —— 取值为 1-5,5 代表“非常幸福”。

你可以把 HY 视为类别变量,使用 mlogit 模型来分析 HY=5HY=4 的人群有哪些差别。此时,数字 45 只是用来标记两类人群的,并不存在 4 < 5 4<5 的关系。

你也可以把 HY 视为序别变量,用 有序 (Ordered) Logit / Probit 分析幸福感的提升 (由 1 → 2 或 4 → 5) 受哪些因素的影响。此时, 4 < 5 4<5

相对而言,后者用的多一些,但也有文章同时从上述两个角度进行分析,因为二者并不存在孰优孰劣的问题。

上述两个模型的 Stata 命令为 mlogitologit。如下是两个不错的例子:

除了上述提到的 Logit / Probit 族模型外,在某些情况下,也会考虑使用 计数模型 (Count Data model, help poisson, help nbreg) 来分析诸如 专利个数交通违章次数 等有「计数」特征的变量。

参考资料

关于我们


欢迎加入Stata连享会(公众号: StataChina)

发布了106 篇原创文章 · 获赞 132 · 访问量 34万+

猜你喜欢

转载自blog.csdn.net/arlionn/article/details/103853914