Stata: 因变量是类别变量时采用什么方法估计？

Stata连享会计量专题 || 精品课程 || 简书推文 || 公众号合集

连享会计量方法专题……，https://gitee.com/arlionn/Course

问题背景

多数情况下，我们的被解释变量都是连续变量，但也有些情况下，我们会对分类变量感兴趣，比如，出门时选择何种交通工具？大学毕业时是否继续读研？等等。那么，此时，该用何种模型来分析比较合适呢？

分类变量可以被进一步分为多种类型，要根据情况来选择合适的模型。

0/1 变量

例如，是否结婚？ 是否生二胎？ 是否买越野车 ……，被解释变量都是非此即彼的二元选择问题。此时，最为常用的是 Logit 或 Probit 模型，二者虽然形式上有差异，在系数解释、概率预测方面的差异却很小。

若使用 Stata 进行估计，语法也很简单。

sysuse auto, clear 
logit foreign price weight mpg  // Logit 估计
probit foreign price weight mpg // Probit 估计

更为详细的介绍，请参阅：

类别数目较小的分类变量

例如，被解释变量为「 $y$ = 出行交通工具选择」：1 步行；2 电动车；3 汽车；4 地铁。显然，各个类别虽然用数字加以区分，但数字之间并无大小区分，只起到了「标记」作用。

类似的例子还有很多，例如：

「 $y$ = 上市公司的融资方式」：1 内部融资；2 债务融资；3 权益融资 (这是比较规范的例子)
「 $y$ = 上市公司的融资方式」：1 内部融资；2 银行贷款；3 公司债券；4 定向增发；5 公开二次发行 (这是比较糟糕的例子)
「 $y$ = 高管激励方式=」：1 货币薪酬；2 股票期权；3 绩效奖金

此时可以使用 多元 Logit/Probit 模型 (Multinomial Logit/Probit regression) 进行估计，对应的 Stata 命令是 mlogit 和 mprobit。Stata 帮助文件和电子手册提供了详细的范例和说明。

本质上，可以把多元 Logit 视为多个二元 Logit，同时附加一些约束条件，例如，要求各种选择的概率之和为 1，且每一组二元 Logit 模型的干扰项之间彼此存在一定相关性。

如下是相关参考资料：

Stata 手册 - mlogit 多元 Logit 模型的理论介绍
UCLA Stata 范例 - mlogit 介绍的比较详细。

类别数目较多的情形

类别数较多时，比如，超过 10 组甚至 20 组，直接进行分析的难度较大。退一步来讲，此时组间的差异分析也不容易进行，经济含义比较难以说清楚。

一个比较稳妥的处理方式是，根据相关的理论和经验分析对现有的分类进行适当合并，使分析对象相对集中一些。

例如，可以把「A. 银行短期贷款；B. 银行长期贷款；C. 商业票据；D. 可赎回债券」等融资方式都归类为「1. 债务融资」，进而与「2. 内部融资」和「3.权益融资」放在一起进行对比分析。从理论上讲，上述小类 (A, B, C, D) 虽然也有差别，当相对于大类 (1, 2, 3) 之间的差异而言，这些差别的重要性就会大大降低。从大类层面进行分析便于我们抓住问题的本质。

具有序别特征的分类变量

有时候，我们是无法明确区分「类别变量」和「序别变量」的。例如，「HY - 幸福感」 —— 取值为 1-5，5 代表“非常幸福”。

你可以把 HY 视为类别变量，使用 mlogit 模型来分析 HY=5 和 HY=4 的人群有哪些差别。此时，数字 4 和 5 只是用来标记两类人群的，并不存在 $4<5$ 的关系。

你也可以把 HY 视为序别变量，用 有序 (Ordered) Logit / Probit 分析幸福感的提升 (由 1 → 2 或 4 → 5) 受哪些因素的影响。此时， $4<5$ 。

相对而言，后者用的多一些，但也有文章同时从上述两个角度进行分析，因为二者并不存在孰优孰劣的问题。

上述两个模型的 Stata 命令为 mlogit 和 ologit。如下是两个不错的例子：

除了上述提到的 Logit / Probit 族模型外，在某些情况下，也会考虑使用 计数模型 (Count Data model, help poisson, help nbreg) 来分析诸如 专利个数、交通违章次数 等有「计数」特征的变量。

参考资料

关于我们

Stata连享会 由中山大学连玉君老师团队创办，定期分享实证分析经验。
欢迎赐稿： 欢迎赐稿至[email protected]。录用稿件达三篇以上，即可免费获得一期 Stata 现场培训资格。
往期精彩推文：
Stata绘图 | 时间序列+面板数据 | Stata资源 | 数据处理+程序 | 回归分析-交乘项-内生性

欢迎加入Stata连享会(公众号: StataChina)

arlionn

发布了106 篇原创文章 · 获赞 132 · 访问量 34万+

私信关注