[因果推断]---五个常见问题与思考

因果推断慢慢从学界走向商业环境中,有几个问题值得思考

一 哪类研究需要使用因果推断(causal inference)?

一般而言因果推断会和两种方法对比,一是机器学习,二是AB Test。

机器学习强在预测(prediction),因果推断强在推理(reasoning)。机器学习预测的是事实(facts),比如这张图片是猫还是狗、这段留言是正面还是负面的;而因果推断推理的是反事实(counterfactual),比如一个没有拿到消费券的顾客如果拿到了消费券是否真的会去消费,或者一个没有使用过产品的客户在他使用后会对品牌产生多大的改观。这一部分可以看Pearl 2009了解更多。

AB Test强在合理严密地规划未来(experimental future),而因果推断强在利用既定事实(observational history)。因此,因果推断帮助企业更好使用已有数据,补充了AB Test使用场景。这一部分可以看Kohavi et al. 2020了解更多。

二 如何寻找合适的实验(treatment)?

因果推断的场景往往是post-hoc的,也就是先有数据再有研究,而非ABtest类先有研究目标再有数据。这比较符合目前数据产生的生态,也恰好是因果推断强处。因此,因果推断研究>30%的时间是在寻找合适的实验组和对照组。

从技术角度,Treatment的要求一般是完全随机的,这一点很难在现实中实现,但却可以通过matching、pairing、stratification等方法来解决,具体可以看Stuart 2010中的介绍。

从方法论角度,一般来说我从问题、数据出发双向探寻。从问题方向入手,首先想清楚要研究的问题是什么,通常可以结合专家(或者更多情况下您的老板)的意见和查找文献方面入手。然后看一下这个问题是否可以被手头数据解决,尤其看一下是否满足因果推断的假设。从数据方面入手,通过大规模数据挖掘找到显著特征,思考可以得出的研究问题。

从问题出发更加高效、从数据出发往往会找到黑天鹅。

三 如何为因果推断选择合适的指标(metrics)?

在大部分研究中,无论是实验前还是实验后的,有几个我对于指标的标准,

  1. 区分度,指的是在不同的细分人口或类别中有分布上的差异,通常可以用KL-Divergence等方式检验。
  2. 易于解释,指的是尽量不要存在多次差分、求导和求对数等复杂操作。合乎规范,不给自己找麻烦。
  3. 比较好的统计特征,例如正态等。

设计指标的流程可以是,首先设计指标,然后在细分分类上看此指标是否有合理的波动,如果合适则使用,否则重新设置指标。

四 是否应该使用工具变量(Instrumental Variable)?

Instrumental Variable (以下简称IV)在很多文献中都被用来拯救未能看见的变量(unobserved confounding)的绝佳方式,但一般来说,除非是学术论文,我不建议用工具变量的。理由是 1). 工具变量极其难找。目前IV理论的假设太多,以至于在商业环境下几乎不可能找到合适的IV,比较费事费力但往往效果不好。2). 工具变量比较难解释。想想怎么和你的老板和客户解释IV的存在?

当然,我发现在一下的设定里,特别适合使用工具变量。随机量作为IV,用户对该随机量的感知量作为Treatment。比如用客服的既往得分作为IV,而用户评分作为Treatment(Huang et al. 2019)。

关于IV的更多内容可以参考Baiocchi 2014.

五 因果效果(causal effect)仅在一个很小的群体(subgroup)中显著,我应该怎么办?

在排除了这一现象确实存在的情况下,常见的方法有两种。第一个是合并分类,有可能是目前的分类过细而各分类数据量大小有限,从而显著性无法提升。第二个是尝试换一个更有区分度的指标。第三个是重新对subgroup进行matching,可能是在matching的时候没有考虑到这一个群体而产生了问题。

Huang, G., & Sudhir, K. (2019). The Causal Effect of Service Satisfaction on Customer Loyalty. SSRN Electronic Journal. doi:10.2139/ssrn.3391242

Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing 1st Edition by Ron Kohavi (Author), Diane Tang (Author), Ya Xu (Author)

Elizabeth A. Stuart Matching methods for causal inference: A review and a look forward

Causality, Pearl 2019

猜你喜欢

转载自blog.csdn.net/zwqjoy/article/details/124282116
今日推荐