因果分析

Causality Problems(相关不一定是因果):

  • 伪关系:Y和X只是恰巧同时发生,实际上没有明显的逻辑上的关联,如巧克力销量和诺奖得主数量
  • 遗漏变量偏差:存在既影响X也影响Y的混淆变量,如年龄混淆了年收入和罹患癌症几率之间的关系
  • 幸存者偏差:部分样本没有被收集到
  • 反向因果
  • 联立性偏差

因果分析的核心:

  • identification:将因果关系从关联中分割
  • estimation:计算因果关系的大小
  • inference:基于统计的推断(有多大的信心结果是正确的Hypothesis testing,结果会存在多大的波动Confidence interval)
  • 流派:
    • Potential Outcome Model:个体i的因果效应\tau _{i}=Y_{i}(1)-Y_{i}(0),因为真实世界不存在平行宇宙,Y_{i}(1)(个体受到效用后的结果)或Y_{i}(0)(个体未收到效用后的结果)只有一个可以被观测到,所以需要构造合适的对照组来模拟这种情况,即counterfactual
    • Graph Causal Model:

因果分析的工具:

  • A/B testing:
  • Matching:
    • CEM
    • PSM
  • Fixed Effect
  • Difference-in-differences:
    • 是一种特殊的固定效应模型,模型简单,基本不需要算法拟合
    • 核心假设:Parallel Trend 
    • 指标差异拆分为trend和treatment带来的差异两部分,通过平行趋势检验,利用对照组政策前后的波动差异来量化trend,从而剥离出treatment带来的独立影响(类似于“AB差异-AA差异=真实策略差异”的思想)
  • Synthetic Control:
    • 对实验组在实验日期之后构造一个虚拟的对照组
    • 由于该方法对内生性控制方面的扩展不足, 比较适合外生事件的分析。内生事件的分析推荐用PSM
    • 不适用于微观数据分析,原因有:不存在十年以上的微观数据 (比如说追踪调查);该方法不适用于参照组无限大的情况 (比如说统计了上千家庭的微观截面数据 );即适合小样本量长时间跨度(matching+DID适合大样本量短时间跨度)
    • 适用于“试点项目“
  • Matrix Completion

例子:一项新活动上线,评估该活动对用户价值的影响:

  • 对比活动前后的用户价值:没有剥离前后两个时段的市场要素的差异;
  • 对比参与活动的用户与未参与活动的用户:参与活动的用户大概率本事是忠实用户(选择偏差);
  • AB实验:一组可以看到活动,一组看不到活动,对比两组用户:可以进一步筛选出可以看到活动的用户中参与了该活动的用户,此外如果参与该活动的渗透率低,可以考虑在看不到活动的组中做matching

Reference

因果分析的理论和应用

猜你喜欢

转载自blog.csdn.net/qq_34276652/article/details/114225900