论文阅读:《Inferring causation from time series in Earth system sciences》

研究背景

  • 现代科学研究的基本套路是观察加实验,在不同的受控条件下干扰目标系统
  • 但是在一些复杂的系统比如气候系统中,做控制实验是非常困难的,因此就需要尝试从观测数据中提取有用的因果信息
  • 因果推断方法旨在发现和量化系统的因果相互依赖关系
  • 因果可分成两类,一类是type causality ,另一类是actual causality。第一类是由因推果(向后看),是一种干预思维,改变因的量看会不会改变果的量;第二类是由果推因(向前看),是一种反事实思维,直接假设因是另一件事情或者因没有发生,看看结果会不会改变
  • 三层因果关系之梯(从低到高)
    • 关联(Association)【统计模型】:由数据定义的统计相关性,大多数机器学习系统运行在这一层上
    • 干预(Intervention)【基于图的贝叶斯网络模型】:一个干预或行动将会导致什么结果。典型问题是“如果我们把价格翻倍,将会发生什么?”
    • 反事实(Counterfactual)【基于结构的因果模型】:对过去发生的事情的反思和溯因,典型问题是“如果过去作出不一样的行为,现在的结果会有何不同?”
    • 如果可以解决高层因果关系,那么解决低层关系就水到渠成,反之则不行。

因果比相关更好

在这里插入图片描述

相关方法

Granger causality

基本思想:忽略时间序列X是否会增大时间序列Y的预测误差。其缺点是只检验了事件先后发生的关系,不代表真实的因果,其本质上是检验了一种可预测性。比如说燕子低飞要下雨这件事,Granger causality得出的结论就是燕子低飞有助于预测下雨。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

上面的方法是经典的基于线性自回归模型的方案,现在也有一些基于更加复杂的模型例如信息论的方案(transfer entropy,基于条件分布构造的非线性时间序列之间的因果推断方法,可以证明与Granger causality等价)或者是多元格兰格因果检验,以扩展到高维变量。

Nonlinear state-space methods

基本思想:检验因与果是否总是一起出现,假设发生的事件是非线性、动态且非随机的,在多组时间序列中构建出因果网络,一般都会用到Takens定理和相空间重构理论,典型方法是convergent cross-mapping (CCM)收敛交叉映射算法。

在这里插入图片描述

如果可以基于Y的时延嵌入重构出的系统来预测X,那X对Y存在因果关系。

Causal network

研究动机:状态空间方法要求时间序列满足混沌性,因此不能很好地处理随机情况。可以应用基于马尔可夫链的图模型来解决此类问题。

  • Peter-Clark(PC)算法

    PC算法从一个连通图开始,然后迭代地去除不同节点之间的连接。PC可以指出一部分变量能不能够成为另外一部分变量的原因,但不能说这个影响的效应有多强。PC算法类似的算法无法从观测数据中得到一个单一的DAG(有向无环图),因为多个DAG可以描述相同的条件独立性信息。如果将从全图减边换成从空图加边,则可以得到Greedy equivalence search算法。添加或删除边是需要判断条件独立性,这可以通过一些机器学习和信息论的方案来实现。

在这里插入图片描述

  • PCMCI算法
    该方法在PC的基础上引入了MCI检测,针对复杂系统中存在的大量非线性相互关系,有较长时间滞后的因果作用,以及只在部分情况下会出现的因果关系这些特点,平衡错误检出和未检出这两种类型的错误,使得模型具有更强的检测出因果关系的能力。

  • Fast Causal Inference (FCI)算法

    该方法不要求因果充分性假设,也就是说不要求所有可能的驱动因素都被观察到。

Structural causal model framework

研究动机:GC方法要求因果事件之间有一定的时间间隔,因此难以处理几乎同步发生的情况。网络算法可以解决这一问题,但要求因果图具有马尔科夫性。SCM在贝叶斯网络的基础上,将条件概率修正为函数式表示,可以更好地计算出因果方向。

结构因果模型(SCM) 由三个部分组成:图模型,结构方程以及反事实和干预逻辑。图模型是一种表示因果知识的语言,反事实和干预逻辑帮助他们阐明他们想知道的事情,结构方程将两者以扎实的语义联系在一起。

在这里插入图片描述

优缺点比较

在这里插入图片描述

研究时的一些挑战

  • 需要从整体的网格数据中提取出代表相关子过程的时间序列,可以通过平均或者是降维来实现。
  • 重构因果关系时,可能会在很小或者很大的时间尺度上相互作用
  • 变量的分布可能是非高斯的
  • 如何对网络进行度量,常用的有节点的度等
  • 数据本身具有的高维度、协同性、小样本量等特点

研究改进方向

  • 每种方法都有着各自的优势和不足,因此可以把多种方法相结合
  • 预处理时采用滤波步骤,可以剔除变量内部的季节性因素,降低发现不同尺度上因果关系的难度
  • 尽管深度学习和机器学习这类黑箱模型不能直接用于因果推断,但可以用来提取特征
  • 某种程度上,因果推断可以视为一个分类问题
  • 研究如何生成带有因果关系的模拟数据,来检验模型的准确性
  • 通过一些物理模型对因果推理方法施加约束,得到更准确的结果

猜你喜欢

转载自blog.csdn.net/jining11/article/details/108853654