论文笔记：Causal Inference on EventSequences

论文综述

解决的问题：两个不同的序列xn与yn，是否能断定他们相互关联，或者说存在因果关系。
依托的主要知识：概率论

名词解释：

格兰杰因果关系 Granger causality
- 统计学上的因果关系：从统计的角度，因果关系是通过概率或者分布函数的角度体现出来的：在宇宙中所有其它事件的发生情况固定不变的条件下，如果一个事件A的发生与不发生对于另一个事件B的发生的概率（如果通过事件定义了随机变量那么也可以说分布函数）有影响，并且这两个事件在时间上有先后顺序（A前B后），那么我们便可以说A是B的原因。
熵与最优编码
- 最优编码长度就是熵
- lower entropy corresponds to better compression
Transfer Entropy:
+它是一种基于概率分布，香农熵，统计的方法得出时间序列间因果性的方法
regret
最大似然函数
SNML

论文方法描述

两个假定：
1. 原因发生在结果前
2. 原因拥有影响未来值的信息
步骤：
1. 编码长度的比较：
2. 根据编码长度确定因果
3. 设置阈值
4. 如何确定可用的概率（存在问题：模型给错结果一定错）
5. SNML定义式子：
6. 用于二进制数据
7. Conditional Compression(在引入yn,xn两个序列的时候该如何处理这个问题)
  - 简单来说，根据y（用XOR）构造出不同的序列来查看哪个序列的熵最小，找到规律然后按照规律带入相关量
  - 把上述所有序列代入计算
  - 如图所示，对于1的预测，选取的序列1越多，熵越小，对于0的预测，选取的1越少，熵越少。
  - 上述式子要带入哪些值就知道了
实验：生成数据的实验和水文，气温的实验。
总结：这篇论文的核心思想在于提高对于有噪音的数据的序列分析，并且不依赖于lag这个参数，但于此同时，这篇论文的限制也很明显，只能处理离散数据。
疑问：
1. 选取传递熵得到的结果做对比，效果可信吗？上图是三种方法对比，第一行是作者的方法，准确率100%，第二种是作者对比的方法，只有39%的准确率，而第三种才是常用的格兰杰因果关系检验方法，有70%的准确率（目前只是初步处理，还有可能提高）
2. 文章中始终没有说明怎么处理所谓的阈值，而格兰杰因果关系检测是可以判断显著性程度的。
3. 文章中只是在确定有因果关系的数据中分析谁是原因谁是结果，但是如果两者没有因果关系呢？

论文笔记：时间序列分析

论文笔记：Causal Inference on EventSequences

论文综述

名词解释：

论文方法描述

猜你喜欢