[統計]因果推論

[統計]因果推論

オリジナルポータル

http://www.stat.cmu.edu/~larry/=sml/Causation.pdf

プロセス

まず、因果関係と予測の違い

IMG

IMG

遭遇した多くの実世界の問題は、実際にはむしろ予測よりも問題を引き起こします。

因果関係は、2つのタイプに分ける:一つの因果推論、例えば所定の二つの変数Xについて、Y、それらの間に測定されたパラメータシータの因果関係を見つけることを望んで、他方が因果的発見である、変数、すなわち所与の組を、それらの間の因果関係を見つけます。後者の因果関係の発見のために、それは統計的に不可能であるの内側に指摘しています。

方法生成されたデータの2種類があり、一つは観測データによって得られる意図的に制御することによって一つは、実験的に得られたランダム化されます:。前者のアプローチは、直接的な因果推論を行うことができ、後者はそれに因果推論を行うために、いくつかの事前知識を知るための追加の方法が必要です。

数学的言語は、原因と結果の関係を説明するために 1が1が因果グラフで、反実であり、因果グラフと同様の構造方程式モデルがあります:。

相関関係は因果関係ではありません

予測問題は、のように記述することができます

IMG

それは我々が観察する場合、ことが示されているX = xで、予測Y. 関係は因果推論です

IMG

それは私たちがXに設定されている変数Xを置くことを意味している場合、Yは次のようになります。数学的にそれが表現されています

IMG

(Y)(X)、「あまり病気の」簡単な例「より男性の7時間以上の睡眠」が、XとYとの間の相関の代表は、あなたが7時間以上をスリープ状態に人を強制場合、taは病気にできることを意味するものではありません少ないです。「良い身体の男」簡単に「睡眠の7時間以上、」また、TAながら、「より少ない病気」があるかもしれないので、それ以外は健康を害し、睡眠とTAより強制、TA劣らず、病気にならないことがあります。

ノートInsideは、結論に説明したい:因果関係は無作為化実験から得ることができ、観測からデータを取得することは困難です。

別の例では、相関と因果関係の違いを示しています

これは、プログラムのデータを考慮することによって生成されます。

IMG

相関を推定し[公式]、我々は、Z = Z&Y = Yサンプルと等価であるものの割合のY = Yサンプルを占めてカウントされ

IMG

私たちは因果関係を検討すると、「設定」Y = yは、Zの分布に何をリードする場合、当社は、知りたい、プロセスは、以下の手順を使用してシミュレートすることができます

IMG

この場合、我々は、比Z = zはつまり、全体的なサンプルを占め数えます

IMG

二、反実

治療X、および成果Y.を考えてみましょう 私たちは、データのいくつかのことを観察した[公式]が、データポイントがあれば、我々は確実に知ることができない[公式]あなたはX、Yの値を変更した場合、どのように変化するであろう。このことは、反事実と呼ばれています。グラフ(下部パネル)を得たノートは、データから、X及びYは、正に相関しているが、X、Yを増加させる場合は、各サンプルについて実際に、減少を引き起こすであろう。これは十分に理解されていない時間を確認し始めています。一例を与えます。販売上の航空運賃(X)(Y)の効果は、明らかに、特定の顧客のために、購入する顧客の意欲が低下します運賃(X大)を増加、売上高は(Yより小さい)でも取得に到達します。しかし、実際にはそうである、それは休日には大量(Y古い)をもたらす大旅行に、対応する価格も(大X)が増加し、その結果データを、図の左側を形成する場合です。

IMG

Xの値が0又は1を仮定し、Yはまた、値が0又は1です。変数の導入[公式]います

IMG

これら二つの既知の変数または潜在的な結果の反実、X = 0観測データならば、のみ観察することができるので[公式]、今回は[公式]それが認められていません。例えば、このような観測データ長の組:

IMG

而我们关心的 [公式][公式] 。而由于这些未知的 * 的存在,使得我们没有办法估计到它们。但是,显然有

IMG

定义

IMG

为 mean treatment effect,它可以被看做是一个衡量因果关系的参数;如果它大于零,表示我们设置 X=1 会在期望上增大 Y(这是一个因果推断)。

文章下面给出了一个定理,说明不可能从数据里面估计出 [公式]

IMG

其中 uniformly consistent estimator 的定义是

IMG

其实这很好理解,可以构造两个数据集,它们有不同的 [公式] 分布,使得它们 [公式] 不同,但是形成的数据 [公式] 是一样的。这可以通过任意设置前面例子中的 * 来实现。

那么应该如何估计 [公式] 呢?下面介绍两种方法:一种方法就是使用 randomization,另一种方法叫做 adjusting for confounding。

三、用随机化来估计因果关系

如果我们能够随机设定 X 的值,使得 X 和 [公式] 相互独立,就能有办法估计 [公式] ,即

IMG

IMG

可以这么做最主要的原因就是当 X 和 [公式] 相互独立时, [公式] ,因此, [公式] ,即

IMG

总结来说,在完全随机的情况下(X 和 [公式] 相互独立),correlation=causation。

【注】Randomization 并不意味着 X 的选取要是 uniformly random(比如一半选 0,一半选 1),可以令 X 为任意分布,只要它和 [公式] 相互独立即可。

四、Adjusting for Confounders

有些时候我们没法做实验,只能从可以观察的数据中来估计。比如,研究抽烟(X)和肺癌(Y)之间的因果关系,不可能故意选人去让他抽烟或者不抽烟。那么应该如何找到其中的因果关系呢?

Causal inference in observational studies is not possible without subject matter knowledge

注意到,观察到的数据中不能假设 X 和 [公式] 相互独立。这里考虑一个例子,服用 VC(X)对于健康与否(Y)的关系。一个健康的人不论吃不吃 VC,理应都是健康的,但是健康的人喜欢吃 VC;一个不健康的人无论吃不吃 VC,他都不健康。因此,我们可能观察到如下数据(X=1 表示吃 VC,Y=1 表示健康)。

IMG

因此,实际情况是吃 VC 和健康之间没有因果关系,即 [公式] ;但是从数据中的估计来看,这二者之间有很强的关联,即 [公式]

Use confounding variables

虽然在数据中 X 和 [公式] 不相互独立,但是如果我们能够找到共同影响 X 和 Y 的因素,并把它通过某种统计方式排除的话,也可以可以做因果推断的。这里的共同因素就是 confounding variables Z,即希望找到一个 [公式] ,使得 there is no unmeasured confoundings or ignorability holds

IMG

下面的定理就是说,如果 能够观察到这样的 confounding variable,那么也能够做因果推断。

IMG

IMG

证明过程也比较好理解,因为在 Z 给定之后 X 和 [公式] 是相互独立的(箭头标注的那一步)。

IMG

这个方法叫做 adjusting for confounders,同时也把这上面的 [公式] 叫做 adjusted treatment effect。

Intuitive 地来说,拿航空公司票价(X)和销量(Y)的例子来说,它们可能受到节假日(Z)的影响,节假日的时候(Z=1)票价高,销量也大。要搞清楚其中的因果关系,就需要分别在是节假日(Z=1)和非节假日的时候(Z=0)统计 X、Y 的关系。

The usual bias-variance tradeoff does not apply

Notes 里面提到,在估计 [公式] 的时候要特别小心,在因果推断里面 bias 的危害会更大,因此拟合的时候会尽量更『平滑』。这一块有特别的一些方法来解决该问题,叫 semiparametric inference 以及后面会讲的 matching。

对于前面这个离散的例子来说,可以对 [公式] 做线性拟合,即 [公式] 。我们可以看到,这种情况下,线性回归中 x 前面的系数就代表了 x 的 causal effect。

IMG

对于连续的情形类似地,有

IMG

总结:如果 1)线性模型正确;2)所有的 confounding variables 都包含到回归方程中了,那么 x 前面的系数就表示 x 的 causal effect。

五、Causal Graphs

Causal graph 是一个有向无环图(DAG),表明了各个变量之间的联合概率分布

IMG

下面举例说明,在给定一个 causal graph 之后,如何做因果推断。考虑下面一个 causal graph,目标是求 [公式]

IMG

首先,可以看出该 causal graph 提供的信息为 [公式]

接下来,由于考虑的是设定 X 的数值的影响,因此构建一个新图 [公式] ,移除掉所有指向 X 的边,得到新的联合概率分布 [公式]

最后,该概率分布下的数值就是因果推断的结果

IMG

[公式] 情形下,

IMG

和 adjusting for confounder 方法的等价性

比如还是在 [公式] 情形下,从上述方法出发计算 [公式]

IMG

其结果和 adjusting for confounder 方法一致。

和 randomized experiment 方法的等价性

当 X 的选取是随机时,就没有从 Z 到 X 的箭头了,因此直接在概率图上计算可以得到 [公式] ,和这里得到的一致。

Causal graph 和 probability graph 的区别

举例说明,比如下雨(Rain,R)和湿草坪(Wet Lawn,W)是不相互独立的, 即 [公式]

对于下两种 DAG,它们都是合理的 probability graph,即对于任意的联合概率分布 [公式] ,都可以写成 [公式] 或者 [公式] 。但显然下雨是因、草坪湿是果,只有左边的图才是正确的 causal graph。

IMG

分析 [公式] ,按照应该关系,把草坪弄湿不会影响是否下雨。对左边的图推断 [公式] ,先把指向 W 的边去掉,形成如下图

IMG

因此得到 [公式] ,由此得出结论 [公式] ,即草坪弄湿不引起下雨。

六、Causal Discovery 是不可能的

下面想说明的是在不做 randomized experiment 并且也观察不到所有 confounders 时,研究两个变量之间是否有因果关系是不可能的。

簡単なシナリオを考えてみましょう、それは「Xは、(Yとの因果関係があるかどうか、X)Yを引き起こすかどうか」研究することである。同時に、間違いなく、たとえば(事情「XがYの原因となる」除外することができ、時系列関係がバックで発生しますそれは)前での発生を引き起こすことができません。変数Uを混乱させる可能性を考慮すると、それらの間の関係は、以下の8種類を有することができます。

IMG

我々は唯一のY、データXを観察し、それを行うことができます場合は推定値です[公式]場合[公式]命令はXとの間に有し、Yが関連付けられ、それはケース4-8、いくつかのケースであり、X> Yであってもよいし、一部ではないので、有効な任意の結論を引き出すことができない、場合に[公式]、本質的にロックが1-ケース3は、我々はこれらの3例を見つけ、XはYを引き起こすことはありませんので、我々はXとYの間には因果関係が存在しないという結論に来ることができます これは間違っています!

8例が発生する可能性があります[公式]このようなインパクトのX-> Yとして行うには心の中でこのような状況不貞と呼ばれる影響U-> Y、によって相殺することができます[公式]粗い例えば、そのような関係は決定的ケース8であり、Y | Uは-U、Y = | Xは、U = X + Uは、 それ以来、このモデルに従って生成されたすべてのYがゼロに等しい、見かけの推定しますアウト[公式]

したがって、また、限られた忠実である必要があり、結論描かXとYとの間に因果関係が存在しないと結論します。

IMG

ノートにも背中を話し、十分な回数が十分に大きいタイプIエラーを生成するようなサンプル中の忠実な分布が常にあります。

おすすめ

転載: www.cnblogs.com/TMesh-python/p/11730580.html