[統計]因果推論
オリジナルポータル
http://www.stat.cmu.edu/~larry/=sml/Causation.pdf
プロセス
まず、因果関係と予測の違い
遭遇した多くの実世界の問題は、実際にはむしろ予測よりも問題を引き起こします。
因果関係は、2つのタイプに分ける:一つの因果推論、例えば所定の二つの変数Xについて、Y、それらの間に測定されたパラメータシータの因果関係を見つけることを望んで、他方が因果的発見である、変数、すなわち所与の組を、それらの間の因果関係を見つけます。後者の因果関係の発見のために、それは統計的に不可能であるの内側に指摘しています。
方法生成されたデータの2種類があり、一つは観測データによって得られる意図的に制御することによって一つは、実験的に得られたランダム化されます:。前者のアプローチは、直接的な因果推論を行うことができ、後者はそれに因果推論を行うために、いくつかの事前知識を知るための追加の方法が必要です。
数学的言語は、原因と結果の関係を説明するために 1が1が因果グラフで、反実であり、因果グラフと同様の構造方程式モデルがあります:。
相関関係は因果関係ではありません
予測問題は、のように記述することができます
それは我々が観察する場合、ことが示されているX = xで、予測Y. 関係は因果推論です
それは私たちがXに設定されている変数Xを置くことを意味している場合、Yは次のようになります。数学的にそれが表現されています
(Y)(X)、「あまり病気の」簡単な例「より男性の7時間以上の睡眠」が、XとYとの間の相関の代表は、あなたが7時間以上をスリープ状態に人を強制場合、taは病気にできることを意味するものではありません少ないです。「良い身体の男」簡単に「睡眠の7時間以上、」また、TAながら、「より少ない病気」があるかもしれないので、それ以外は健康を害し、睡眠とTAより強制、TA劣らず、病気にならないことがあります。
ノートInsideは、結論に説明したい:因果関係は無作為化実験から得ることができ、観測からデータを取得することは困難です。
別の例では、相関と因果関係の違いを示しています
これは、プログラムのデータを考慮することによって生成されます。
相関を推定し、我々は、Z = Z&Y = Yサンプルと等価であるものの割合のY = Yサンプルを占めてカウントされ
私たちは因果関係を検討すると、「設定」Y = yは、Zの分布に何をリードする場合、当社は、知りたい、プロセスは、以下の手順を使用してシミュレートすることができます
この場合、我々は、比Z = zはつまり、全体的なサンプルを占め数えます
二、反実
治療X、および成果Y.を考えてみましょう 私たちは、データのいくつかのことを観察したが、データポイントがあれば、我々は確実に知ることができないあなたはX、Yの値を変更した場合、どのように変化するであろう。このことは、反事実と呼ばれています。グラフ(下部パネル)を得たノートは、データから、X及びYは、正に相関しているが、X、Yを増加させる場合は、各サンプルについて実際に、減少を引き起こすであろう。これは十分に理解されていない時間を確認し始めています。一例を与えます。販売上の航空運賃(X)(Y)の効果は、明らかに、特定の顧客のために、購入する顧客の意欲が低下します運賃(X大)を増加、売上高は(Yより小さい)でも取得に到達します。しかし、実際にはそうである、それは休日には大量(Y古い)をもたらす大旅行に、対応する価格も(大X)が増加し、その結果データを、図の左側を形成する場合です。
Xの値が0又は1を仮定し、Yはまた、値が0又は1です。変数の導入います
これら二つの既知の変数または潜在的な結果の反実、X = 0観測データならば、のみ観察することができるので、今回はそれが認められていません。例えば、このような観測データ長の組:
而我们关心的 , 。而由于这些未知的 * 的存在,使得我们没有办法估计到它们。但是,显然有
定义
为 mean treatment effect,它可以被看做是一个衡量因果关系的参数;如果它大于零,表示我们设置 X=1 会在期望上增大 Y(这是一个因果推断)。
文章下面给出了一个定理,说明不可能从数据里面估计出 。
其中 uniformly consistent estimator 的定义是
其实这很好理解,可以构造两个数据集,它们有不同的 分布,使得它们 不同,但是形成的数据 是一样的。这可以通过任意设置前面例子中的 * 来实现。
那么应该如何估计 呢?下面介绍两种方法:一种方法就是使用 randomization,另一种方法叫做 adjusting for confounding。
三、用随机化来估计因果关系
如果我们能够随机设定 X 的值,使得 X 和 相互独立,就能有办法估计 ,即
可以这么做最主要的原因就是当 X 和 相互独立时, ,因此, ,即
总结来说,在完全随机的情况下(X 和 相互独立),correlation=causation。
【注】Randomization 并不意味着 X 的选取要是 uniformly random(比如一半选 0,一半选 1),可以令 X 为任意分布,只要它和 相互独立即可。
四、Adjusting for Confounders
有些时候我们没法做实验,只能从可以观察的数据中来估计。比如,研究抽烟(X)和肺癌(Y)之间的因果关系,不可能故意选人去让他抽烟或者不抽烟。那么应该如何找到其中的因果关系呢?
Causal inference in observational studies is not possible without subject matter knowledge
注意到,观察到的数据中不能假设 X 和 相互独立。这里考虑一个例子,服用 VC(X)对于健康与否(Y)的关系。一个健康的人不论吃不吃 VC,理应都是健康的,但是健康的人喜欢吃 VC;一个不健康的人无论吃不吃 VC,他都不健康。因此,我们可能观察到如下数据(X=1 表示吃 VC,Y=1 表示健康)。
因此,实际情况是吃 VC 和健康之间没有因果关系,即 ;但是从数据中的估计来看,这二者之间有很强的关联,即 。
Use confounding variables
虽然在数据中 X 和 不相互独立,但是如果我们能够找到共同影响 X 和 Y 的因素,并把它通过某种统计方式排除的话,也可以可以做因果推断的。这里的共同因素就是 confounding variables Z,即希望找到一个 ,使得 there is no unmeasured confoundings or ignorability holds。
下面的定理就是说,如果 能够观察到这样的 confounding variable,那么也能够做因果推断。
证明过程也比较好理解,因为在 Z 给定之后 X 和 是相互独立的(箭头标注的那一步)。
这个方法叫做 adjusting for confounders,同时也把这上面的 叫做 adjusted treatment effect。
Intuitive 地来说,拿航空公司票价(X)和销量(Y)的例子来说,它们可能受到节假日(Z)的影响,节假日的时候(Z=1)票价高,销量也大。要搞清楚其中的因果关系,就需要分别在是节假日(Z=1)和非节假日的时候(Z=0)统计 X、Y 的关系。
The usual bias-variance tradeoff does not apply
Notes 里面提到,在估计 的时候要特别小心,在因果推断里面 bias 的危害会更大,因此拟合的时候会尽量更『平滑』。这一块有特别的一些方法来解决该问题,叫 semiparametric inference 以及后面会讲的 matching。
对于前面这个离散的例子来说,可以对 做线性拟合,即 。我们可以看到,这种情况下,线性回归中 x 前面的系数就代表了 x 的 causal effect。
对于连续的情形类似地,有
总结:如果 1)线性模型正确;2)所有的 confounding variables 都包含到回归方程中了,那么 x 前面的系数就表示 x 的 causal effect。
五、Causal Graphs
Causal graph 是一个有向无环图(DAG),表明了各个变量之间的联合概率分布
下面举例说明,在给定一个 causal graph 之后,如何做因果推断。考虑下面一个 causal graph,目标是求 。
首先,可以看出该 causal graph 提供的信息为 。
接下来,由于考虑的是设定 X 的数值的影响,因此构建一个新图 ,移除掉所有指向 X 的边,得到新的联合概率分布 。
最后,该概率分布下的数值就是因果推断的结果
在 情形下,
和 adjusting for confounder 方法的等价性
比如还是在 情形下,从上述方法出发计算
其结果和 adjusting for confounder 方法一致。
和 randomized experiment 方法的等价性
当 X 的选取是随机时,就没有从 Z 到 X 的箭头了,因此直接在概率图上计算可以得到 ,和这里得到的一致。
Causal graph 和 probability graph 的区别
举例说明,比如下雨(Rain,R)和湿草坪(Wet Lawn,W)是不相互独立的, 即 。
对于下两种 DAG,它们都是合理的 probability graph,即对于任意的联合概率分布 ,都可以写成 或者 。但显然下雨是因、草坪湿是果,只有左边的图才是正确的 causal graph。
分析 ,按照应该关系,把草坪弄湿不会影响是否下雨。对左边的图推断 ,先把指向 W 的边去掉,形成如下图
因此得到 ,由此得出结论 ,即草坪弄湿不引起下雨。
六、Causal Discovery 是不可能的
下面想说明的是在不做 randomized experiment 并且也观察不到所有 confounders 时,研究两个变量之间是否有因果关系是不可能的。
簡単なシナリオを考えてみましょう、それは「Xは、(Yとの因果関係があるかどうか、X)Yを引き起こすかどうか」研究することである。同時に、間違いなく、たとえば(事情「XがYの原因となる」除外することができ、時系列関係がバックで発生しますそれは)前での発生を引き起こすことができません。変数Uを混乱させる可能性を考慮すると、それらの間の関係は、以下の8種類を有することができます。
我々は唯一のY、データXを観察し、それを行うことができます場合は推定値です。場合命令はXとの間に有し、Yが関連付けられ、それはケース4-8、いくつかのケースであり、X> Yであってもよいし、一部ではないので、有効な任意の結論を引き出すことができない、場合に、本質的にロックが1-ケース3は、我々はこれらの3例を見つけ、XはYを引き起こすことはありませんので、我々はXとYの間には因果関係が存在しないという結論に来ることができます これは間違っています!
8例が発生する可能性があります!このようなインパクトのX-> Yとして行うには心の中でこのような状況不貞と呼ばれる影響U-> Y、によって相殺することができます。粗い例えば、そのような関係は決定的ケース8であり、Y | Uは-U、Y = | Xは、U = X + Uは、 それ以来、このモデルに従って生成されたすべてのYがゼロに等しい、見かけの推定しますアウト。
したがって、また、限られた忠実である必要があり、結論描かXとYとの間に因果関係が存在しないと結論します。
ノートにも背中を話し、十分な回数が十分に大きいタイプIエラーを生成するようなサンプル中の忠実な分布が常にあります。