因果関係の発見: 認知世界への扉を開く

前回の記事因果関係、因果推論、因果関係とは?では、因果関係とは何か、因果推論とは何か、因果関係とは何かについて紹介します。

この記事では、以下の内容を中心に因果関係発見調査の実施方法を紹介します。

  • 因果関係発見の 3 つのレベル
  • 因果関係を発見するための重要なツール
  • 因果関係発見の具体的な方法

(この記事は合計 4137 ワードあり、推定読了時間は 10 分です)

一連のデータから始めましょう: 特定の治療計画が特定の疾患に対して効果的かどうかを研究するために、研究者らは実験のために治療グループと対照グループを配置し、各グループに 40 人ずつ参加させました。治療グループはプロトコールに従って正確に治療を受けますが、対照グループにはプラセボのみが投与されます。一定期間実験を行った後、図に示すように、2 つのグループの患者の生存率が得られました。

  • 全人口: 50% (治療グループの生存率) >40% (対照グループの生存率)
  • 男性: 60% (治療群の生存率) <70% (対照群の生存率)
  • 女性: 20% (治療グループの生存率) <30% (対照グループの生存率)

上記のデータは混乱を招く結論を与えています。集団全体の観点から見ると、治療グループの生存率が対照グループの生存率よりも高いことがわかりました。しかし、性別で見ると、男性でも女性でも、治療群の生存率は対照群よりも低いというこれまでの結論が完全に覆されます。

あなたも少し混乱していますか?心配しないでください。これは、統計学者を 60 年以上悩ませてきた有名なシンプソンのパラドックスです。このパラドックスは、特定の条件付き確率を学習することによってのみ、因果関係の問題に答えることができるために発生します。

1. 認知的原因と結果の 3 つのレベル

チューリング賞受賞者のジューデア・パールは、認知的因果関係には 3 つのレベルが含まれると提案しました [1]観察によって物事間の関連性を見つけるのは最初のレベルにすぎず、それに加えて、「治療すれば生存率が改善するかどうか」という質問に答えるためには、プロセスへの意図的な介入が必要です。認知的因果関係の 3 番目のレベルは反事実推論であり、「もし存在しないなら…では…」のような質問に答えます。

従来の機械学習が最も得意とするのは、データに示された相関学習関数 f(Y|X1,...,Xm) に従って条件付き確率 P(Y|X1,...,Xm) を適合させることです。この機械学習モデルは、認知因果関係の第 1 レベル、つまり関連性のみを学習します

介入とは、因果関係に影響を与える可能性のあるすべての要因を制御することです。厳密な制御実験を使用せず、介入にデータのみを使用する場合、Xi が意図的に介入されたときの他の変数の確率分布の変化を直感的に記述するために、 do 演算子によって定義された介入分布を導入する必要があります [2  ]たとえば、P(Y|do(X)=a) は、X が値 a をとるときの Y に対応する分布を表します。次のように書かれています。

P(X1,…,Xi−1,Xi+1…,Xn|do(Xi)=a)=P(X1,…,Xn)P(Xi|pai)I(Xi=a)

このうち、pai は Xi のすべての原因を表し、I(Xi=a) は恒等関数、つまり Xi の値が a の場合は 1、Xi の値が a でない場合はその値は0です。方程式の右側の約数 P(Xi|pai) は、Xi に介入する際に、Xi に対する pai の影響を除去する必要があることを示します。

以下の状況が得られる場合:

P(Xj|do(Xi=x,X∖ij=c))≠P(Xj|do(Xi=x′,X∖ij=c))

つまり、システム内の Xi と Xj 以外の他の変数を一定に保つ条件下では、Xi の値の変化が Xj の分布変化を引き起こし、Xi が Xj の直接の原因であると言えます

介入と条件付き分布の違いを直観的に理解するために、シンプソンのパラドックスを例として使用してみましょう。

シンプソンのパラドックス事件

生存に対する治療の効果は、次のように計算される条件付き確率によって測定されます。

同様に、P(S=生存|T=対照)=40%。

do 演算子は、生存に対する治療の効果を測定するために使用され、次のように計算されます。

同様に、P(S=生存|do(T)=対照)=60%。

2 つの計算セットの比較:条件付き確率におけるGender生存への影響はTreatment(参照) P(G|T)) によって異なりますが、介入分布への影響Gender(Treatment因子として) P(T|G)) は厳密に制御されています、生存への影響は次の理由でTreatment変わりません。

この介入による推論は、治療を行った場合、人々の生存率は 40 パーセントであったのに対し、対照群では 60 パーセントであったことがわかります。しかし、これらはすべて全体的な影響や平均的な因果関係を研究しているものであり、特定の出来事や個人レベルでの個別の因果関係について語る場合には、反事実的推論が必要となります。たとえば、一定期間の治療の後、特定の患者の生存率が向上しますが、これは本当に特定の薬の服用によるものなのでしょうか? それとも良い知らせのせいでしょうか?反事実レベルでは、起こったことのないことを観察することはできないため、想像上の世界での現象の原因を推測することしかできません。

2. 因果関係発見のためのツール

因果発見は、複雑なデータの山から、さまざまな変数間の因果関係のネットワーク構造を掘り出すことを目的としています。因果関係の発見を実行するには、システムの因果メカニズムを記述するための 2 つのツール、因果グラフと構造因果モデルを認識する必要があります。

2.1 因果関係図

因果関係グラフはベイジアン ネットワークに基づいて定義されており、いずれも有向非巡回グラフ (DAG) の形式を使用し、マルコフと忠実性の仮定に従い、グラフとデータの間の相互作用の鍵を把握し、グラフ変数の接続性と独立性の間のリンク違いは、ベイジアン ネットワークが一連の条件付き確率で記述される有向非巡回グラフであるのに対し、因果関係グラフは do 演算子によって定義された介入を導入し、条件付き確率が相関関係のみを学習できるという制限を打ち破り、それによって認知に到達することです。因果関係の第 2 レベルは、より安定した構造を学習します。以下の図は、5 つの変数間の因果関係を視覚的に示しています。X1 は X2 と X3 の共通の原因であり、X3 と X4 が共同して X5 を生成します。

 

次に、DAG 内のいくつかの重要な構造を特定します。

head-to-tailではtail-to-tail、X と Y は Z に関して条件付きで独立しています、つまり X⊥Y|Z、ここでhead-to-tailZ は中間変数tail-to-tailZ は交絡変数です; head-to-head(v-構造) では、X と Y は無条件に独立しています、またはX と Y は空集合 X⊥Y|∅ に関して条件付きで独立しており、Z は衝突点と呼ばれます。

交絡変数がもたらす偏りを排除するには、交絡変数を厳密に制御する必要があります。しかし、統計学者は、どの変数を制御すべきかについて長い間混乱してきました。中間変数が制御されると、X と Y の間の間接的な因果関係が切断され、X が Y に影響を及ぼさないという誤った結論が導き出され、衝突点が制御されると、X が Y に影響を与えていると誤って信じ込まれます。 Yとの因果関係。バックドア基準とフロントドア基準は、因果グラフ内の交絡変数を特定して排除し、 do 演算子で表される介入分布を条件付き分布に変換し、因果推論に統計的手法を使用するのに役立ちます

バックドア基準:バックドア パスは、X と Y を接続し、X を指す矢印を含むすべてのパスとして定義されます。X と Y の間のすべてのバックドア パスをブロックすると、X の情報が非因果的な方向に転送されることが防止されます。衝突ポイントのあるバックドア パスは、自然にブロックされていると見なされます。

「喫煙」(原因変数)が「がん」(結果変数)に及ぼす影響を調べる場合を例にとると、「喫煙→タール沈着→がん」が原因経路となり、「タール沈着」が中間変数となります。 。「喫煙 <-喫煙遺伝子 -> がん」は、「喫煙」から「がん」へのバックドア パスであり、「喫煙」を指す矢印が含まれており、「喫煙遺伝子」は交絡変数ですさらに、因果関係グラフ全体で「喫煙」から「がん」へのバックドア パスは 1 つだけです。したがって、「喫煙遺伝子」を制御することで、「喫煙」から「がん」へのバックドア経路をすべてブロックします。

喫煙ケースの因果関係図

「がん」に対する「喫煙」の因果関係を研究するには、「喫煙」に do 演算子を使用します。

フロントドア基準:フロントドアパスとは、X から Y への直接の因果パス、つまり、前述の「喫煙 -> タール沈着 -> がん」のパスを指します。必要なデータがないために特定のバックドア パスをブロックできない場合、フロントドア基準によって、X の Y に対する因果効果を、X の Z に対する因果効果と Z の Y に対する因果効果に分解する必要があります。

喫煙の場合、喫煙遺伝子は測定できませんが、「喫煙」、「タール沈着」、「がん」の 3 つの変数に関するデータは得られるとします。このとき、「がん」に対する「喫煙」の平均因果関係を、がん喫煙P(がん|do(喫煙))、タール沈着喫煙P(タール沈着|do(喫煙))、がんタール沈着P(がん |do(タール沈着)) の重み付け。タール堆積喫煙 P(タール堆積|do(smoking)) を計算する場合、「喫煙 ← 喫煙遺伝子 -> 癌 ← タール堆積」というパス内の「癌」での衝突は当然このバックドア パスをブロックします。癌タール沈着 P(癌|do(タール沈着)) を計算する場合、「タール沈着 <- 喫煙 <- 喫煙遺伝子 -> 癌」というバックドア パスが存在しますが、これは「喫煙」を制御することで阻止できます。

フロントドア基準を使用すると、最終的に次の結果が得られます。

 

2.2 構造的因果モデル

構造因果モデルは関数因果モデルとも呼ばれ、一連の関数方程式を通じてグラフによって記述される因果関係を定義し、因果関係の発見を関数推定問題に変換することを目的としています [3  ]

構造因果モデルには、因果変数 Xj に加えて、対応する Xj にのみ影響を及ぼし、互いに独立した一群の確率変数 Ej もあり、構造因果モデルの影響によって引き起こされる不確実性を記述するために使用されます。 Xj上の環境。

因果関係図と比較して、構造因果モデルにはより多くの情報が含まれており、観察分布だけでなく、介入分布と反事実分布も含まれており、因果関係図の介入に基づいて反事実推論をさらにサポートできます。

構造的因果モデルは観察分布だけでなく介入分布や反事実も暗示します

構造的因果モデルを見つけることは、データによって暗示される唯一の同時分布を見つけることを意味します。マルコフ仮定によれば、因果グラフ、つまり P(X1,...,Xd)=∏j=1dP に従って分解できます。 (Xj|Paj )。head-to-tailしかし、 と構造がある場合tail-to-tail、結合分布が一貫していることが観察されます。例: X と Y は Z に関して互いに独立しており、次の (X,Y) の同時確率分布を取得できます。

したがって、実際には、構造因果モデルを使用すると、同じスケルトン (無向グラフ) と v 構造を持つ部分有向非巡回グラフ (CPDAG) のクラス、つまりマルコフ同値クラスのみを決定できます。

以下の図では、(a) は実際の因果グラフ、(b) はそのスケルトン、(d) と (e) はすべて (a) のマルコフ等価グラフ、(c) はグラフ (a) のマルコフ CPDAG [4] を示しています。 ] Koff の等価クラス 

因果グラフのマルコフ同値クラスと CPDAG

マルコフ等価クラスは、構造的因果モデルを通じて発見できる場合に識別可能であると言われます。これには、Nj と fj に関する対応する仮定が必要です。すべての Nj が相互に独立したガウス分布に従うと仮定すると、fj の形式的および構造的因果モデルの識別可能性に関して次の結果が得られます。

 

3. 因果関係の発見の具体的方法

観察に基づく因果関係の発見には、生成されたデータの因果構造の推定が含まれます。因果グラフのマルコフ同値クラスを決定する方法には、主に制約ベースの方法スコアベースの方法の2 つのカテゴリが含まれます。

 

制約ベースの方法は主に、一連の仮説検定を通じて集合 A が与えられた後、2 つのノードが条件付きで独立しているかどうかを判断します。このタイプの方法における PC アルゴリズムを例にとると [5]、すべての可能なサブセット A の検索を回避するために、因果関係グラフを構築する過程で、完全に接続されたグラフから開始して、条件式のサイズを徐々に大きくすることで、設定すると、2 つの変数が条件付きで独立しているかどうかが判断されます。2 つの変数間の条件付き独立性を実現するセットが見つかると、2 つの変数間のエッジを削除できます。エッジを除去できなかった場合、因果グラフのスケルトンが得られます。2 つの変数 (X,Y) が条件付きで独立している場合、つまり、それらの間に直接接続されたエッジはないが、パス X-Z-Y があり、Z が (X,Y) を条件付きで独立させることができない場合、衝突が発生します。構造 (v-struct) X→Z←Y。グラフ内のすべての v 構造を見つけた後、CPDAG が決定されました。

スコアベースの方法は主に、モデル タイプに対応する仮定制約を作成することによって、構造的因果モデルの構造に直接適合します。フィッティングの効果は通常、スコアリング関数によって定義されます。

G^:=argmaxG DAG over X S(D,G)

最適なグラフ構造を取得します。スコアリング関数には通常 2 つの部分が含まれており、1 つはデータへの適合度を最大化することであり、もう 1 つはグラフ構造の複雑さを軽減することです。最適なグラフ構造を探索する際には、貪欲探索法などの局所探索法を使用することもできるし、動的計画法や混合整数計画法などの精密探索法を使用することもできる。

独立性ベースとスコアベースのハイブリッド手法を効果的に組み合わせることで、計算コストが節約され、より正確で効果的なモデル推定が得られます。

独立性とスコアベースの方法に基づいて、CPDAG のみを決定できます。完全な因果関係図を描画するには、主にデータに反映された因果メカニズムの非対称性を使用して因果関係の方向を決定することにより、ペアごとの比較方法を使用して局所情報を探索できます。 。

具体的には、X と Y の間に直接の因果関係がある場合、確率公理に従って因果関係の方向を区別することはできません。つまり、p(x,y)=p(x|y)p(y)=p(y |x)p(x)。次の構造的因果モデルを考えてみましょう。

≔X≔EX≔Y≔f(X)+EY

その中でEX⊥EY。EXとEYは独立しているので、Xと[Y|X]は独立していることがわかりますが、非因果方向ではYと[X|Y]は必ずしも独立しているわけではありません。下図に示すように、因果方向の独立性とは異なり、f(X)−Y が EY から独立しており、X をフィッティングするために線形方程式 g(Y) が使用されているため、両者の間には明らかな相関関係があります。得られた残差と Y 。

 

データの非対称性を利用して因果関係の方向を判断できる

エピローグ

因果推論は、解釈、分析、モデリングのための非常に強力なツールであり、機械学習と組み合わせることで、より安定した解釈可能な特徴情報を抽出し、モデルの一般化能力を高めることができます。

たとえば、因果表現学習では、複雑なシステムの因果関係を分解することにより、システムが変化したときに、変化モジュールの位置を特定し、変化の原因を説明し、局所的介入を実行し、反事実推論さえも可能になります [6  ]次の図は一例で、システム内の機械的な指の動きが変化し、赤い四角形が落下します。右側に示すピクセル空間では、落下する赤い四角形が背景の他のオブジェクトもブロックするため、機械の指によって引き起こされる変更情報がシステム内の他の無関係なオブジェクトと絡み合って分解できなくなります。左の図ではシステム全体の物理的な仕組みを因果関係図で表現しているので、機械の指に相当するノードと赤四角のノードとそのサブノードのみが変化しています。したがって、情報の切り離しは因果表現空間で実現されます。この種の情報の切り離しは、物体の内部の物理的メカニズムと論理的関係を調査するのに役立ち、ビデオ追跡と監視、自動運転、飛行制御などの自動化システムの正確なインテリジェントな認識、インテリジェントな識別、および制御予測にとって重要です。

 

さらに、因果推論は、半教師あり学習、ドメイン適応、転移学習または安定化学習、状況強化学習などの複数の分野で大きな研究的意義と応用価値を持っています。

参考:

システムリファレンス: Guanhe 因果関係分析システム: https://yinguo.grandhoo.com/home

  1. ^ J. パールと D. マッケンジー (2018). その理由を記した本。基本的な本。
  2. ^ J.パールら。(2016年)。統計における因果推論: 入門書。ワイリー。
  3. ^ J.ピーターズら。(2017年)。因果推論の要素: 基礎と学習アルゴリズム。MITプレス。
  4. ^ O. Goudet、他。(2018年)。生成ニューラル ネットワークを使用した機能的因果モデルの学習。コンピュータビジョンと機械学習における説明可能および解釈可能なモデル、39-88。
  5. ^ M. Kalisch および P. Bühlmann (2007)、PC アルゴリズムを使用した高次元有向非巡回グラフの推定。機械学習研究ジャーナル。
  6. ^ B. シェルコップ、他。(2021年)。因果表現の学習に向けて。https://arxiv.org/abs/2102.11107。

おすすめ

転載: blog.csdn.net/DuJinn/article/details/126640144