【因果推論】傾向スコアの原理(2)

目次

予備知識

治療効果

ランダム化比較試験(RCT)

観察研究

ATT 治療を受けた患者に対する平均治療効果

1. ATT の計算に必要な仮定

 2. ATTの推定

2 つの傾向スコア (傾向スコア)

3 つの傾向モデリング (傾向モデリングプロセス)

傾向モデルを構築する方法

傾向モデルを使用してよりスマートな実験を実行する方法

4 つの傾向スコア法 (傾向スコア法)

1 傾向スコアの予測

機能の選択

重要な機能

2 傾向スコアのマッチング

(1) サンプリング方法: 非置換と置換あり

(2) マッチング方法: 貪欲 vs 最適

(3) 類似性の尺度: 最近隣 vs キャリパー距離

(4) 試合数:1対1 vs 多対1

3 傾向スコアの層別化と間隔

4 傾向スコアを使用した治療重み付けの逆確率

5 傾向スコアを使用した共変量調整

5つのマッチング品質検査とマッチング増分計算

 1. 定量化可能な指標 - 標準化偏差 標準化バイアス 

2. サンプル平均値の仮説検定 - T 検定

3. 共同重要性/擬似 R2

4. マッチング結果の例

5 増分計算

6 その他の状況

a. 大幅な増加なし

b は平行トレンドの仮定を満たさない

他に関連する6件

1 PSMの問題

2 ATTとATEの違い

3 バイアスと分散のトレードオフ

4 感度分析

要約する

1 つの完全なプロセス

2 PSM のメリットとデメリット


傾向スコア マッチング - バイアスを軽減する方法

PSM は、観測データに基づいて因果モデリングを扱う手法です。PSM は選択バイアスの問題 (つまり、交絡因子の制御) を解決します。傾向スコア分布比は、傾向スコア値を使用して、各個人の対照群から同じまたは類似の背景特性を持つ 1 人以上の個人を見つけます。対照としての処理。これにより、他の交絡因子の干渉が最小限に抑えられます。

この記事では主に、傾向スコア マッチング (PSM、Propensity Score Matching) 手法の原理と実装について紹介します。これは、理論的には少し複雑ですが、実装は簡単で、アルゴリズムを専門としない学生に適した分析方法です。AB実験(観測データに基づく)やインクリメンタルモデル構築などの分野でご利用いただけます。

予備知識

観察されたデータには偏りがあることが知られています。つまり、特徴 X の存在は、目標の結果 Y と治療 T の両方に影響を与えます。次に、因果モデルを作成する前に、治療 Y が特徴 X から独立するようにバイアス除去処理を実行する必要があります。このときの観測データは RCT データとほぼ同等であるため、因果モデルを CATE 評価に使用できます。

治療効果

治療効果:介入下の潜在的な結果から介入なしの潜在的な結果を差し引いたもの、つまり

このうち、Yi は潜在的な結果を表し、1 と 0 は介入を受けるかどうかをそれぞれ表します。

たとえば、車を購入したことで得られた幸福度を知りたいとします。理想的には、車を購入したことによる幸福度から、車を購入したことによる幸福度を差し引くことで得られます。

ATE (平均治療効果) は、全体的な治療効果を計算することです。たとえば、私たちの実験には対照群と治療群があります。ATE は、この治療がこのグループにどのような効果をもたらすかを計算します。この指標は、私たちの実験ではほとんど使用されません実際のアルゴリズムプロセスの使用。

ランダム化比較試験(RCT)

RCT では、実験グループと対照グループのサンプルがランダムに分割され、実験グループと対照グループのサンプルの分布が一貫していることが保証されます。現時点では、共変量 X と治療の間に交絡因子はありませんT\perp X  。

 

観察研究

実験計画における観察研究とRCTの違いは、サンプルが実験群であるか対照群であるかが完全にランダムではないこと、つまり、TとYに同時に影響を与えるXが存在することです。

実験群と対照群の間のサンプル分布の違いにより生じますE[Y(1) |  T = 1] \neq E[Y(1)]  (対照試験群も同様)

したがって、観測データから不偏な ATE を取得することはできません。したがって、ATE の推定に役立つ傾向スコア法などの方法を使用する必要があります。

ATT 治療を受けた患者に対する平均治療効果

私たちは通常、集団に介入するために戦略を使用しますが、個人の介入効果と比較して、集団全体の介入効果を理解したいと考えています。

PSM を適用すると、通常、介入したユーザーの平均介入効果、つまり ATT (治療を受けたユーザーに対する平均治療効果)を計算する必要があります。

このうち、変数Dは介入を受けるか否かを表す。

E[Y(0) | D = 1] は、ユーザーが介入しなかった場合に介入されたユーザーの潜在的な結果を表しており、これは観察できない値であることがわかります。

AB テストが確立できれば、コントロール グループを使用して結果を取得できますが、AB テストが実行できない場合 (たとえば、D がアクティブな行動である場合)、PSM を介して仮想コントロール グループを当てはめることができます。計算。

1. ATT の計算に必要な仮定

ここでは、ユーザーが介入している (参加している) 確率である傾向スコア (Propensity Score) という新しい概念が導入されています。

P(X) = P(D=1 | X)

a. 条件付き独立性の仮定 CIA (条件付き独立性の仮定)

一連の観察可能な共変量 X が与えられると、潜在的な結果と介入の割り当ては互いに独立しています。

 介入の割り当てと潜在的な結果に影響を与えるすべての変数は、同時に観察されると考えることができます。この時点で X は高次元である可能性があります

上の式が成り立つ場合、介入の割り当てと潜在的な結果も X に基づいて条件付きで独立しています [証明可能]。

 b.共通サポート

一部の文献では、この状態は強い無視可能性とも呼ばれます。

独立性以外のもう 1 つの条件は、重複する部分があることです。

 この条件は除外できます。つまり、X が与えられたときに D を正確に決定できる場合です (このため、照合の余地があります)。

 2. ATTの推定

CIA と共通のサポートを満たす場合、ATT は次のように推定できます。

 つまり、共通のサポート上で、傾向が重みに分割され、実験グループと対照グループの平均値の差が合計されます。

2 つの傾向スコア (傾向スコア)

傾向スコアは主に、サンプルの共変量を考慮して治療を受ける確率を推定するために使用されます。

たった今P(T_{i}=1|X_{i})  

RCT 実験では、傾向スコアは既知の実験設定のパラメーターですが、観察研究では実際の傾向スコアがわからないため、データを通じて推定する必要があります。一般に、ロジスティック回帰は、サンプルが変数に従って処理される確率を推定するために使用されます。実際、傾向スコアの推定には、任意の二項分類モデルを使用できます。

傾向スコアの前提の 1 つは、「測定されていない交絡因子がない」ということです。平たく言えば、治療に影響を与えるすべての変数は観察可能で測定可能です。つまり、傾向スコアを実際にモデル化するときは、治療に影響を与えるすべての変数を考慮する必要があります。

傾向スコアモデリング中の特徴選択に関しては、現在、学術コミュニティで合意がありません。

ただし、傾向スコアの変数には通常、次の 4 つの側面が含まれます。

  1. すべての測定されたベースラインの共変量 すべての測定されたベースラインの共変量
  2. 治療割り当てに関連するすべてのベースライン共変量
  3. 結果に影響を与えるすべての共変量 (潜在的な交絡因子)
  4. 治療の割り当てと結果の両方に影響を与えるすべての共変量 (真の交絡因子)

傾向スコアは基本的に、サンプルが治療を受ける確率を指すため、治療の割り当てに影響を与える変数を含めるだけでよい理論的な証明もあります。

3 つの傾向モデリング (傾向モデリングプロセス)

傾向モデリングは、訪問者、リード、顧客が特定のアクションを実行する可能性を予測しようとします。これは、記述された動作に影響を与えるすべての独立変数と交絡変数を考慮する統計的手法です。

したがって、たとえば傾向モデリングは、マーケティング チームが見込み客が顧客に変わる可能性を予測するのに役立ちます。そうしないと顧客が離れてしまいます。電子メールの受信者も購読を解除します。

したがって、傾向スコアは、訪問者、見込み客、または顧客が特定のアクションを実行する確率です。

傾向モデリング技術を使用して、大豆飲料を飲むことの影響を分析します。この概念を明確に説明するために、思考実験を始めてみましょう。

ブラッド ピットには双子の兄弟がいて、両方の兄弟が似ているとします。ブラッド 1 とブラッド 2 は一緒に起き、同じ食べ物を食べ、同じ量の身体活動をするなどです。ある日、ブラッド 1 はたまたま通りのプロモーターから残り 10 杯のソイレント ドリンクを手に入れることができましたが、ブラッド 2 にはそのような幸運はありませんでした。つまり、ソイレントは Brad1 のレシピにのみ登場します。この場合、その後の双子間の行動の違いは飲酒によるものであると主張することができます。

このシナリオを現実世界に当てはめて、次の方法を使用してソイレントの健康への影響を推定しました。

  • ソイレントを飲む人は皆、ソイレントを飲まないあらゆる面で彼に近い人を見つけてください。たとえば、ソイレントを飲むジェイ・Zとソイレントを飲まないカニエ、あるいはソイレントを飲むキーラとソイレントを飲まないナイトレイというグループを作ります。

  • 次に、soylent の影響を定量化するために、2 つの違いを観察します。

しかし、よく似た双子を2人見つけるのは実際には困難で、もしジェイ・Zがカニエよりも平均1時間長い睡眠をとっているとしたら、どうしてこの二人は本当に近くになれるのでしょうか?

傾向モデリングは、この双子のマッチング プロセスを簡略化したものです。すべての変数で 2 人の個人を照合するのではなく、すべてのユーザーを単純な数値、つまりソイレントを飲む可能性 (「傾向」) で照合します。

 直観的には、因果関係図から、P(X) で条件付けされた場合、X と T は互いに独立していることがわかります。したがって、傾向スコアは、特徴空間に対してある種の次元削減操作を実行するものと考えることができます。X のすべての機能を 1 つの治療傾向に圧縮します。

傾向モデルを構築する方法

  1. まず、特徴としていくつかの変数を選択します(例: 食べた食べ物の種類、睡眠時間、居住地など)

  2. これらの変数に基づいて、人々がソイレントを飲むかどうかを予測するための確率モデル(つまり、ロジスティック回帰) が構築されました。たとえば、トレーニング セットが人々のグループで構成されており、そのうちの何人かが 2014 年 3 月の第 1 週に Soylent を注文した場合、どの人々が Soylent を飲むかをモデル化するために分類器をトレーニングします。

  3. このモデルは、ユーザーがソイレントを飲み始める確率の推定値を「傾向スコア」として参照します。

  4. 一定数の「バケツ」を形成し、たとえば合計 10 レベル(最初のバケツは飲み物を飲む傾向を表す 0.0 ~ 0.1、2 番目のバケツは 0.1 ~ 0.2 など)を作成し、すべての実験値を入れます。データを「バケット」に対応させます。

  5. 最後に、飲み物を飲んだ場合と飲まなかった場合の各バケットのサンプル データ (その後のフィットネス、体重、その他の健康指標の測定など) を比較して、ソイレントの因果関係を推定します。

適切なモデルを選択したら (この記事では回帰に焦点を当てます)、モデルの構築は 3 つのステップで構成されます。

a. 傾向モデルの特性を選択します

まず、傾向モデルの特徴を選択する必要があります。たとえば、次のように考えることができます。

  • 製品のマイルストーン。
  • アプリとテーマのダウンロード;
  • 人口統計情報。
  • 機器の使用;
  • 購入履歴;
  • プラン選択。

あなたの想像力だけが限界です。

予測のみに興味がある場合は、特徴の選択が簡単になります。知っている機能をすべて追加するだけです。特徴の相関性が低いほど、係数は 0 に近づきます。その予測を考慮に入れたい場合は、さらに困難になります。

モデルをトレーニングするときに、履歴データの 50% でトレーニングし、残りの 50% でテストするとします。言い換えれば、テストセット内のモデルから予測したい変数を隠し、モデルに値を予測させようとします。このようにして、すでに実際の値があるものを予測する方法を学ぶことができます。

b. 傾向モデルを構築します。

回帰分析では、回帰式の係数は実際の母集団パラメータの推定値です。これらの係数推定値が利用可能な最良の推定値になるようにしたいと考えています。

検討しているサービスの費用などの見積もりを求めているとします。合理的な見積もりをどのように定義しますか?

  • 見積もりは正しい傾向にあるはずです。体系的に高すぎたり低すぎたりしないように設定してください。言い換えれば、それらは平均して偏りがない、または正確である必要があります。
  • 見積もりが完全に正確であることはほとんどないことを認識し、見積もりと実際の値の差を最小限に抑えたいと考えます。大きな違いは悪いことです。
  • 線形回帰では、結果は連続的です。これは、潜在的な値が無限に存在する可能性があることを意味します。体重や時間などの計測に最適です。ロジスティック回帰では、結果の潜在的な値の数は限られています。はい/いいえ、1 番目/2 番目/3 番目などに最適です。

c 傾向スコアを計算します。

従属変数は治療の有無であり、独立変数はユーザー特性変数です。LR またはその他のより複雑なモデル (LR + LightGBM など) を適用して、傾向スコアを推定します。
プロジェクトの実施前後で対照群と実験群の新生児死亡率を比較し、差異の研究を実施します。現時点では、過去の新生児死亡率データのデータ形式が存在しないと仮定します。

ここでは、治療-T (診療所の有無)、結果-Y (乳児死亡率)、2 つの交絡変数、貧困率と一人当たりの医師数がマークされています。

目標: 実験グループの村ごとに新しい対照グループを作成/検索: 実験グループの村ごとに、特性が似ている対照グループを見つけます。

いやY ~ f(T,X)、でもT~f(Y,X)

そして、最終的な結果は、每个村庄有诊所的可能性。

傾向モデルを構築した後、傾向スコアを計算する前に、データセットを使用して傾向モデルをトレーニングします。傾向モデルをトレーニングして傾向スコアを計算する方法は、線形回帰とロジスティック回帰のどちらを選択するかによって異なります。

線形回帰モデルでは、文字通り係数に値を乗算し、連続した数値が得られます。したがって、数式が customer_value = 0.323 (1 か月あたりのセッション数) の場合、0.323 は 1 か月あたりのセッション数の係数であり、その月のセッション数に 0.323 を乗算します。

ロジスティック回帰の場合、予測値から対数オッズが得られ、計算によりそれらを確率に変換できます。この確率を「スコア」と呼びます。

傾向モデルが実際のデータで機能することが重要です。これは、傾向モデリングと実験がどのように連携しているかを示す完璧な例です。実験により傾向スコアの精度を検証できます。

精度にどれほど自信がある場合でも、実験してみることはできます。考慮していない要因があるかもしれません。あるいは、たとえばモデルが、品質への影響(リードから顧客へのコンバージョン率、維持率など)を考慮せずに、量(セッションからリードへのコンバージョン率など)を誤って最適化してしまう可能性があります。

実験を使用して傾向モデルを検証することが重要です。安心感が得られます。

繰り返しになりますが、傾向モデリングはオプティマイザーが使用できるツールであり、実験と最適化を完全に理解するツールではありません。オープンエンド型回帰を利用して、洞察を獲得し、見ているデータがおかしくなる前に意味があることを確認します。

d. 傾向スコアのマッチング

マッチングの概念はシンプルです。つまり、実験グループ内のサンプルごとに、対照グループ内で一致する (つまり、2 つが類似している) サンプルを見つけてサンプル ペアを形成し、最後にすべてのサンプル ペアに基づいてモデル化して、混乱を制御するという目的を達成します。 。ここでのマッチング手法が傾向スコア PS を使用する場合、PSM の概念になります。

傾向スコアを計算した後、対照群の中で実験群と同様の行動(貧困率、人口当たりの医師数)を持つ村を見つける必要があり、このプロセスをマッチングと呼びます。ここでは、最も単純な近接マッチング法を採用して実験グループ内の各村を横断し、新しいコントロール グループ セットの要素 (new_control_index) として最も近い ps 値を持つコントロール グループの村を見つけます。

診療所のない村 (T=0) と診療所のある村 (T = 1) を 1 対 1 で見つける必要があるため、インデックス = 0 の実験村 (ps=0.416571) を例にとります。診療所プロジェクトが開始されます。貧困率と一人当たりの医師数に最も近い対照グループのメンバーは、指標 = 5 村 (ps = 0.395162) です。

ここでの計算方法は非常に簡単です。 ps(index=5) - ps(index = 1) が最小値です。

 これまでのところ、実験グループの各村は対照グループの新しい住処を見つけました~

新生児死亡率に対する診療所設立の影響を評価する実験群と新しい対照群

新しい対照村(診療所なし)の新生児死亡率は、実験群(診療所あり)よりも7%高かった。これは、このNGOが主催する診療所プロジェクトが新生児の減少に大きな効果をもたらしていることを証明している。死亡。

傾向モデルを使用してよりスマートな実験を実行する方法

回帰モデルでは、特徴が予測しようとしている変数と因果関係があると仮定することはできません。

このモデルは簡単に見ることができます。たとえば、試用期間中に X アプリをダウンロードすると、見込み客が顧客に変わるかどうかを示す良い指標であることがわかります。ただし、試用期間中にアプリのダウンロードを増やすと、顧客になる可能性が高まるという証拠はまったくありません。

(非常に貴重な) 最適化知識を傾向スコアで置き換えないでください。傾向モデリングは、他のツールと同様に、最適化方法を教えてくれません。自分自身の経験、知識、直感を使用して洞察を掘り起こします。

たとえば、傾向モデルが原因で顧客が離脱する可能性が高いことがわかっているとします。しかし、離脱を防ぐために費やした価値は、その顧客の生涯価値よりも高いでしょうか? あなたのモデルはこの質問に答えることができず、批判的思考の代わりにはなりません。

すべての考慮事項を軽く見ていきながら、オプティマイザーが活用できる 3 つの貴重な傾向モデルを見てみましょう。

  1. 購入または変換する傾向。訪問者、見込み客、顧客が購入したり、ファネルの次のステップに移行したりする可能性はどのくらいですか? 傾向スコアが低い人は、他の人よりも高いモチベーションが必要です (たとえば、電子商取引ストアの場合は、より高い割引を提供できます)。
  2. 購読を中止する傾向。受信者、見込み客、顧客がメール リストの購読を解除する可能性はどのくらいですか? 傾向スコアが高いユーザーの場合は、電子メールの送信頻度を減らすか、特別オファーを送信して購読者を維持する価値を高めることができます。
  3. 排水が簡単です。あなたの見込み客や見込み客は誰ですか? 傾向スコアが高い場合は、製品内での回収キャンペーンを試すか、アカウント スペシャリストを割り当てて、中核となる価値提案に再度取り組むようにしてください。

傾向モデリングは規範的なものではありません。リードのグループが個別にコンバージョンする傾向が高いことを知っていても、特に価値はありません。重要なのは、この知識を最適化の知識と組み合わせて、よりスマートでターゲットを絞った実験を実行し、移転可能な洞察を抽出することです。

未来は正確な科学ではありません。(おそらく、正確な科学は正確な科学ではありません。) ただし、傾向モデリングを通じて、ある程度の確実性で未来を予測することができます。必要なのは、規律あるプロセスとデータサイエンティストだけです。

段階的なプロセスは次のとおりです。

  1. ドメイン専門家のチームと協力して機能を選択します。係数を解釈するかどうかを慎重に検討してください。
  2. 線形回帰またはロジスティック回帰を選択した後、モデルを構築します。
  3. データセットを使用してモデルをトレーニングし、傾向スコアを計算します。
  4. 実験を使用して傾向スコアの正確さを検証します。
  5. 傾向モデリングと最適化の専門知識を組み合わせて、より価値のある、よりポータブルな洞察を得るために、よりスマートでターゲットを絞った実験を実行します。

4 つの傾向スコア法 (傾向スコア法)

「大学院進学」が収入に与える影響を研究したい。簡単なアプローチは、「読む」グループと「読まない」グループの収入の差を直接比較することですが、このアプローチは科学的ではありません。なぜなら、性別、年齢、親の教育、親が教育活動をしているかどうかなど、研究結果に影響を与える他の変数が研究に影響を与える可能性があるためです。

したがって、PSM はこの干渉を軽減するように設計されています。PSM は、基本的な特徴が基本的に同じである 2 つの似たタイプの人々を見つけることができます。主な違いは、大学院生を「読んだことがあるかどうか」です。これにより、干渉因子の違いによるデータのずれや交絡干渉を低減することができる。

傾向スコア マッチングの実装手順は、その名の通り、傾向スコアの計算と傾向スコアに基づくマッチングの 2 つの主なステップがあります。

現在、傾向スコアの主な 4 つの手法には、マッチング、層別化、IPW、共変量調整が含まれます。さまざまな方法の中で、具体的な実装にはいくつかの違いがあります。

1 傾向スコアの予測

ユーザー介入の確率の予測は、実際には一般的な二項分類問題であり、ここでは一般的な機械学習モデルを使用できます。

機能の選択

機能の選択では、具体的にどのような機能が必要であるかに注意してください従う必要がある基本原則が 2 つあります。

  1. 介入の割り当てと結果の両方に影響を与える変数を含める必要があります(CIA を有効にするため)
  2. 介入によって影響を受ける変数は除外する必要があります(変数は介入前に計算する必要があります)

特徴の大きさに関しては、さまざまな文献にさまざまな記述があります。

 便宜上、通常、実際のアプリケーションではできるだけ多くの特徴を選択し、機械学習では従来のいくつかの特徴スクリーニング手法も使用します。

重要な機能

いくつかの特性が(介入や結果にとって)重要であることがわかっている場合、マッチングに対するこれらの特性の影響をいくつかの方法で強化することがあります。

  1. マッチングする場合、男性のみが男性とマッチングするなど、この機能に関して 2 つのグループは一貫しています。
  2. 部分母集団でのマッチング (男性と女性は別々にマッチングされます)

言い換えれば、重要な特徴に対して完全一致を実行し、傾向スコアの一致を支援します (これは、異なるグループで異なる ATT が予想される場合に特に推奨されます)。

2 傾向スコアのマッチング

傾向スコアを使用しない場合、共変量に基づいて直接照合することができ、2 つのサンプル共変量間のマハラノビス距離を直接計算できます。この方法は通常 CVM (Coviate Matching) と呼ばれます。

傾向スコア モデルと予測が完了すると、各サンプルは傾向スコアを取得し、マッチング ステップを実行できます。つまり、介入サンプルごとに 1 つ (または複数) の仮想コントロール サンプルをマッチングします。

マッチングでは、目に見えない省略された変数の問題 (または内生性の問題) も解決できません。

マッチングは物議を醸す手法です。私は PSM や他の伝統的なマッチングについて意見を持つ多くの教師を知っています。彼らはそれが少し味気ないと考えています。第一の理由は、どのマッチングも一連の重み付けルールに基づいているということです。この一連のマッチングを証明する方法は次のとおりです。重み付けルールは、制御変数を直接追加するよりも難しいですか? 2 番目の理由は、マッチングが適切なコントロール グループの構築に使用されない場合があるためです。ルールが厳格な場合、適切な共通サポートが見つかりません。ルールが緩い場合、コントロール グループはマッチングしない前とあまり変わらなくなります。

マッチングの基本的な考え方は非常に単純です。つまり、最も近い距離を持つサンプルを見つけることです。具体的な実装方法は、次のように段階的に説明されています。

マッチングプロセス

  • 傾向スコア モデルをトレーニングしてすべてのサンプルのスコアを取得する
  • 実験グループの各サンプルを調査し、コントロール グループでスコアが最も近いサンプルを見つけて、ペアを形成します。
  • 実験グループ内のすべてのサンプルを調査するまで 2 番目のステップを繰り返します。

Matching メソッドの全体的な考え方は比較的単純ですが、実際の実装は細部が異なり、マッチングには多くのバリエーションがあります。

(1) サンプリング方法: 非置換と置換あり

つまり、マッチングプロセスにおいて、未処理のサンプルの繰り返しサンプリングを許可するかどうかです。置換ありモードでは、同じ未処理サンプルが複数のペアに出現する可能性があり、つまり、構築したデータには多数の繰り返しサンプルが存在します。このとき、分散推定の問題 (分散が存在するかどうか) を考慮する必要があります。置換モードでは、未処理のサンプルが処理済みのサンプルと一致すると、そのサンプルは使用されなくなります。

 実装に関しては、置換ありと置換なしの 2 つの実装があります。

  • 置換あり(対照群のサンプルを再利用可能):このとき、全体のマッチング品質が向上し、偏りは減少する 介入群と対照群の傾向スコアの分布が大きく異なる場合に使用することを推奨。このとき、対照群で使用されるサンプル数が減少し、分散が増加します。
  • 置換なし: 現時点では、マッチング結果はマッチング順序に関連しており、順序はランダムである必要があります。

元に戻すかどうかに加えて、1 人のユーザーに対して複数のサンプルをマッチング (オーバーサンプリング) できる調整可能な場所がもう 1 つあります。複数の最近傍をマッチングすることで、分散が減少し、マッチングの安定性が向上します。ただし、この時点で、各近傍に重みを割り当てる必要があります (距離による減衰など)。

上の表から、この PSM 分析では最近傍マッチング法と完全一致優先アルゴリズムが使用され、置換サンプリング法が使用されていることがわかります。照合対象項目は合計 233 件(「大学院生在籍」のサンプル数)あり、すべて完全一致成功しており、照合成功率は 100% です。

(2) マッチング方法: 貪欲 vs 最適

貪欲マッチングでは、処理済みサンプルがランダムに選択され、その後、現在の処理済みサンプルのスコアに類似した未処理サンプルが選択されます。停止条件は、未処理サンプルがすべての処理済みサンプルとペアを形成するか、すべての処理済みサンプルを使い果たすことです。未処理サンプルと一致させることができる未処理サンプル、処理済みサンプル。この方法が貪欲と呼ばれる理由は、処理済みサンプルが未処理サンプルと照合されるたびに、現在のスコアが最も近いサンプルが選択されるためです (ただし、この未処理のサンプルは、後続の処理済みサンプルにより適している可能性があります)。そのため、このステップは次のようになります。貪欲な。

最適なマッチングを実現するために、ペアを形成するプロセスでは、傾向スコアのペア内の差の合計を最小限に抑えること、つまり全体的な最適化が行われます。ただし、バランスの取れた一致サンプルを生成するという点では、この 2 つは基本的に同等です。

(3) 類似性の尺度: 最近隣 vs キャリパー距離

上記のマッチングプロセスにおいて、未処理と処理済みの類似性をどのように測定するのでしょうか?

主に次の 2 つの方法があります。

  1. 最近傍マッチング 介入グループのユーザーについては、対照グループ内の傾向スコアの差が最も小さいユーザーをマッチングのために選択します。
  2. キャリパーと半径のマッチング 境界拘束による半径のマッチング

前者は、現在の処理済みサンプルのスコアに最も近い未処理サンプルを選択する方法であり、同じ距離にある未処理サンプルが複数ある場合は、ランダムに 1 つを選択します。ただし、この方法では最大許容距離が制限されないため、選択された未処理のサンプルが良好であるという保証はありません。

前者と比較すると、後者ではキャリパー距離の制限が追加されます。つまり、特定の処理サンプルについて、最初にこのサンプルのキャリパー距離範囲を示し、次にこの範囲内で最も近いスコアを持つ未処理サンプルを見つけます。現在処理されているサンプルは廃棄されます。キャリパー距離法では、サンプルの品質により注意が払われていることがわかります。

最近隣マッチングでは、最近隣マッチングも遠くにある場合、マッチングの品質が低下する危険があります。当然のことながら、サンプル間のスコアの差を制限できる上限、つまりキャリパーを考えます。

  • キャリパー マッチング: マッチング中に傾向スコアの差の許容差が導入され、許容差を超えるサンプルは破棄されます。理論的には、低品質の一致を回避することで偏りは減少しますが、サンプルの数が少ない場合、一致が少なすぎるために分散も増加する可能性があります。
  • 半径マッチング: キャリパー内の最も近いサンプルをマッチングするだけでなく、キャリパー内のすべてのサンプルをマッチングに使用します。このアプローチの利点は、高品質の一致が利用可能な場合にはより多くのサンプルが使用され、高品質の一致が利用できない場合にはより少ないサンプルが使用されることです。

キャリパー幅の設定 (つまり、接続して許容できる最大距離) には統一された基準はありません。1 つの方法は、傾向スコアのロジットの標準偏差に比例するキャリパー距離を選択することです (傾向スコアのロジットが正規分布に従う確率が高いことが理論的に証明されています)。処理済みサンプルと未処理サンプルの傾向スコアが同じ分散を持つと仮定すると、サンプル全体の標準偏差 * 0.2 をキャリパー幅として使用すると、交絡因子によってもたらされる偏りを減らすことができます。

(4) 試合数:1対1 vs 多対1

マッチングの最も基本的な方法は 1 対 1、つまり 1 つの処理サンプルが 1 つの未処理サンプルに対応することです。

さらに、多対 1 の処理があり、つまり、m 個の未処理サンプルが 1 個の処理済みサンプルと一致します。異なる処理済みサンプルの場合、m も可変です。固定された m と比較して、動的な m 値によりバイアスを低減できます。

完全一致とは、1 つの処理サンプルと少なくとも 1 つの未処理サンプル、または 1 つの未処理サンプルと少なくとも 1 つの処理サンプルを指します。

3傾向スコアの層別化と間隔

階層マッチングは、傾向スコアを複数の区間に分割し、各区間内でマッチングする半径マッチングの類似バージョンとみなすことができます。層別化の基礎には、傾向スコアに加えて、同じ特性を持つユーザーを照合するために重要と考えられるいくつかの特性 (性別や地域など) も使用できることに注意してください。

サンプルの傾向スコアに従って層別化します。まずサンプルの傾向スコアを並べ替えてから、サンプルをバケットに分類します。一般的な方法は、頻度を 5 つのバケットに分割することです。もちろん、バケットの数が増加すると、バケット内のサンプルの類似性は増加し、バケット間のサンプルの類似性は減少します。これにより、バイアス削減のさらなる利点がもたらされます。各層別では、処理済みサンプルと未処理サンプルの傾向スコアは類似しており、ATE を近似的に推定できます。

4 傾向スコアを使用した治療重み付けの逆確率

IPTW (略して IPW) は、傾向スコアを使用してサンプルに重み付けを行い、同じ分布を持つ合成サンプルを生成します。この方法は、1987 年にローゼンバウムによって初めて提案されました。

5 傾向スコアを使用した共変量調整

共変量調整方法は、4 つの方法のうち、追加のモデリングが必要な唯一の方法です。基本的に線形回帰を実行します (結果が 2 値の場合は論理回帰が使用されます)。モデルの X は治療状況 + 傾向スコア、Y は結果です。このとき、治療の効果は回帰係数によって決まります。

5つのマッチング品質検査とマッチング増分計算

傾向スコアに基づいてマッチングを行っているため、完了後に他の特徴が実験グループと対照グループ間で同様に分布しているかどうかを確認する必要があります。

1. 定量化可能な指標 - 標準化偏差 標準化バイアス 

標準偏差を通じて、実験グループと対照グループの X の分布の差を測定できます。一般に、偏差が 5% 未満であれば許容できると考えられます (もちろん、小さいほど良いです)。

このうち、V1m はマッチング後の実験群の特性 X の分散を表します。 

マッチングの前後の値を計算して、マッチングによって標準化バイアスがどの程度削減されるかを確認することもできます。

2. サンプル平均値の仮説検定 - T 検定

両側 T 検定を使用して、2 つのグループ間の変数平均 X に有意な差があるかどうかを判断することもできます。デメリットとしては、マッチング前後のズレの減少が直感的に感じられないことです。さらに、最初に傾向スコアに基づいて層別化を行ってから、T 検定を実行することもできます。これにより、さまざまなスコアでの試合の質を確認できます。

3.共同重要性/擬似R2

もう一つの考え方は、特徴量 X を独立変数とし、介在するかどうかを従属変数として決定係数R2を計算することで、マッチングが完了した後、両者の間で共変量 X に系統的な差異が存在しないはずです。 2 つのグループ(つまり、ユーザーが介入しているかどうかを X が予測できない)であるため、R2 は低くなければなりません。同様に、すべての変数に対して結合 F 検定を実行できます。マッチングが有効な場合、仮説はマッチング後に棄却されます (つまり、説明変数が被説明変数に及ぼす共通の効果は有意ではありません)。

さらに、QQplot の可視化、マッチング後の 2 つのグループの分散比の計算、マッチング前後の傾向スコア偏差の減少の計算を通じてマッチングの品質を測定することもできます。ただし、一般的には、解釈可能で定量化可能な最初の 2 つの方法、つまりSB と T 検定の計算が推奨されます。マッチング品質が要件を満たしていない場合は、前のステップに戻ってマッチング アルゴリズムを調整する必要があります。

4. マッチング結果の例

マッチング後、一般的な傾向は次の図 1 のようになります。

  1. 介入前、マッチングされた実験グループと対照グループはほぼ同じまたは平行した傾向を示しました(マッチングの品質が良好な場合)
  2. 介入後、2 つのユーザー グループはターゲット指標に違​​いを示し始めます。これは介入の影響と考えられます。


 

5 増分計算

平行傾向の仮定が満たされているため、二重差分法 (DID) を使用して介入によってもたらされる増分を計算できます。実験グループと対照グループの間の差を計算するときは、通常、次のことが必要であることに注意してください。影響の変動を避けるために、一定期間の平均値を取得します。

最終的な結論は次のようになります。ユーザーが製品を購入した後、訪問率は 1.5% (30 日間の平均) 増加する可能性があります

6 その他の状況

場合によっては、他の結果も得られます。

a. 大幅な増加なし

介入後、訪問率は一時的に増加しましたが、時間の経過とともに 2 つのユーザー グループが収束しました。この場合、通常、介入によってユーザーの訪問数は大幅に改善されなかったと考えられます。この状況を特定するには、仮説検定や差の中央値の計算によって検証することもできます。

b は平行トレンドの仮定を満たさない

下の図からわかるように、左側の領域の実験グループと対照グループの傾向は一致していません (平行ではありません)。これは、以前に完了したマッチングの品質が低く、マッチング モデルを最適化する必要があることを意味します。 。平行傾向の検定には、グラフ法(肉眼と平行かどうか)のほかに、T検定でも検証できます。

他に関連する6件

1 PSMの問題

PSM+DID 方式には次の 2 つの問題があります。

  1. 局所性: PSM は共通サポートの一部に対して計算されるため、DID によって計算される増分は実際にはローカルな増分であり、代表的なものではない可能性があります。
  2. 交絡因子: 理想的には、X には治療と結果の両方に影響を与えるすべての特徴が含まれている必要があります。しかし実際には、機能に影響を与えるすべての要素が含まれていると厳密に主張することはできません。

2 ATTとATEの違い

  • ATE:平均的な治療効果
  • ATT:治療を受けた患者に対する平均治療効果

ATE は集団全体に対する介入の増分効果であるのに対し、ATT は介入される実際の集団に対する介入の増分効果であると考えることができます。ATEには集団の介入率も含まれるため、通常はPSM+DIDを通じてATTを計算します。より詳細な説明については、stackexchange のこの回答を参照してください。

https://stats.stackexchange.com/questions/308397/why-is-average-treatment-effect-Difference-from-average-treatment-effect-on-the-t https://link.zhihu.com/? target=https%3A//stats.stackexchange.com/questions/308397/why-is-average-treatment-effect-from-average-treatment-effect-on-the-t

3 バイアスと分散のトレードオフ

マッチング アルゴリズムのステップで、バイアスと分散について説明しました。

  • バイアス偏差: 期待される予測と実際の結果の間の偏差の度合い。アルゴリズム自体の適合能力を表します。
  • 分散分散: 同じサイズのトレーニング セットの変更によって引き起こされる学習パフォーマンスの変化。データ撹乱の影響を説明します。

バイアスはアルゴリズム自体のフィッティング能力を表し、分散はアルゴリズムの安定性を表すと考えることができますが、これらはさまざまなマッチング方法においてもトレードオフを持っています。

4 感度分析

前提条件知識の導入で述べたように、PSM の条件付き独立性と協調サポートを行うには、2 つの仮定を満たす必要があります。

最初の条件の意味は、治療と転帰の両方に影響を与えるすべての特徴を観察する必要があるということです。そうでないと、推定された ATT に偏りが生じます。共通サポートの場合、実際に計算されるのは傾向スコア重複領域の ATT ですが、実際には偏っている可能性があります。この場合、感度分析を行う必要があります。言い換えれば、計算した増分結果は実際には堅牢ではありませんが、安定性を向上させるために不確実性の推定を組み込むことで ATT 間隔を推定できます。

要約する

記事の最後では、PSM の全体的なプロセスを整理し (実際には複雑ではないことがわかります)、同時に PSM の長所と短所を簡単に紹介します。

1 つの完全なプロセス

  1. 治療と転帰の両方に影響を与える特徴を選択し、特徴に基づいて治療の二項分類モデリングを実行して傾向スコアを取得します。
  2. サポート セット上で、重要な特徴と傾向スコアに基づいて照合し、介入したユーザーに一致するサンプルを見つけます。
  3. マッチング結果の品質をチェックし、テストに合格した場合は次のステップに進み、そうでない場合は 2 番目のステップに戻ってマッチングを最適化します。
  4. マッチング結果をもとに平行トレンド検証を行い、検証合格後に二倍差分法による増分計算を行います。

2 PSM のメリットとデメリット

アドバンテージ

  1. ランダム化試験が不可能な場合は、仮想対照グループを構築して増分を確実に推定できます。
  2. 実装が比較的簡単で、実験グループのサンプルを十分に活用できます。

欠点がある

  1. PSM の主な欠点の 1 つは、モデリングに使用される特徴にすべての交絡変数が含まれることをユーザーが保証できないことです。
    1. ただし、感度分析によって確認できます。たとえば、交絡変数を加算または減算した後に計算ステップを繰り返した後に観測結果が一貫しているかどうか、または推定増分値の間隔値に不確実性を含めることによって確認できます。
  2. サポート セット (実験とコントロール グループの傾向点の交点) が小さい場合、PSM+DID によって推定されるローカル サンプルの増分が全体を表さない可能性があります。

全体として、精度をあまり追求しなければ、PSM+DID の方が因果的増分を推定するより信頼性の高い方法です。実装プロセスで行き詰まった点がある場合、または前提条件を満たせない場合は、モデルの最適化に加えて、逆確率重み付けや合成制御方法などの他の方法を検討することもできます。

参考記事:

傾向スコア マッチング (PSM) の原理と実装 - Zhihu
傾向予測モデル: データ、機械学習、専門知識に基づく顧客行動予測モデル_Ziqing-ビジネス ニュース

因果推論、傾向モデルを理解するための 1 つの記事 (例と組み合わせて)
[因果推論/上昇モデリング] 傾向スコア マッチング (PSM) - 知る (zhihu.com)
傾向スコア手法の概要 - 知る (zhihu.com)

  1. 傾向スコアマッチング手法のパフォーマンスの評価
  2. 傾向スコア マッチングの実装に関する実践的なガイダンス

おすすめ

転載: blog.csdn.net/zwqjoy/article/details/124598503
おすすめ