ロジスティック回帰変数の係数が負になることはありますか? それはどのように説明されるべきでしょうか?

以前、多くの学生がロジスティック回帰変数の係数は正の数であるべきかどうかを尋ねてきましたが、負の変数係数がある場合はどうすればよいですか? 改造する必要があるのでしょうか?これらの学生は全員、オンラインで検索したときに誤った情報に惑わされました。インターネット上の情報は自由に転載でき、正しいか間違っているかを誰もチェックしません。私が目にしたのは、多くの記事に正しい情報と間違った情報または不正確な情報が混在していることです。今日は、ロジスティック回帰変数の正の係数と負の係数について説明します。

写真

ロジスティック回帰モデルの変数の係数は負になることがあります。ロジスティック回帰では、変数係数は独立変数が従属変数に及ぼす影響の度合いを示し、その符号は影響の方向を示します。正の係数は、独立変数の増加により従属変数の確率が増加することを示し、負の係数は、独立変数の増加により従属変数の確率が減少することを示します。したがって、ロジスティック回帰モデルでは負の係数が妥当です。

より分かりやすい説明のために、元の英語の言い換えを示します。ロジスティック回帰モデルの負の係数は、1 未満のオッズ比 (つまり、(0,1)) に変換されます。これは、予測される確率が次のように減少していることを意味します。共変量が増加します。

予測子変数 X に関連付けられたロジスティック回帰係数 β は、X の単位変化あたりの結果の対数オッズにおける期待される変化です。したがって、予測子を 1 単位 (または 1 レベルから次のレベル) 増加させると、e β の結果が得られる確率が倍増します。

以下に例を示します。

10 年間の喫煙と心臓病のリスクを研究したいとします。次の表は、喫煙を予測因子として使用して心臓病の存在をモデル化するロジスティック回帰の概要を示しています。

写真

問題は、喫煙係数 β=0.38 をどのように解釈するかです。

まず、この係数は統計的に有意である (p 値 < 0.05 に関連する) ため、私たちのモデルは喫煙が 10 年間の心臓病のリスクに影響を与えることを示唆していることに注意してください。これは正の数値であるため、喫煙は心臓病のリスクを高めると言えます。

しかし、どれくらいでしょうか?

1. 喫煙がバイナリ変数の場合 (0: 非喫煙者、1: 喫煙者):

この場合、e β = e 0.38 = 1.46 が、喫煙に関連する心臓病のリスクのオッズ比になります。

これは、喫煙グループの心臓病のリスクが非喫煙グループの 1.46 倍であることを意味します。

あるいは、次のように言うこともできます。

喫煙グループの心臓病の確率は非喫煙グループよりも 46% 高かった (1.46 – 1 = 0.46)。

心臓病がまれな転帰である場合、オッズ比は相対リスクの適切な近似値となります。この場合、次のように言えます。

非喫煙者と比較して、喫煙者は心臓病に苦しむ可能性が 1.46 倍高くなります。

あるいは、次のように言うこともできます。

非喫煙グループと比較して、喫煙グループでは心臓病の相対リスクが46パーセント高かった。

負の係数に関する注意:
β = – 0.38 の場合、e β = 0.68 となり、次のように解釈されます: 喫煙は心疾患の相対リスクが32% 低いと関連しています(1 – 0.68 = 0.32) 。

複数のレベルでカテゴリカル予測子を解釈するために、私は次の記事を書きました: R でのロジスティック回帰 (カテゴリカル変数を使用)。

標準エラーをどう解釈するか?

標準誤差は、ロジスティック回帰係数の不確実性の尺度です。これは、対応する係数の p 値と信頼区間を計算するのに役立ちます。

上の表から、SE = 0.17 が得られます。

次の式を使用して 95% 信頼区間を計算できます。

95% 信頼区間 = exp(β ± 2 × SE) = exp(0.38 ± 2 × 0.17) = [ 1.04, 2.05 ]

したがって、次のように言えます。

私たちは、喫煙者は非喫煙者よりも平均して 4 ~ 105% 心臓病にかかる可能性が高いと 95% 確信しています (1.04 – 1 = 0.04 および 2.05 – 1 = 1.05)。

または、もっと大雑把に言うと、次のようになります。

私たちのデータに基づくと、喫煙者は非喫煙者に比べて心臓病のリスクが 4% ~ 105% 高いと予想されます。

インターセプトをどう説明するか?

切片は β 0 = -1.93 です。これは、モデル内のすべての予測子の値が 0 であると仮定することで説明されます。

次を使用して逆ロジットを計算すると、切片は (オッズではなく) 確率の観点から簡単に解釈できます。

e β 0 ÷ (1 + e β 0 ) = e -1.93 ÷ (1 + e -1.93 ) = 0.13、したがって:

非喫煙者が今後 10 年間に心臓病を発症する確率は 0.13 です。

この確率を計算しなくても、係数の符号を見るだけで次のことがわかります。

  • 切片に負の符号がある場合、結果を取得する確率は < 0.5 になります。

  • 切片に正の符号がある場合、結果を取得する確率は > 0.5 になります。

  • 切片が 0 に等しい場合、結果を取得する確率は正確に 0.5 です。

さまざまな状況で切片を解釈する方法の詳細については、私の他の投稿「ロジスティック回帰切片の解釈」を参照してください。

2. 喫煙が数値変数の場合 (生涯のタバコ使用量 (キログラム))

次に、 e β (= e 0.38 = 1.46) は、予測変数 (喫煙) が 1 単位変化するごとに、結果 (心臓病) の確率がどの程度変化するかを示します。

それで:

生涯の喫煙量が1kg増えると、心臓病のリスクは1.46倍に増加します。

または同様に:

生涯喫煙量が 1 kg 増加するごとに、心臓病のリスクは 46% 増加します。

標準化変数を説明する係数

標準化変数は、平均が 0、標準偏差が 1 になるように再スケーリングされた変数です。これは、変数の各値の平均を引き、標準偏差で割ることによって行われます。

標準化では、モデル内の変数の標準偏差が異なるか、異なる分布に従っていない限り、同等の回帰係数が生成されます (詳細については、私の 2 つの記事「標準化された回帰係数と非標準化された回帰係数」および「 の線形回帰およびロジスティック回帰変数の重要性を評価する方法」を参照してください)。

いずれにせよ、標準化は、モデル内に複数の予測変数があり、それぞれが異なるスケールで測定されており、結果に対するそれぞれの影響を比較することが目標である場合に役立ちます。

標準化後、最大の係数を持つ予測子 X i が、結果 Y への影響の最も重要な予測子になります。

ただし、標準化された係数自体には直感的な解釈がありません。したがって、上記の例で、喫煙が標準化された変数である場合、次のように解釈されます。

喫煙率が 1 標準偏差増加するごとに、心臓病を発症する確率は 46% 増加しました (e β = 1.46)。

3. 喫煙が順序変数の場合 (0: 非喫煙者、1: 軽度の喫煙者、2: 中程度の喫煙者、3: ヘビースモーカー)

場合によっては、喫煙をいくつかの順序付けられたカテゴリに分類することが合理的である場合があります。この分類により、10 年間の心臓病のリスクがカテゴリーごとに異なることが許容され、喫煙習慣の小さな変化ごとに変動するのではなく、各カテゴリー内で一定に保たれます。

この場合、係数 β = 0.38 は e β (= e 0.38 = 1.46) の計算にも使用され、次のように解釈されます。

喫煙量がグレード 1 からグレード 1 に増加すると、心臓病の確率が 1.46 倍増加します。

あるいは、次のように言うこともできます。

喫煙量をレベル 1 からレベル 1 に増やすと、心臓病を発症する確率が 46% 増加しました。

重要なヒント:

統計的有意性と p 値について:

モデル内に 20 個の予測子がある場合、平均して 1 つの予測子が統計的に有意な p 値 (p < 0.05) を持ちます (p < 0.05)。

ので注意してください:

  • p 値のみに基づいてロジスティック回帰モデルに変数を含めるか除外します。

  • 統計効果は、p 値が 0.05 未満であったという理由だけで「本物」としてマークされました。

非常に大きなロジスティック回帰係数が得られた場合はどうなるでしょうか?

上の例では、心臓病に対する喫煙の影響を研究したい場合、サンプルの参加者のほとんどが非喫煙者であった場合、非常に高い係数と標準誤差が発生する可能性があります。これは、偏りの大きい予測変数は、完全に分離されたロジスティック モデルを生成する可能性が高いためです。

したがって、結果 Y に対する独立変数 X の影響を研究するには、独立変数 X にある程度の変動性が必要です。したがって、データをモデル化する前に、データの合理性を確保するために、初期段階でデータの記述統計を適切に実行するようにしてください。

ロジスティック回帰とスコアカードの知識に興味がある場合は、 「Python Credit Scorecard Modeling (with Code)」コースをブックマークしてサインアップしてください。このコースでは、悲惨なコーディングやさまざまな戦略ビニングを含む、ロジスティック回帰のあらゆる知識の詳細が紹介されます。統計、実際の戦闘データセットと Python コードの実装。WeChat で QR コードをスキャンして特定のカタログを確認できます。

 著作権に関する声明: この記事は公式アカウント (Python リスク管理モデル) からのものであり、許可なく、盗作はありません。CC 4.0 BY-SA 著作権契約に従って、転載する場合は、元のソースリンクとこの声明を添付してください。

おすすめ

転載: blog.csdn.net/toby001111/article/details/132049105