スコアカードモデル

1.スコアカードモデル

 PS:重要な点は、データにラベルを付けて分類するための判別指標が必要なことです。

 

1.プロジェクトの紹介:

 

クレジットスコアリング技術は応用統計モデルであり、その機能はローン申請者のリスク評価方法を作ることです。ミューチュアル・ファイナンス・コーポレーションなどのさまざまなローン事業機関では、顧客が高品質であるかどうかを判断するために、顧客に対する採点システムを実装するためにクレジット採点が一般的に使用されています。スコアカードは主に、Aカード(アプリケーションスコアカード)、Bカード(行動スコアカード)、Cカード(ローン後のスコアカード)の3つのタイプに分類されます。私たちが主に議論するのは、ローン前の承認段階で借り手申請者の定量的評価に使用される申請スコアカードであるAカードです。

 

2.スコアカードの原則:

アプリケーションスコアカードは、現在の申請者のさまざまなデータの評価に基づいてスコアを与えることができる統計モデルであり、スコアは申請者の支払能力を定量的に予測できます。

顧客アプリケーションスコアカードは一連の機能アイテムで構成され、各機能アイテムはアプリケーションフォームの質問(たとえば、年齢、銀行回転率、収入など)に相当します。各機能アイテムには一連の可能な属性があります。これは、各質問に対する一連の可能な回答に相当します(たとえば、年齢の質問の場合、回答は30歳未満、30歳から45歳など)。スコアリングカードシステムモデルの開発では、最初に属性と申請者の将来の信用実績との関係を決定し、次に適切なスコアの重みを属性に割り当てます。割り当てられたスコアの重みは重要にこの関係を反映しています。スコアの重みが大きいほど、属性によって表されるクレジットパフォーマンスが向上します。アプリケーションのスコアは、属性スコアの単純な合計です。申請者の信用スコアが金融融資機関によって設定されたしきい値スコア以上である場合、申請は許容可能なリスクレベルにあり、承認されます。しきい値スコアを下回る申請者は、拒否されるか、さらなる審査のためにマークされます。

 

3.開発プロセス:

データセットのインポート→   データの前処理→  データ探索→  特徴エンジニアリング→  モデルの構築→  スコアカードの構築

 

4.プロセスデモ:

4.1、データセットのインポート

 

 

4.2、データの前処理

1)データ情報を表示する

データ量、データディメンション、データフィーチャタイプなどのデータ情報のステータスを理解する。

2)欠損値処理

欠損値の少ない「ファミリの数」については、欠損値を直接削除できます。そして、データセットの重複を排除します。

3)外れ値の検出と処理

ボックスプロットを使用して特徴を視覚化し、異常なデータを検出します。

 

  

上記の機能の視覚化により、年齢0などの明らかに逸脱しているサンプルや期限切れのサンプルをブロックまたは削除できます。

4.3、データ視覚化分析

1)一変量視覚化

見られるように:

(1)クライアントの月収が10,000未満の人々に集中している。不良顧客率と月収が15,000未満の月収には負の相関関係がある。収入が高いほど不良顧客率は低くなり、安定期に入る

(2)収益が20,000を超えると、不良顧客率が再び増加します。

結論:これは、収入が15,000未満の人々の収入は比較的安定しており、収入が高いほど、不良債権率が高いことを示しています。所得が20,000を超える人は、株式取引や起業家精神などの危険な仕事に従事する可能性があるため、不良債権率が増加します。

見られるように

(1)顧客の家族数は主に0〜2に集中しており、家族数は不良顧客率に直線的に関連しています。つまり、家族数が増加すると、不良顧客率も大幅に増加します。

(2)家族構成員の多さから家族の支出も増え、不良債権が発生する可能性が高い。

2)多変量可視化

変数の直接相関係数を通じて、相関行列が確立され、変数間の関係が観察され、予備的な多重共線性スクリーニングを実行できます。

ヒートマップの色は、変数間の相関の度合いを示していますが、変数間には高い相関が見られないため、当面は多重共線性の問題を考慮する必要はありません。

 

5.特徴エンジニアリング

1)機能ビニング

リスク管理スコアリングカードの確立では、モデルの安定性とロバスト性を向上させ、スコアリング結果に対する異常な変動の影響を排除するために、機能が一般的にビニングされます。

2)悲惨な転換

次に、ビニング後のデータのWOE値を計算します。WOEはコーディングの形式ですが、実際には、応答している顧客と非応答の顧客の違いを表しています。
式は次のとおりです。

見られるように

1)現在のグループでは、回答の割合が大きいほど、WOE値が大きくなります

2)現在のグループのWOEの正または負は、現在のグループの応答と非応答の比率、および全体的な応答の比率とサンプルの非応答の関係によって決まります。

3)現在のグループの比率がサンプルの全体の比率よりも小さい場合、WOEは負です。現在のグループの比率が全体の比率よりも大きい場合、WOEは正です。現在のグループの比率が全体の比率に等しい場合、WOEは0です。

注:一般的に、ビニングについての悲惨さは単調であると考えられています。ビニングの方が適切で解釈可能であると考えられます。

 

WOEは実際に変数の現在のグループ化を記述します。これは、個人が応答するかどうか(またはそれがどのカテゴリーに属するか)の方向と大きさに影響します

WOEが正の場合、変数の現在の値は、個人が応答するかどうかの判断に正の影響を与えます

WOEが負の場合、負の効果があります。WOE値はこの影響の大きさを反映しています

3)IV値の計算

IVの正式名称は情報価値であり、情報価値または中国語での情報量を意味します。その機能は、変数の予測能力を測定するために使用されるジニと情報エントロピーに似ており、特徴スクリーニングの目的はIV値によって達成できます。

フィーチャーIVの視覚化により、フィーチャー間の違いを直感的に観察でき、モデルに代入するために、より高いIVのフィーチャーを選択します。rは、以下のIV値の範囲の説明です。

4)機能の選択にWOEではなくIVを使用する理由

最初の理由:変数の予測力を測定する場合、使用されるインデックス値は負の数であってはなりません。そうでない場合、変数の予測力が-2.3であると言うのは不便に聞こえます。この観点から、pynの係数を掛けると、変数の各グループ化の結果が負でない数になることが保証されます。検証できるのは、グループのWOEが正の場合、pynも正であり、グループのWOEが負の場合、pynも負であり、グループのWOEが0の場合、pynも0であることです。

2番目の理由:pynを乗算した後、変数の現在のグループに含まれる個体の数の、個体の総数に対する比率と、変数の予測能力への影響が反映されます。

 

6.モデルを構築する

 ロジスティックスモデルを確立します。ロジスティックス回帰は、一般化された線形回帰です。確立された後、スコアカードの確立の概念に沿った線形回帰などの機能に異なる重みを割り当てます。

モデルテスト効果の精度はモデルの真の効果を反映していないため、次のROC曲線を使用してモデルを評価する必要があります。

モデルはROC曲線でうまく機能し、AUCも0.84に達しました。

 

7.スコアカードを作成する

1)情報に従って、スコアカードを作成するための式を見つけます。

2)データセットをカスタム関数に代入して、スコアリング標準を計算します。

3)各変数のスコアを計算します。各特徴に対応するスコアは次のとおりです。

ユーザーデータをスコアリング標準に代入して合計すると、ユーザーの合計スコアを取得できます。スコアが高いほど、悪い顧客になる可能性が高くなります。

おすすめ

転載: blog.csdn.net/yanjiangdi/article/details/108630125