財務リスク管理タスク 1 - 競争に関する質問の分析

1.1 学習目標

コンテストの問題のデータと目的を理解し、採点システムを理解します。

1.2 トピックを理解する

  • 質問の概要
  • データの概要
  • 予測者
  • 分析問題

1.2.1 コンテストの質問の概要

コンテストのタスクは金融リスクを予測することです。データ セットは登録後に表示およびダウンロードできます。データはクレジット プラットフォームのローン記録から取得されます。総データ量は 120 ワットを超えます。これには 47 列の可変情報、15 列の可変情報が含まれますこれらは匿名変数です。コンテストの公平性を確保するため、トレーニングセットとして80万件、テストセットAとして20万件、テストセットBとして20万件を選出します。同時に、雇用タイトル、目的、郵便番号、および役職は感度が解除されます。

1.2.2 データの概要

一般に、ゲーム インターフェイスにはデータの対応するデータ概要 (匿名機能を除く) があり、列の性質と特性が説明されています。列の性質を理解することは、データとその後の分析を理解するのに役立ちます。ヒント: 匿名特徴量は、データ列の性質を通知しない特徴量列です。

train.csv

  • id はローンリストに割り当てられた一意の信用状識別子です。
  • ローン残高
  • 定期借入期間(年)
  • 金利ローン金利
  • 分割払い金額
  • グレードローングレード
  • subGrade ローングレードのサブグレード
  • 雇用名雇用名
  • 雇用期間雇用期間 (年)
  • homeOwnership 登録時に借り手が提供した住宅所有権ステータス
  • 年収
  • validationStatus検証ステータス
  • issueDate ローンが発行された月
  • 目的 ローン申込時の借り手のローン目的の種類
  • postCode ローン申し込み時に借り手が提供した郵便番号の最初の 3 桁
  • 地域コード市外局番
  • dti 負債対収入比率
  • delinquency_2years 過去 2 年間に借り手の信用ファイルで 30 日を超えて延滞したデフォルト イベントの数
  • ficoRangeLow ローン発行時の借り手の fico の下限範囲
  • ficoRangeHigh ローン発行時の借り手のficoの上限範囲
  • openAcc 借り手の信用ファイル内のオープン信用枠の数
  • pubRec 非推奨のパブリック レコードの数
  • pubRecBankruptcies 公的記録の消去の数
  • revolBal クレジットリボルビング残高合計
  • revolUtil リボルビング機能の利用状況、または利用可能なすべてのリボルビング クレジットに対して借り手が使用したクレジットの量
  • totalAcc 現在借り手の信用ファイルにある信用枠の合計数
  • InitialListStatus ローンの初期リストのステータス
  • applicationType は、ローンが個別の申請であるか、2 人の共同借入者との共同申請であるかを示します。
  • earlysCreditLine 借り手の最も早く報告された信用枠が開設された月
  • title 借り手が提供したローンのタイトル
  • ポリシーコード 公開されている ポリシーコード=1 新製品は公開されていない ポリシーコード=2
  • n シリーズの匿名特徴 匿名特徴 n0 ~ n14、一部の貸し手行動カウント特徴の処理用

1.2.3 予測指標
本コンテストでは評価指標として AUC を使用します。AUC (Area Under Curve) は、ROC 曲線と座標軸で囲まれた領域として定義されます。

分類アルゴリズムの一般的な評価指標は次のとおりです。
1. 混同行列

(1) インスタンスがポジティブ クラスであり、ポジティブ クラスであると予測される場合、それは真のクラス TP (True Positive) です。 (
2) インスタンスがポジティブ クラスであるが、ネガティブ クラスであると予測される場合、それは真のクラス TP (True Positive) です。偽陰性クラス FN (False Negative)
(3) インスタンスが陰性クラスであるが、陽性クラスであると予測される場合、それは偽陽性クラス FP (False Positive) (
4) インスタンスが陰性クラスであり、陰性クラスであると予測される場合、真陰性クラスである TN (True Negative)
2. 精度 精度は一般的に使用される評価指標ですが、アンバランスなサンプルには適していません。精度 = TP + TNTP + TN + FP + FN 精度 = \frac{TP + TN}{TP + TN + FP + FN}精度_ _ _ _ _ _ _=TP _+TN _+F P+FN _TP _+TN _

3. 精度 (Precision) は精度とも呼ばれ、予測された陽性サンプル (TP+FP) に対する正しく予測された陽性サンプル (TP) の割合です。P 精度 = TPTP + FP 精度 = \frac{TP}{TP + FP}精度_ _ _ _ _ _ _ _=TP _+F PTP _

4. 再現率 (再現率) は再現率とも呼ばれ、陽性サンプル (TP+FN) に対する正しく予測された陽性サンプル (TP) の割合です。リコール = TPTP + FN リコール = \frac{TP}{TP + FN}思い出す_ _ _ _ _=TP _+FN _TP _

5. F1 スコア 適合率と再現率は相互に影響します。適合率が上昇すると再現率は低下し、再現率が上昇すると適合率は低下します。両方を考慮する必要がある場合は、次の組み合わせが必要です。適合率と再現率、F1 スコア。F 1 − S core = 2 1 P 解像度 + 1 リコール F1 スコア = \frac{2}{\frac{1}{精度} + \frac{1}{リコール}}Q1_ _スコア_ _ _ _=精度_ _ _ _ _ _ _ _1+思い出す_ _ _ _ _12

6. PR カーブ (Precision-Recall Curve) PR カーブは、精度と再現率の変化を表す曲線です。

7、ROC(受信機動作特性)

ROC 空間では、偽陽性率 (FPR) が X 軸として定義され、真陽性率 (TPR) が Y 軸として定義されます。
TPR:実際に陽性と判定されたサンプルのうち、正しく陽性と判定された割合。TPR = TPTP + FN TPR = \frac{TP}{TP + FN}TPR _ _=TP _+FN _TP _FPR:実際に陰性例であるサンプルのうち、誤って陽性例と判定される割合。FPR = FPFP + TN FPR = \frac{FP}{FP + TN}FPR _ _=F P+TN _FP _

8. AUC (Area Under Curve) AUC (Area Under Curve) は、ROC 曲線と座標軸で囲まれた面積として定義され、当然のことながら、この面積の値は 1 を超えることはありません。また、ROC 曲線は通常、直線 y=x よりも上にあるため、AUC の値の範囲は 0.5 ~ 1 になります。AUC が 1.0 に近づくほど、検出方法の信頼性が高くなります。AUC が 0.5 に等しい場合、信頼性は最も低くなり、適用する価値はありません。

おすすめ

転載: blog.csdn.net/BigCabbageFy/article/details/108610186