財務リスク管理タスク-04 4 モデリングとパラメータ調整

1 学習目標

  1. 財務サブコントロールの分野で一般的に使用される機械学習モデルを学習します。
  2. 機械学習モデルのモデリングプロセスとパラメータチューニングプロセスを学習する
    1. 対応する学習タスクを完了する

2 はじめに

  1. ロジスティック回帰モデル:
    a. ロジスティック回帰モデルを理解する;
    b. ロジスティック回帰モデルの適用;
    c. ロジスティック回帰の長所と短所; c. ロジスティック回帰モデルの長所と短所
  2. ツリー モデル:
    a. ツリー モデルを理解する;
    b. ツリー モデルの適用;
    c. ツリー モデルの長所と短所; c. ツリー モデルの長所と短所
  3. 統合モデル
    a. バギングのアイデアに基づく統合モデル ランダム フォレスト モデル
    b. ブースティングのアイデアに基づく統合モデル XGBoost モデル LightGBM モデル CatBoost モデル
  4. モデルの比較と性能評価:
    a. 回帰モデル/ツリーモデル/統合モデル;
    b. モデルの評価方法;
    c. モデルの評価結果;
  5. モデル チューニング:
    a. 貪欲なチューニング方法、
    b. グリッド チューニング方法、 c. ベイジアン チューニング方法、
    c. ベイジアン チューニング方法。

3 モデル関連の原則

3.1 逻辑回归模型https://blog.csdn.net/han_xiaoyang/article/details/49123419
4.3.2 决策树模型https://blog.csdn.net/c406495762/article/details/76262487
4.3.3 GBDT模型https://zhuanlan.zhihu.com/p/45145899
4.3.4 XGBoost模型https://blog.csdn.net/wuzhongqiang/article/details/104854890
4.3.5 LightGBM模型https://blog.csdn.net/wuzhongqiang/article/details/105350579
4.3.6 Catboost模型https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA
4.3.7 时间序列模型(选学)RNN:https://zhuanlan.zhihu.com/p/45289691LSTM:https://zhuanlan.zhihu.com/p/83496936
4.3.8 推荐教材:
《机器学习》 https://book.douban.com/subject/26708119/
《统计学习方法》 https://book.douban.com/subject/10590856/
《面向机器学习的特征工程》 https://book.douban.com/subject/26826639/
《信用评分模型技术与应用》https://book.douban.com/subject/1488075/
《数据化风控》https://book.douban.com/subject/30282558/

4 機種比較と性能評価

4.1 ロジスティック回帰

  1. 利点
    a. 学習速度が速い、分類する際の計算量は特徴量の数だけで済む; b.
    シンプルで分かりやすく、モデルの解釈性が非常に良い 特徴量の重みから, 最終結果に対するさまざまな特徴の影響を確認できます. 影響;
    c. バイナリ分類問題に適しており、入力特徴をスケーリングする必要がありません;
    d. メモリ リソースの占有が小さく、特徴値のみ各次元を保存する必要があります。
  2. 短所
    a. ロジスティック回帰では、欠損値と外れ値を前処理する必要があります [タスク 3 特徴量エンジニアリングを参照]; b
    . ロジスティックの決定曲面は線形であるため、ロジスティック回帰を非線形問題の解決には使用できません;
    c. それ以上です多重共線性データに適している 機密性が高く、データの不均衡の問題に対処するのが難しい;
    d. 形式が非常に単純であるため、精度があまり高くなく、データの実際の分布に適合させるのが難しい;

4.2 デシジョンツリーモデル

  1. 利点
    a. シンプルかつ直観的で、生成された決定木を視覚化できます
    b. データの前処理、正規化、または欠損データが必要ありません
    c. 離散値と連続値の両方を処理できます
  2. 短所
    a. 決定木アルゴリズムは非常に過学習しやすく、一般化能力が低い(適切な枝刈りは実行できる)
    b. 貪欲なアルゴリズムが使用されており、局所的な最適解が得られやすい

4.3 統合モデルアンサンブル法(アンサンブル法)

アンサンブル法を通じて複数の学習器を組み合わせて学習タスクを完了することにより、複数の弱学習器を組み合わせて強力な分類器を作成できるため、アンサンブル学習の汎化能力は一般に単一の分類器よりも優れています。

統合手法には主に Bagging と Boosting があり、Bagging と Boosting はどちらも既存の分類アルゴリズムまたは回帰アルゴリズムを特定の方法で組み合わせて、より強力な分類を形成します。どちらの方法も、複数の分類器を1つの分類器に統合する方法であるが、統合方法が異なり、最終的に異なる効果が得られる。Baggin のアイデアに基づく一般的な統合モデルには、ランダム フォレスト、Boosting アイデアに基づく統合モデル: Adaboost、GBDT、XgBoost、LightGBM などが含まれます。

Baggin と Boosting の違いは次のように要約されます。
  1. サンプルの選択: Bagging 法のトレーニング セットは元のセットから置換によって選択されるため、元のセットから選択されたトレーニング セットは各ラウンドで独立していますが、Boosting 法の場合は各ラウンドのトレーニング セットを変更せずに維持する必要があります。トレーニング セット内の各サンプルの重みは分類器で変更されます。重みは、前のラウンドの分類結果に従って調整されます。
  2. サンプルの重み: バギング法では均一なサンプリングが使用されるため、各サンプルの重みは等しくなりますが、ブースティング法ではエラー率に応じてサンプルの重みが継続的に調整され、エラー率が高くなるほど重みも大きくなります。
  3. 予測関数について: Bagging 法ではすべての予測関数の重みが等しいのに対し、Boosting 法では各弱分類器に対応する重みがあり、分類誤差が小さい分類器の重みが大きくなります。
  4. 並列計算: Bagging メソッドの各予測関数は並列に生成できますが、Boosting メソッドの各予測関数は、後者のモデル パラメーターがモデルの前のラウンドの結果を必要とするため、順次にのみ生成できます。

4.4 モデルの評価方法

モデルの場合、トレーニング セット上の誤差はトレーニング誤差または経験的誤差と呼ばれ、テスト セット上の誤差はテスト誤差と呼ばれます。

私たちにとって、新しいサンプルに対するモデルの学習能力のほうが気になります。つまり、既存のサンプルの学習を通じて、すべての潜在的なサンプルの一般法則を可能な限り学習したいと考えています。モデルがトレーニングを学習するかどうかは、サンプルが良すぎる場合、トレーニング サンプル自体のいくつかの特性をすべての潜在的なサンプルの共通の特性として取得することが可能になり、過剰適合の問題が発生します。

したがって、通常、既存のデータ セットをトレーニング セットとテスト セットの 2 つの部分に分割します。トレーニング セットはモデルのトレーニングに使用され、テスト セットは新しいサンプルを識別するモデルの能力を評価するために使用されます。

データセットを分割するには、通常、次の 2 つの条件が満たされていることを確認する必要があります。
  1. トレーニング セットとテスト セットの分布はサンプルの実際の分布と一致している必要があります。つまり、トレーニング セットとテスト セットが実際のサンプル分布から独立して同一に分布していることが保証されなければなりません。
  2. トレーニング セットとテスト セットは相互に排他的である必要があります
データセットを分割するには、ホールドアウト法、交差検証法、セルフヘルプ法の 3 つの方法があり、以下に 1 つずつ紹介します。
  1. ① セットアウト法 セット
    アウト法は、データセット D を相互に排他的な 2 つのセットに直接分割し、一方をトレーニングセット S として使用し、もう一方をテストセット T として使用する方法です。分割中にデータ分布の一貫性をできる限り確保する必要があることに注意してください。つまり、データ分割プロセス中に追加の偏差が発生することによる最終結果への影響を回避する必要があります。データ分布の一貫性を確保するために、通常は層化サンプリングを使用してデータをサンプリングします。
    ヒント: 通常、データセット D 内のサンプルの約 2/3 ~ 4/5 がトレーニング セットとして使用され、残りがテスト セットとして使用されます。
  2. ②交差検証方法
    K 分割交差検証では、通常、データセット D を k 個の部分に分割し、そのうちの k-1 をトレーニング セットとして使用し、残りの 1 つをテスト セットとして使用します。テスト セットを取得でき、k 回実行できます。トレーニングとテストの場合、最終的な戻り値は k 個のテスト結果の平均です。相互検証におけるデータセットの分割は、依然として層別サンプリングに基づいています。
    相互検証法では、k 値の選択が評価結果の安定性と忠実度を決定することがよくあります。通常、k 値は 10 に選択されます。k=1 の場合、leave-one-out 法と呼ばれます。 。
  3. ③ 自助法
    毎回データセット D からサンプルをトレーニングセットの要素として取り出し、サンプルを元に戻し、この動作を m 回繰り返すことで、サイズ m のトレーニングセットを取得できます。繰り返し出現するサンプルと出現しないサンプルがあり、出現していないサンプルをテストセットとして使用します。
    このようなサンプリングを行う理由は、D のデータの約 36.8% がトレーニング セットに現れていないためです。ホールドアウト法とクロスバリデーション法はどちらもデータのサンプリングと分割に層化サンプリングを使用しますが、ブートストラップ法ではデータのサンプリングに置換を伴う反復サンプリングを使用します。
データセットパーティションの概要
  1. データ量が十分な場合は、通常、セットアウト法または k 分割交差検証法を使用してトレーニング/テスト セットを分割します。
  2. データ セットが小さく、トレーニング/テスト セットを効果的に分割することが難しい場合は、ブートストラップ方法を使用します。
  3. データセットが小さく、効果的に分割できる場合は、分割に Leave-One-Out 法を使用するのが最適です。この方法が最も正確であるためです。

4.5 モデルの評価基準

今回のコンペティションでは、モデルの評価基準として auc を選択しましたが、同様の評価基準として ks や f1-score などが挙げられます。

aucとは一体何なのか見てみましょう。

ロジスティック回帰では、通常、陽性と陰性の定義に閾値が設定され、閾値より大きい場合は陽性、閾値より小さい場合は陰性となります。このしきい値を下げると、より多くのサンプルが陽性クラスとして識別され、陽性クラスの認識率が向上しますが、同時により多くの陰性クラスが陽性クラスとして誤って識別されます。この現象を可視化するためにROCが導入されました。

分類結果に応じてROC空間上の対応点を計算し、それらの点を結んだROC曲線が形成され、横軸は偽陽性率(FPR: False Positive Rate)、縦軸は真陽性率(TPR: True Positive Rate)となります。真のレート)。通常の状況では、図に示すように、この曲線は (0,0) と (1,1) を結ぶ線の上にあるはずです。
ここに画像の説明を挿入

ROC 曲線の 4 つの点:

  1. ポイント (0,1): つまり、FPR=0、TPR=1、つまり FN=0 および FP=0、すべてのサンプルが正しく分類されます。
  2. ポイント (1,0): つまり、FPR=1、TPR=0、最悪の分類子であり、すべての正解を回避します。
  3. ポイント (0,0): つまり、FPR=TPR=0、FP=TP=0、分類器は各インスタンスをネガティブ クラスとして予測します。
  4. ポイント (1,1): 分類器は各インスタンスを肯定的なクラスとして予測します。

要約すると、ROC 曲線が左上隅に近づくほど、分類器のパフォーマンスが向上し、汎化パフォーマンスも向上します。そして一般的に言えば、ROC が滑らかであれば、基本的に過学習はあまりないと判断できます。

しかし、2 つのモデルの場合、どちらのモデルの汎化パフォーマンスが優れているかをどのように判断すればよいでしょうか? ここでは主に次の 2 つの方法があります。

モデル A の ROC 曲線がモデル B の ROC 曲線を完全にカバーしている場合、モデル A の方がモデル B よりも優れていると考えられます。

2 つの曲線が交差する場合、ROC と X 軸と Y 軸で囲まれた曲線の面積を比較することで判断できます。面積が大きいほど、モデルのパフォーマンスが優れています。この面積を AUC (面積) と呼びます。 ROC曲線)

(まだコードが分かりません…)

おすすめ

転載: blog.csdn.net/BigCabbageFy/article/details/108783152