【学習ノート】機械学習

機械学習アルゴリズムモデルの構築プロセス:
1. データセットの取得
2. データセットに対して特徴量エンジニアリング処理(標準化、外れ値、欠損値など)を実行
3. トレーニングセット(Training Set)、テストセット(Test Set)の分割、検証set (検証セット)
4. トレーニング セットを使用してモデルをトレーニングします
。 5. テスト セットを使用してモデルの効果を評価します。

モデルに与えられるパラメータは「ハイパーパラメータ」と呼ばれます モデルのパラメータ調整とは、ハイパーパラメータ調整を指します
(同じトレーニング セット、異なるハイパーパラメータは異なるモデルになります)
モデル選択: ロジスティック回帰、決定木

トレーニング セット: モデルのトレーニングに使用されます。
検証セット: ハイパーパラメーターを調整し、最も高いスコアを持つハイパーパラメーターのセットを選択するために使用されます。
テスト セット: モデルの効果を観察します。

トレーニング セット、検証セット、テスト セットの比率:
70:15:15
80:10:10
60:20:20

モデルの評価指標

混同マトリックス(2分類/n分類)

真陽性 真の陰性
ポジティブを予測する TP FP
ネガティブな予測 FN テネシー州

1. 精度: (TP+TN)/(TP+FP+FN+TN)
2. 精度: TP/(TP+FP)
3. リコール: TP/(TP +FN)
4. F1 値 (精度とリコールの組み合わせ) ): 2 * 精度 * 再現率/(精度+再現率)
5. ROC 曲線: (ROC 曲線が左上隅に近いほど良い)
縦軸: TPR=TP/ (TP+FN)
横軸: FPR= FP /(FP+TN)
異なる分類しきい値 (0 と 1 の間) には異なる混同行列があり、各混同行列は点 (FPR、TPR) に対応し、これらの点は線に接続されて ROC 曲線を形成します。

ROC 曲線と X 軸によって形成される領域はAUC 値(0 ~ 1) で表され、大きいほど優れています (値が大きいほど左上隅に近くなります)。
6. PR 曲線: ( PR 曲線が右上隅に近いほど良い) (正の予測結果がより懸念され、サンプルがアンバランスである場合に使用されます) 垂直座標
: 精度
水平座標: リコール

おすすめ

転載: blog.csdn.net/qq_33218097/article/details/128523757