必要な場合に備えて、必要な機械学習の一般的に使用される評価指標

ガイド

機械学習では、初期段階でデータ収集とデータクリーニング、中期段階で特徴分析と特徴選択を経て、後期段階で処理されたデータセットをセグメント化して、データセットをトレーニングセット、検証セット、およびデータセットに分割します。最後に、分割されたデータセットに基づいてトレーニングと調整が行われ、最高のパフォーマンスを持つモデルが選択されます。では、モデルのパフォーマンスをどのように評価すればよいのでしょうか? これは、一般的に使用される機械学習の評価指標について何かを物語っているはずです。車に乗ってください~~

機械学習の評価指標

機械学習におけるモデルのパフォーマンスを評価する指標としては、精度、適合率、再現率、PR カーブ、F1 スコア、ROC、AUC、混同行列などがよく使われます。ここでは、最初に 2 つの分類を例として説明しますが、後で複数の分類に拡張することができます。
二項分類では、2 種類のサンプルを陽性サンプルと陰性サンプルと呼びます。モデルがトレーニングされた後、モデルにテスト セット データに対して予測を行わせ、予測結果を評価させます。以下にいくつかの概念を示します。

  • 真陽性 (TP): モデルによって陽性と予測された陽性サンプル。
  • 偽陽性 (FP): モデルによって陽性であると予測された陰性サンプル。
  • 真陰性 (TN): モデルによって陰性と予測された陰性サンプル。
  • 偽陰性 (FN): モデルによって陰性と予測される陽性サンプル。

上記の集中指標はすべて、上記の 4 つの概念に基づいて計算されます。これらについては、以下で個別に紹介します。

  1. 精度 (Accuracy)
    精度は、分類問題の最も原始的な評価指標であり、サンプル全体における正しい予測結果の割合を反映し、次のように定義されます。
    A 精度 = TP + TNTP + TN + FP + FN \begin{aligned} 精度= &\frac{TP + TN}{TP + TN + FP + FN}\\ \end{整列}精度_ _ _ _ _ _ _=TP _+TN _+F P+FN _TP _+TN _
    正解率の定義を見ると、これが難しいことがわかります。データセット内のサンプルの分布がアンバランスである場合、100 サンプル中 99 が陽性サンプルであり、陰性サンプルは 1 つだけ存在します。モデルは、正のサンプルを簡単に過学習させますが、負のサンプルを認識しません。何が起こっても、サンプルに遭遇する限り、それは陽性クラスであると予測されます。現時点で、計算された正解率は 99% ですが、この種のモデルが無意味であるはずがないことは誰もが知っています (ネガサンプルの判定能力)。したがって、モデルを評価する際に正解率だけを見るのは客観的かつ一方的ではなく、他の指標と合わせて判断する必要があります。

  2. 精度(Precision)

精度は、陽性と予測されたすべてのサンプルが実際に陽性サンプルである確率、つまり、陽性と予測されたすべてのサンプルの中で実際に陽性サンプルがいくつ存在するかを反映します。これは次のように定義されます。
P precision = TPTP + FP \ begin{aligned } 精度 = &\frac{TP}{TP + FP}\\ \end{aligned}精度_ _ _ _ _ _ _ _=TP _+F PTP _
精度はデータ全体 (陽性サンプルと陰性サンプルの両方)に対するモデルの予測能力を反映し、精度指数は陽性サンプルの予測に関するモデルの精度を反映します。

  1. 再現率(リコール)

精度メトリクスは、モデルが陽性サンプルをどれだけ正確に予測するかを反映します。次に、再現率が陽性サンプルを識別するモデルの実際の能力を表すことが理解できます。つまり、モデルによって予測された陽性サンプルの数が、すべての真陽性サンプルの割合を占め、次のように定義されます
。 TPTP + FN \begin{整列} リコール = &\frac{TP}{TP + FN}\\ \end{整列}思い出す_ _ _ _ _=TP _+FN _TP _
再現率と正解率は互いにトレードオフの関係にある指標です。たとえば、一般的な猫と犬の分類では、犬のモデルの再現率を向上させたい場合、一部の猫も犬と判断される可能性があります。精度は低下します。 。実際のエンジニアリングでは、モデルのパフォーマンスが特定のビジネス シナリオにより適したものになるように、バランス ポイントを見つけるためにこれら 2 つの指標をトレードオフする必要があることがよくあります

  • PR カーブ (Precision-Recall Curve)
    PR カーブ (Precision Recall Curve) は、モデルの予測結果 (通常は実数値または確率)、テストサンプルは「正例」である可能性が最も高いサンプルを前に、「正例」である可能性が最も低いサンプルを後ろに並べ替え、サンプルを 1 つずつ「正例」として予測します以下の図に示すように、この順序で現在の P 値と R 値を計算します。
    ここに画像の説明を挿入
    PR 曲線を評価するには? モデル B の PR 曲線が別の学習器 A の PR 曲線で完全にカバーされている場合 (つまり、モデル A の精度と再現率がモデル B の精度と再現率よりも高い場合)、A のパフォーマンスが優れていると言われます。 Bのものよりも。A と B の曲線が交差する場合、曲線の下の面積が大きい方がパフォーマンスが高くなります。しかし、一般的に言えば、曲線の下の面積を推定することは困難であるため、「バランス ポイント」(Break-Event Point、BEP と呼ばれる)が導出されます。つまり、P=R のときの値が、より高い値になります。バランスポイント 高く、より優れたパフォーマンス。写真が示すように。
  • F1 スコア (F1-Score)
    前述したように、適合率と再現率の指標は時々盛衰します。つまり、適合率が高いほど再現率は低くなります。シナリオによっては、適合率と再現率の両方を高くする必要があります。最も一般的な最良の方法は、F スコアとも呼ばれる F-Measure です。F-Measure は P と R の加重調和平均で、次のように定義されます:
    1 F β = 1 1 + β 2 ∗ ( 1 P + β 2 R ) . . . . . . . . . . . . . . . . ( 1 ) \begin{aligned} &\frac{1}{F_\beta} = \frac{1}{1 + \beta^{2} } * (\frac{1}{P} + \frac {\beta ^{2} }{R} )\\ \end{aligned} ................................... (1)Fb1=1+b21(P1+Rb2)( 1 )
    F β = ( 1 + β 2 ) ∗ P ∗ R β 2 ∗ P + R 。( 2 ) \begin{aligned} F_\beta = \frac{(1 + \beta ^2) * P * R}{\beta ^2 * P + R}\\ \end{aligned} ..... ...................................... (2)Fb=b2P+R( 1+b2 )PR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . β = 1の場合、これ
    は F1 スコアと呼ばれるもの、つまりF 1 =
    2 ∗ P ∗ RP + R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . = \frac{2 * P * R}{P + R}\ \ \end{整列} ................................................... (3)F1=P+R2PR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ( 3 )式 (1)より
    F1P (精度) と R (再現率) の調和平均であり、F1 スコアが高いほど、モデルのパフォーマンスは優れています。
  • ROC 曲線 (ROC Curve)
    については、以前、Accuracy、Precision、Recall について説明しました。これらは相互に補完し合い、さまざまな方法でモデルのパフォーマンスを評価できます。モデルは十分に評価されていると思われるかもしれませんが、それだけでは十分ではありません。なぜなら、テストセット内の陽性サンプルと陰性サンプルの割合が変化すると、これらの指標も変化するため、これらの指標の堅牢性はまだそれほど強力ではありません。テストセット内のサンプル分布の変化がテスト結果に及ぼす影響を回避するために、ROC 曲線と AUC 曲線を導入します。
    ROC曲線は、前述のPR曲線と同様、閾値に依存しない評価指標であり、出力が確率である分布モデルにおいて、精度、適合率、再現率のみを評価指標としてモデル比較を行う場合、すべてしきい値が異なると、各モデルのメトリクス結果も異なるため、信頼性の高い結果を得ることが困難になります。導入の前に、いくつかのインジケーターの概念を導入する必要があります。
  • 感度 (Sensitivity)、真率 (TPR) とも呼ばれます
    TPR = 正しく予測された陽性サンプルの数 陽性サンプルの総数 = TPTP + FN \begin{aligned} TPR = &\frac{陽性サンプルが予測した正しい数}{総数陽性サンプルの数} = \ frac{TP}{TP + FN}\\ \end{aligned}TPR _ _=陽性サンプルの総数正のサンプルは正しい数値を予測します=TP _+FN _TP _
  • 特異性(特異性)、真陰性率(TFR)とも呼ばれます
    TFR = 陰性サンプルの予測された正しい数 陰性サンプルの合計 = TNTN + FP \begin{aligned} TFR = &\frac{陰性サンプルの予測された正しい数}{陰性サンプルの合計数} = \frac{TN}{TN + FP}\\ \end{整列}TFR _ _=ネガティブサンプルの総数負のサンプルは正しい数値を予測します=TN _+F PTN _
  • 偽陽性率 (FPR)
    FPR = 陰性予測エラーの数 陰性サンプルの合計 = FPTN + FP \begin{aligned} FPR = &\frac{陰性予測誤差}{陰性サンプルの合計} = \frac{FP}{TN + FP }\\ \end{整列}FPR _ _=ネガティブサンプルの総数負のサンプル予測エラーの数=TN _+F PFP _
  • 偽陰性率 (FNR)
    FNR = 陽性サンプルの予測エラー数 陽性サンプルの総数 = FPFP + TN \begin{aligned} FNR = &\frac{陽性サンプルの予測エラー数}{陽性サンプルの総数} = \ frac{FP}{FP + TN}\\ \end{整列}FNR _ _=陽性サンプルの総数正のサンプル予測エラーの数=F P+TN _FP _

これらの定義から、感度は陽性サンプルの再現率、特異度は陰性サンプルの再現率、偽陰性率と偽陽性率はそれぞれ 1 - TPR と 1 - TNR に等しいことがわかります。これらはすべて 1 つのカテゴリ (正または負のサンプル) の予測結果に関するものであるため、サンプル全体のバランスがとれているかどうかには影響を受けませんアンバランスなサンプルを例に挙げて説明します。サンプル全体の 90% がポジティブ サンプル、10% がネガティブ サンプルであると仮定します。この場合、精度率を評価に使用するのは非科学的ですが、TPR と TNR を使用することは可能です。TPR は、90% の陽性サンプルのうち何個が正確に予測されるか、また 90% の陽性サンプルのうち何個が正しく予測されるかのみに注目するためです。 10% の陰性サンプルは正しく予測されますか? サンプルはそれとは何の関係もありません。同様に、FPR では、10% の陰性サンプルのうち何個が間違って予測されるかのみに注目し、90% の陽性サンプルとは何の関係もありません。これにより、サンプルの不均衡の問題が回避されます。
図に示すように、ROC 曲線の 2 つの主要な指標はTPRFPRです。PR 曲線と同様に、ROC 曲線も異なるしきい値の下でTPRFPRによって描画されますが、PR 曲線の水平座標と垂直座標は精度と再現率: しきい値が異なると変化しますが、ROC はTPRFPRを選択するため、曲線の形状は選択の影響を受けません。つまり、しきい値は ROC 曲線を使用するモデルのパフォーマンスに影響を与えません。さらに、ROC はカテゴリの不均衡の影響を受けず、陽性サンプルと陰性サンプルの分布や割合がどのように変化しても、ROC 曲線は変化しないことが実験によって確認されています。
ここに画像の説明を挿入

  • AUC (Area Under Curve)
    AUC (Area Under Curve) は、ROC 曲線と TPR と FPR の 2 つの座標軸で囲まれた領域のサイズである線の下の面積です。このうち、TPR が縦軸、FPR が横軸であるのは、TPR が陽性サンプルの総数に占める正しい陽性サンプル数の割合であるため、数値が高いほど優れていることを期待しており、FPR が優れていることを強く望んでいます。陰性サンプルの総数のうち、誤って予測された陰性サンプルの数の割合。これはできるだけ低くする必要があるため、ROC 曲線が急勾配であるほど、パフォーマンスが向上すると推測できます。モデルが大きいほど、AUC は大きくなります。
    モデルが完璧な場合、その AUC = 1 は、すべての肯定的な例が否定的な例の前にランク付けされることを証明します。モデルが単純な 2 クラスのランダム推測モデルの場合、そのモデルが 1 つのモデルよりも優れている場合、AUC = 0.5 になります。もう一方の場合、曲線の下の面積は比較的大きく、対応する AUC 値も大きくなります。

  • 混同マトリックス

混同行列は、モデルの予測分類の結果を直感的に反映することができ、その名前が示すように、モデルの予測分類の混乱の度合いを反映します。行列のi行目、j列目は、iカテゴリとしてラベル付けされたサンプルのうち、 jカテゴリに分類されるサンプルの数を表します。対角線は、すべての予測に対する正しいサンプルの数ですディープラーニングの画像分類タスクにおいて、混同行列はカテゴリごとのモデルの判断能力や学習効果を反映する比較的一般的な評価指標です。

要約する

この記事では、精度 (Accuracy)、精度 (Precision)、再現率 (Recall)、PR 曲線、ROC 曲線、AUC、混同行列など、機械学習の分野でモデル評価によく使用される指標を紹介します。特定の使用プロセスでは、独自のビジネス シナリオとタスク、および評価のためにその分野で主流の指標を組み合わせることができます。必要なときにこの記事が役に立てば幸いですし、私自身も見直すことができて、皆さんと一緒に前進できるのはとても嬉しいことです。ご質問やコメントがございましたら、コメント エリアでのやり取りを歓迎します。記事が役に立った場合は、離れる前に「いいね!」を忘れずに残してください。機械学習に取り組んでいる友人の場合は、ブックマークしてください。あなたはいつもそれを使います。

おすすめ

転載: blog.csdn.net/Just_do_myself/article/details/118631495