分類モデルの評価 - 混同マトリックスと評価指標

設計された分類モデルのパフォーマンスを評価するには多数のデータ セットが必要となるため、評価指標を理解することが非常に重要です。

分類モデルを評価するための具体的なプロセス:
画像の説明を追加してください

1 および 2 分類混同行列 混同行列

厳密に言えば、二値分類問題にはラベルはなく、正例と反例のみがあります。2 分類問題の混同行列は次のとおりです。
画像の説明を追加してください

評価指数算出式:

  • 精度 = TP + TNTP + TN + FP + FN 精度=\frac{TP+TN}{TP+TN+FP+FN}精度_ _ _ _ _=TP + TN + FP + FNTP + TN
  • 精度 = TPTP + FP 精度 =\frac{TP}{TP+FP}精度_ _ _ _ _ _=TP + FPTP
  • リコール = TPTP + FN リコール =\frac{TP}{TP+FN}全て記録する=TP + FNTP
  • F 1 − スコア = 2 1 精度 + 1 再現率 = 2 × 精度 × 再現率 精度 + 再現率 F1-Score=\frac{2}{\frac{1}{精度} + \frac{1 }{再現率}}=\frac{2 \times 精度 \times 再現率}{精度 + 再現率}Q1_ _Sコア=精度_ _ _ _ _ _1+全て記録する12=精度+再生_ _ _ _ _ _ _ _ _2 ×精度×再生_ _ _ _ _ _ _ _ _
  • 特異度 = TNFP + TN 特異度 =\frac{TN}{FP+TN}仕様_ _ _ _ _ _ _ _ _=FP + TNTN

犬と猫の 2 つのカテゴリの問題を例として、2 つのカテゴリの混同行列とその評価指標について説明します。 ![画像の説明を追加してください](
https://img-blog.csdnimg.cn/8be2f9fec8d243e58689e969bbb75876 .png#pic_center =500)

図に示すように、犬と猫の分類では、犬が正例として用いられ、犬(猫)は反例として用いられない。上が予測値、左が真値です。主対角線 (赤) は予測された正しい値、副対角線 (緑) は予測された不正確な値です。

猫と犬が次のように分類されているとします。
画像の説明を追加してください

で:

  • TP+FP TP+FPTP+FP はデータセット内の犬の数です。
  • FP+TN FP+TNFP+TN はデータセット内の猫の数です。
  • TP+TN TP+TNTP+TN はモデルの正しい分類の数です。

1.正解率

A 精度 = 正解分類数 全データ = TP + TNTP + TN + F + FN 精度 =\frac{正解分類数}{全データ}=\frac{TP+TN}{TP+TN+F{+FN }}精度_ _ _ _ _=すべてのデータ正しい分類の数=TP+テネシー州+F + FNTP+TN

つまり、
精度 = 45 + 35 45 + 35 + 5 + 35 = 0.8 精度=\frac{45 + 35}{45 + 35 + 5 + 35} = 0.8精度_ _ _ _ _=45+35+5+3545+35=0.8

2. 精度率

犬として予測されたデータのうち、本物の犬であると
予測されるデータの数 精度 = TP 予測された犬の数 = TPTP + FP 精度=\frac{TP}{予測された犬の数}=\frac{TP}{TP+FP}精度_ _ _ _ _ _=犬の予測頭数TP=TP+FPTP
つまり、
精度 = 45 45 + 15 = 0.75 精度=\frac{45}{45 + 15} = 0.75精度_ _ _ _ _ _=45+1545=0.75

3. 再現率、再現率、感度

データ内で検出された犬の本当の数は何ですか
? 再現率 = TP 本物の犬の数 = TPTP + FN 再現率=\frac{TP}{本物の犬の数}=\frac{TP}{TP+FN }全て記録する=実際の犬の数TP=TP+FNTP
つまり、
Recall = 45 45 + 5 = 0.9 Recall=\frac{45}{45 + 5} = 0.9全て記録する=45+545=0.9

4、F1スコア

F1 スコアは精度と再現率の調和平均であり、分類子の精度と再現率を包括的に反映します。つまり、Precisino プレシシーノだけです正確リコールリコール_ _ __Rec allは高いです、 F1-Score は高くありません。(並列した 2 つの抵抗、1 つは高抵抗、もう 1 つは低抵抗と比較できますが、結果は依然として低いです)
F 1 − S core = 2 1 P recision + 1 Recall = 2 × Precision × Recall精度 + 再現率 F1- スコア=\frac{2}{\frac{1}{精度} + \frac{1}{再現率}}=\frac{2 \times 精度 \times 再現率}{精度 + 再現率}Q1_ _Sコア=精度_ _ _ _ _ _1+全て記録する12=精度_ _ _ _ _ _+全て記録する2×精度_ _ _ _ _ _×すべて記録_
つまり、
F 1 − S core = 2 × 0.75 × 0.9 0.75 + 0.9 = 0.82 F1-Score=\frac{2 \times 0.75 \times 0.9}{0.75 + 0.9}=0.82Q1_ _Sコア=0.75+0.92×0.75×0.9=0.82

5. 特異性

真の猫 (陰性例) のうち何匹が選択されるか
特異度 = TN 真の猫の数 = TNFP + TN 特異度=\frac{TN}{真の猫の数}=\frac{TN}{FP+TN}仕様_ _ _ _ _ _ _ _ _=猫の本当の数TN=FP+テネシー州TN
つまり、
特異度 = 35 15 + 35 = 0.7 特異度 =\frac{35}{15 + 35} = 0.7仕様_ _ _ _ _ _ _ _ _=15+3535=0.7

2. マルチクラス混同行列 マルチクラス分類器

マルチクラス混同行列は、適合率、再現率などを計算する際にクラスごとに個別に計算する必要がある点を除いて、2 クラス分類と非常に似ています。

例えば:

画像の説明を追加してください

  • 精度 = 15 + 12 + 22 15 + 2 + 3 + 6 + 12 + 4 + 22 = 0.7656 精度=\frac{15+12+22}{15+2+3+6+12+4+22}= 0.7656精度_ _ _ _ _=15 + 2 + 3 + 6 + 12 + 4 + 2215 + 12 + 22=0.7656

  • 自転車: P 精度 = 15 15 + 6 = 0.71 精度=\frac{15}{15 + 6}=0.71精度_ _ _ _ _ _=15 + 615=0.71リアコール = 15 15 + 2 + 3 = 0.75 リアコール=\frac{15}{15 + 2 + 3}=0.75もう一度連絡ください_=15 + 2 + 315=0.75

  • オートバイ: P 精度 = 12 2 + 12 + 4 = 0.66 精度=\frac{12}{2 + 12 + 4}=0.66精度_ _ _ _ _ _=2 + 12 + 412=0.66Reacall = 12 12 + 6 = 0.66 Reacall=\frac{12}{12 + 6}=0.66もう一度連絡ください_=12 + 612=0.66

  • 車: P 精度 = 22 22 + 3 = 0.88 精度 =\frac{22}{22 + 3}=0.88精度_ _ _ _ _ _=22 + 322=0.88Reacall = 22 22 + 4 = 0.85 Reacall=\frac{22}{22 + 4}=0.85もう一度連絡ください_=22 + 422=0.85

  • 平均:精度 = 0.71 + 0.66 + 0.88 3 = 0.75 精度=\frac{0.71+0.66+0.88}{3}=0.75精度_ _ _ _ _ _=30.71 + 0.66 + 0.88=0.75再現率 = 0.75 + 0.66 + 0.85 3 = 0.75 再現率=\frac{0.75+0.66+0.85}{3}=0.75全て記録する=30.75 + 0.66 + 0.85=0.75

  • F1 スコア: F 1 − S core = 2 × 精度 × 再現率 精度 × 再現率 = 2 × 0.75 × 0.75 0.75 + 0.75 = 0.75 F1-Score=\frac{2 \times 精度 \times 再現率}{精度 \回再現率} = \frac{2 \times 0.75 \times 0.75}{0.75 + 0.75}=0.75Q1_ _Sコア=精度×回収_ _ _ _ _ _ _ _ _2 ×精度×記録_ _ _ _ _ _ _=0.75 + 0.752 × 0.75 × 0.75=0.75

    マルチクラス F1 スコアは、各カテゴリの F1 スコアの平均値です。

マルチクラス混同行列では、図に示すように、ヒート マップの形式がより一般的です。

画像の説明を追加してください

3. ROCカーブ(受信機動作特性曲線) 受信機動作特性曲線

FPR (偽陽性率): FPR = FPFP + TN FPR=\frac{FP}{FP+TN}FPR=FP + TNFP、つまり、ポジティブ クラスに分割されるネガティブ クラス データの割合

TPR (真のクラスレート): TPR = TPTP + FN TPR=\frac{TP}{TP+FN}TPR=TP + FNTP、つまり、ポジティブ クラスに分類されるポジティブ クラス データの割合

1. ROC曲線を直感的に理解する

ROC 曲線は、第二次世界大戦中のレーダー兵士によるレーダー信号の判断に由来します。レーダー兵士の任務はレーダー信号を分析することですが、レーダー信号にはノイズ(大きな鳥など)が含まれているため、レーダー画面に信号が現れるたびにレーダー兵士はそれを判断する必要があります。レーダー兵士の中には、より慎重で (しきい値が低く)、すべての信号を敵機と判断する人もいれば、より楽観的で (しきい値が高く)、すべての信号を大きな鳥だと判断する兵士もいます。レーダー兵の1日の判定結果は以下の通りです。

画像の説明を追加してください

現時点では:

  • TPR = TPTP + FN = 1 TPR=\frac{TP}{TP + FN} = 1TPR=TP + FNTP=1
  • FPR = FPFP + TN = 0.5 FPR=\frac{FP}{FP+TN}=0.5FPR=FP + TNFP=0.5

システムに関しては、TPR ができるだけ高いことが望まれます。これにより、すべての敵航空機を検出できるからです。同時に、誤った判断を減らすことができるため、FPR ができるだけ低いことを望みます。つまり、理想的にはTPR = 1 TPR=1TPR=1FPR=0 FPR=0FPR=0ただし、一般的なシステムでは、両方を持つことはできません。兵士のしきい値を下げると、理想的にはすべての敵航空機が判定されますが、一部の鳥は必然的に敵航空機として判定され、 TPR TPRにつながります。高いTPRと FPR FPR をFPRも高く、それに応じて兵士の閾値を上げると理想的には全ての飛ぶ鳥が敵機と判定されなくなるが、必然的に一部の敵機が飛ぶ鳥と判定されることになる(自軍兵士に多大なダメージを与えることになる) ) )、結果としてFPR FPR が発生しますTPR FPRが低いTPRも低いです。したがって、一般に ROC 曲線は比例増加関数となり、y = xy=xy=Xカーブの上

2. ROC曲線の描画原理


この画像は http://www.navan.name/roc/ に描画されており、リアルタイムで動的に操作できます。閲覧しながらROCカーブの設定を変更することができ、理解を深めることができます。

上の図では、青の曲線は負の例を表し、赤は正の例を表し、黒い太い垂直線はしきい値を表します。

左上と右上は兵士の視点(閾値)であり、この時点でレーダー(分類器)の性能が決まります。つまり、ROC 曲線は確実であり、閾値を変更しても ROC 曲線上の赤色の座標点が変化するだけです。

左上の図に示すように、しきい値の選択が低すぎる場合、すべての正の例が正の例として判断されます ( TPR = 1 TPR=1TPR=1 ) ですが、ネガティブな例のほとんどはポジティブな例としても判断されます (FPR FPRFPRは 1) に近く、このとき ROC 曲線の座標点は右上隅にあります。

右の図に示すように、しきい値が高すぎると、すべての負の例が負の例として判断されます ( FPR = 0 FPR=0FPR=0 ) ですが、正の例のほとんどは負の例として判断されます (TPR TPRTPRは 0 に近く、ROC 曲線の座標点は左下隅にあります。

しきい値が正の例と負の例の間で選択された場合、TPR TPRTPR値が比較的高く、FPR FPRFPR値は比較的低く、比較的理想的な状態です。

左下と右下はレーダー(分類器)から見たものです。

以下の左側の図に示すように、分類器のパフォーマンスが不十分な場合、正の例と負の例が互いに含まれ、ROC 曲線はy = xy=xに近づきます。y=x関数 (つまり、FPR がどのくらい増加し、TPR がどのくらい減少するか)。

下の右の図に示されているように、分類器のパフォーマンスが非常に優れている場合、正の例と負の例が大きく「分離」され、ROC 曲線は直角に近づきます。理想的には、正例と負例が完全に分離されており、閾値を適切に選択すれば、TPR=1 TPR=1が実現されます。TPR=1FPR=0 FPR=0FPR=0は ROC 曲線の長方形の左上隅です。

3. AUC曲線

AUC (Area Under Curve) は ROC 曲線の下の面積です。明らかにこの面積は 1 未満であり、ROC 曲線は通常 y=x 線よりも上にあるため、AUC は通常 0.5 ~ 1 の間になります。AUC 値は、ROC 曲線よりも分類器のパフォーマンスをより適切に定量化できます。

AUC の意味は、陽性サンプルと陰性サンプルがランダムに選択された場合、現在の分類子によって計算されたスコアに基づいて陽性サンプルが陰性サンプルの前にランクされる確率です。

AUCから分類器(予測モデル)の品質を判断する基準:

  • AUC = 1 は完全な分類子です。この予測モデルを使用する場合、完全な予測を生成できるしきい値が少なくとも 1 つあります。ほとんどの予測状況では、完璧な分類子は存在しません。
  • 0.5 < AUC < 1、ランダムな推測よりも優れています。しきい値が適切に設定されていれば、この分類子 (モデル) は予測値を持つことができます。
  • AUC = 0.5、これはランダムな推測(例: 銅貨を失う)と同じであり、モデルには予測値がありません。
  • AUC < 0.5 は、ランダムな推測よりも劣りますが、常に予測に反する限り、ランダムな推測よりも優れています。

4. ROC曲線のメリット

ROC 曲線は、陽性サンプルと陰性サンプルの不均衡にうまく対処できます。

ROC 曲線には非常に優れた特性があります。テスト セット内の陽性サンプルと陰性サンプルの分布が変化しても、ROC 曲線は変化しないままです。実際のデータ セットでは、クラスの不均衡が頻繁に発生します。つまり、正のサンプルよりも負のサンプルの方がはるかに多く (またはその逆)、テスト データ内の正のサンプルと負のサンプルの分布も時間の経過とともに変化する可能性があります。

なぜなら、ROC曲線の計算式では、TPR TPRTPRは正の例に対してのみ計算されます。FPRFPRFPRは負の例に対してのみ計算されます。したがって、陽性サンプルと陰性サンプルの比率がアンバランスになったり、時間の経過とともに陽性サンプルと陰性サンプルの比率が変化したりしても、ROC 曲線は大きく変化しません。

精度精度精度再現再現_再現精度精度精度計算式正例と負例の両方を考慮する必要があり、正例と負例の割合が変わると値が大きく変化ます

4. 陽性サンプルと陰性サンプルのバランスが崩れている場合の分類指標

1. 正および負のサンプルバランスデータセット

S.NO. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
リアルラベル 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1
予測 - モデル 1 0.1 0.1 0.1 0.1 0.1 0.1 0.6 0.6 0.5 0.5 0.9 0.9 0.9 0.9 0.9
予測 - モデル 2 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.7 0.7 0.7 0.7 0.8 0.8 0.8
F1 閾値=0.5 F1 の最良のシナリオ ROC-AUC ログロス
モデル1 0.88 0.88 0.94 0.28
モデル2 0.67 1 1 0.6

クロスエントロピー損失の点では、M1 は M2 よりもはるかに優れています。M2 はデータを非常にうまく分類できますが、0.6 と 0 の間のギャップはまだ少し大きいです。このため、分類問題では回帰ではなくソフトマックスがよく使用されます。

2. 陽性サンプルよりも陰性サンプルの方がはるかに多い

S.NO. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
リアルラベル 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
予測 - モデル 1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.9
予測 - モデル 2 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.9 0.9 0.9
F1 閾値=0.5 ROC-AUC ログロス
モデル1 0.88 0.83 0.24
モデル2 0.96 0.96 0.24

このデータセットでは、モデル 1 はサンプル 14 を陰性 FN として分類し、モデル 2 はサンプル 13 を陽性 FP として分類します。陽性サンプルの数が少ない状況では、「群衆を追跡する」 (モデル 1) のではなく、すべての陽性サンプル (モデル 2) を検出することを望みます。したがって、モデル 2 はモデル 1 よりも優れています。これは F1 にあります。スコアとROC-AUCを反映できます。

3. 陽性サンプルの数は陰性サンプルの数よりもはるかに多くなります。

S.NO. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
リアルラベル 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1
予測 - モデル 1 0.1 0.1 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9
予測 - モデル 2 0.1 0.1 0.1 0.1 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9
F1 閾値=0.5 ROC-AUC ログロス
モデル1 0.963 0.83 0.24
モデル2 0.96 0.96 0.24

陽性サンプルの数が陰性サンプルの数よりもはるかに多い場合、陰性サンプルをできるだけ検出したいと考えます。現時点ではROC-AUCの方が適しています。

4. まとめ

  • 対数損失はサンプルがアンバランスな場合の分類評価指標には適していません
  • ROC-AUC は、陽性サンプルと陰性サンプルのバランスが崩れている場合の分類評価指標として使用できます。
  • 少数のケースを正確に予測したい場合は、評価指標として ROC-AUC を選択できます。

おすすめ

転載: blog.csdn.net/qq_44733706/article/details/130619062