目次
1. 定義
評価指数は、モデルの性能を定量的に表す指標です。1 つの評価指標は、モデルのパフォーマンスの一部しか反映できません. 選択した評価指標が不当である場合、誤った結論が導き出される可能性があります. したがって、特定のデータおよびモデルに対して異なる評価指標を選択する必要があります.
学習課題の種類ごとに評価指標が異なりますが、ここでは最も一般的な分類アルゴリズムの評価指標をいくつか紹介します。一般的に使用される分類タスク評価指標には、精度、精度、再現率、マクロ F1、マイクロ F1、PR 曲線 (精度再現率曲線)、ROC、AUC、MCC、コーエンのカッパなどがあります。
2.混同行列
混同行列(混同行列) は、分類問題を評価するために一般的に使用されるツールです. k-ary 分類の場合、実際には、分類器の予測結果を記録するために使用される kxk テーブルです。たとえば、一般的なバイナリ分類の場合、その混同行列は 2 x 2 です。
二項分類では、サンプルは、実際の結果とモデルの予測結果 (偽陰性、FN)。TP、TN、FP、および FN に従って、下の図に示すように、2 つの分類の混同行列を取得できます。
注:
最初の文字は、実際の値と予測値の除算が正しいかどうかを示し、T は判定が正しいことを示し、F は判定が間違っている (False) ことを示します。
2文字目は分類器の判定結果(予測結果)を表し、Pは肯定判定、Nは否定判定を表します
3. 分類アルゴリズムの評価指標
1. 精度
正解率は、サンプルの総数に対する正しく分類されたサンプルの割合を表します。精度は、すべてのサンプルの統計です。次のように定義されています。
正解率はモデルのパフォーマンスを明確に判断できますが、重大な欠陥があります。正と負のサンプルのバランスが取れていない場合、割合の大きいカテゴリが精度に影響を与える最も重要な要因になることが多く、このときの精度に影響を与えます。時間はあまり良くありません. モデルの全体的な状況をよく反映しています.
たとえば、テスト セットには 99 個の陽性サンプルと 1 個の陰性サンプルがあります。モデルはすべてのサンプルを陽性サンプルとして予測するため、モデルの精度は 99% です. 評価指標を見ると、モデルの効果は非常に優れていますが、実際にはモデルには予測能力がありません.
2.精度
適合率 は、適合率とも呼ばれ、予測結果の評価指標です。分類器が陽性と判定したサンプル数に対する、正しく分類された陽性サンプル数の比率を指します。正解率は、分類器が陽性と判断したデータの統計に着目した、一部のサンプルの統計です。次のように定義されています。
マルチラベル:
3.リコール率(リコール)
再現率とは、正しく分類された陽性サンプルの数と真の陽性サンプルの数の比率を指します。再現率は、実際の陽性サンプルの統計に焦点を当てた、一部のサンプルの統計でもあります。次のように定義されています。
マルチラベル:
精度と再現率のトレードオフ
精度が高いということは、 サンプルが「より信頼できる」場合 、分類器はそのサンプルを陽性サンプルとして予測しようとする必要があることを意味します。これは、精度がネガティブ サンプルを区別するモデルの能力を十分に反映できることを意味します。陰性サンプルを区別するモデルの能力を強化します。
再現率が高いということは、分類器がポジティブ サンプルである可能性が高いサンプルを可能な限りポジティブ サンプルとして予測することを意味し、再現率はポジティブ サンプルを識別するモデルの能力を十分に反映できることを意味します。です。
上記の分析から, 適合率と再現率にはトレードオフの関係があることがわかります. 分類器が確率の高いサンプルのみを陽性サンプルとして予測すると, 比較的可能性は低いが満足できるサンプルを多く見逃すことになります.陽性サンプル、結果として再現率が低下します。
では、異なるモデルの再現率と精度に独自の利点がある場合、どのようにモデルを選択すればよいでしょうか? このとき、F1スコアで比較できます。
4.F1スコア(F1スコア)
F1 スコアは、精度率と再現率の調和平均です. 分類モデルの精度率と再現率の両方が考慮されます. 二項分類 (または複数の分類) の精度を測定するために統計で使用される指標です. -タスクバイナリ分類) モデル。最大値は 1、最小値は 0 です。値が大きいほど、より良いモデルを意味します。次のように定義されています。
Fベータスコア
より一般的な Fβ は、その物理的な意味は、精度と再現率の 2 つのスコアを 1 つのスコアに結合することです. マージの過程で、再現率の重みは精度の β 倍になります. Fβ スコアを次のように定義します。
β は、実質的に Recall と Precision の重みの比率であり、β=2 の場合、F2 は Recall の重みが Precision の重みよりも高く、その影響が大きいことを示し、β=0.5 の場合、F0.5 は Recall の重みが大きいことを示します。精度よりも低く、影響が少ないことに対応します。
マクロ平均 F1 スコア (マクロ F1)
マクロ平均 F1 アルゴリズムが適合率と再現率を計算する場合、最初に各カテゴリの適合率と再現率を個別に計算し、次にそれらを平均します。
マクロ平均 F1 スコアの式は次のとおりです。
注: マクロ F1 は基本的に、統計指標のすべてのカテゴリの算術平均によって得られます。このような単純な平均では、サンプルの分布における大きな不均衡の可能性が無視されます。
マイクロ平均 F1 スコア (マイクロ F1)
マイクロ平均 F1 アルゴリズムは、Precision と Recall を計算するときに、計算のためにすべてのクラスを直接まとめます。
マイクロ平均 F1 スコアの式は次のとおりです。
マクロとミクロの違い
ミクロと比較して、小さなカテゴリがより大きな役割を果たします。たとえば、次のような 4 つのカテゴリの問題の場合:
- クラスA: 1 TP、1 FP
- クラスB: 10 TP 、 90 FP
- クラスC: 1 TP、1 FP
- クラスD: 1 TP、1 FP
次に、Precision の計算は次のようになります。
マクロの場合、小さなカテゴリが精度の値を大幅に増加させることがわかりますが、実際の環境では実際のサンプルの分布とトレーニング サンプルの分布が同じであることを考えると、実際にはそれほど多くのサンプルが正しく分類されていません。この場合、この種の指標は明らかに問題があり、小さなカテゴリの影響が大きすぎるため、大きなサンプルの分類は良くありません。 マイクロに関しては、サンプルの偏りの問題を考慮しているため、この場合は比較的優れています。
次のように要約します。
- カテゴリがよりバランスが取れている場合は、ミクロまたはマクロを使用してください。
- 大きなサンプルのカテゴリがより重要な位置を占めるべきだと思う場合は、Micro を使用してください。
- 小さなサンプルも重要な位置を占めるべきだと思う場合は、マクロを使用してください。
- Micro << Macro の場合、大きなサンプル カテゴリに重大な分類エラーがあることを意味します。
- Macro << Micro の場合は、少数ショット カテゴリで深刻な誤分類が発生していることを意味します。
加重 F1 スコア (加重 F1)
マクロがサンプルバランスを測定できないという問題を解決するには、重み付けされたマクロを探すのが良い方法で、重み付けされた F1 が表示されます。
加重 F1 アルゴリズムはマクロ アルゴリズムの改良版です. マクロでサンプルの不均衡が考慮されない理由を解決するためです. 精度と再現率を計算するとき, 各カテゴリの精度と再現率に次の比率を掛ける必要があります.検索する合計サンプルのカテゴリ。
重み付けされた F1 スコアの式は次のとおりです。
5.マシューズ相関係数(マシューズ相関係数)-MCC
MCC は主にバイナリ分類問題の測定に使用されます. TP, TN, FP, FN を総合的に考慮します. 比較的バランスのとれた指標であり, サンプルがバランスしていない場合にも使用できます.
MCC の値の範囲は [-1, 1] で、値 1 は予測が実際の結果と完全に一致していることを意味し、値 0 は予測結果がランダム予測結果ほど良くないことを意味し、- 1 は、予測結果が実際の結果と完全に一致しないことを意味します。
したがって、MCC は本質的に、予測された結果と実際の結果の間の相関係数を表していることがわかります。
マシューズの相関係数式は次のとおりです。
6. コーエンのκ統計係数
Cohen のカッパ係数は、評価者間信頼性の統計的尺度です。統計では、評価者間の信頼性、評価者間の合意、または合意は、評価者間の合意の程度です。評価者によって与えられた評価にどの程度の均一性またはコンセンサスがあるかを示すスコアを提供します。
MCC は[-1, 1]の範囲の値を取り 、この関数は Cohen のカッパを計算します。これは、分類問題に関する 2 人の評価者間の一致度を示すスコアです。それは次のように定義されます
コーエンのカッパ係数分析を使用するには、次の 5 つの条件を満たす必要があります。
- 決定結果はカテゴリ変数であり、相互に排他的です。
- 異なる観察者によって判断されるオブジェクトは同じです。
- 観測対象ごとに判定できる結果の種類は同じです。
- オブザーバーは互いに干渉しません。
- すべての判断は、固定された観察者によって行われます。
コーエンのカッパ係数は、直接計算された一致率と比較して、偶然の一致率が結果に与える影響を考慮に入れています。
Cohen のカッパ係数 < 0 の場合、観測一致率が偶然一致率よりも小さいことを意味し、実際の研究ではめったに発生しません。
Cohen のカッパ係数 = 0 の場合、結果が完全に偶然の要因によって引き起こされたことを意味します。
コーエンのカッパ係数が 0 より大きい場合、研究対象間に一定の整合性があることを意味し、コーエンのカッパ係数が 1 に近いほど整合性が高いことを意味します。
コーエンのカッパ係数の一貫性の意味は次のとおりです。
参考内容:
sklearn.metrics.cohen_kappa_score — scikit-learn 1.2.2 文档
評価者間協定 Kappas | Amir Ziai | データ科学に向けて (towardsdatascience.com)
SPSS アプリケーション|(14) Cohen のカッパ係数分析 (qq.com)
7. ROC 曲線
分類タスクでは, テストサンプルは通常, 現在のサンプルが正の例の確率に属することを示す確率を取得します. 私たちはしばしば,しきい値よりも大きいしきい値を正の例としてとり, しきい値よりも小さいものを否定的な例。このしきい値を下げると、より多くのサンプルが陽性クラスとして識別され、陽性クラスの認識率が増加しますが、同時に陰性クラスの認識率が低下します。
上記の変化を生き生きと説明するために、ROC曲線を導入して分類器の品質を評価します。ROC曲線はモデルを総合的に評価する指標でもあり、中国名は「受信者動作特性曲線」です。ROC 曲線は軍事分野で生まれ、医療分野で広く使用され、「Receiver Operating Characteristic Curve」という名前も医療分野に由来しています。
ROC曲線の横軸は偽陽性率(False Positive Rate, FPR)、つまり、医学的に誤診率と呼ばれる陰性症例を陽性症例と誤分類する確率で、縦軸は真陽性率です。 (True Positive Rate、TPR)、これは正のペアリングの確率です。
横座標:
Y 軸:
ROC 曲線では、異なるしきい値を設定すると TPR と FPR が異なり、しきい値が徐々に減少するにつれて、ますます多くのインスタンスがポジティブ クラスに分類されますが、これらのポジティブ クラスはネガティブ クラスと混合されます。つまり、TPR と FPR は増加します。同時に。
- しきい値が最大の場合、すべての正のサンプルは負のサンプルであると予測され、すべての負のサンプルも負のサンプルであると予測されます。つまり、分子はすべて 0 であるため、FPR = 0、TPR = 0 であり、対応 する座標点は (0,0) です。
- しきい値が最小の場合、すべてのネガティブ サンプルはポジティブ サンプルであると予測され、すべてのポジティブ サンプルもポジティブ サンプルであると予測されます。つまり、座標点 (1,1) に対応する FPR = 1、TPR = 1 です。 .
- また、FPR = 0、TPR = 1 が最適な分類点である場合、分類子に対応する ROC 曲線は、座標軸の左上隅にできるだけ近くする必要があり、対角線の位置は、分類子は、ランダムな推測と同じくらい貧弱です。
テスト セット内のサンプルの分布が変化しても、ROC 曲線は変化しないことがあります。 しかし残念なことに、多くの場合、ROC 曲線はどちらの分類器が優れているかを明確に示すものではなく、AUC は分類器を直感的に評価することしかできません。
AUC-ROC曲線下面積(曲線下面積)
AUC は ROC 曲線の下の領域です. この領域の値は 0 から 1 の間であり, 分類器の品質を直感的に評価できます. AUC の値が大きいほど, 分類器の効果が高くなります.
- AUC = 1: このモデルを使用する完全な分類器は、どのようなしきい値が設定されていても、完全な予測を得ることができます (ほとんどの場合、存在しません)。
- 0.5 < AUC < 1: ランダムな推測よりも優れています。分類器が適切にしきい値を設定すると、予測値が得られます
- AUC = 0.5: ランダムな推測のように、モデルには予測値がありません
- AUC < 0.5 : ランダムな推測よりも悪いが、逆方向に予測した場合はランダムな推測よりも優れています。
次の図に示すように、2 つのモデルの AUC が等しいからといって、モデルが同じ効果を持つわけではないことに注意してください。
実際のシナリオでは、AUC は非常に一般的に使用される指標です。
注: マルチ分類シナリオの ROC 曲線と AUC 値。この時点で複数の ROC 曲線が存在する必要があり、
AUC の計算は次のようになります: $$AUC=\frac2}{C|(|C|-1)\ sum_i=1 }^{C|{AUC_i}$$、ここで C はカテゴリの数を表します。
8.PR曲線
分類モデルの最終的な出力は確率値であることが多く、確率値を特定のカテゴリに変換する必要があることがわかっています.二項分類では、しきい値(threshold)を設定し、それをポジティブと判断します.このしきい値より大きい場合はクラス、それ以外の場合は負のクラス。
上記の評価指標 (Accuracy、Precision、Recall) はすべて特定のしきい値に対するものであるため、異なるモデルが異なるしきい値を取る場合、異なるモデルを総合的に評価するにはどうすればよいでしょうか? PR 曲線は、適合率と再現率の変化を表す曲線です。
すべての陽性サンプルについて、PR 曲線を描く方法は?
異なるしきい値を設定すると、モデルはすべての陽性サンプルを予測し、対応する適合率と再現率を計算します。以下のように、横軸が再現率、縦軸が正解率です。
上の画像では、次のことがわかります。
- 2 つの異なる分類器の場合、A は C を完全にカバーします。つまり、A の精度と再現率は C よりも高く、A は C よりも優れています。A と B を比較すると、両者の間にクロスオーバーがあります.このとき、曲線の下の面積を使用してパフォーマンスを測定します.面積が大きいほど、パフォーマンスが優れています.ここでは、A は B よりも優れています.
- 同じ分類器の場合、精度と再現率のトレードオフで、曲線が右上隅に近いほどパフォーマンスが高くなります.曲線の下の領域は AP スコアと呼ばれます.モデルのある程度の比率で ただし、この値は計算が不便で、精度や再現率を考慮すると、一般的には F1 値または AUC 値が使用されます (ROC 曲線が描きやすく、ROC 曲線の下の面積が比較的計算しやすいため)。
9. ログの損失
対数損失 (ロジスティック損失) は、予測される確率の尤度推定であり、その標準形式は次のとおりです。
LogLoss は、予測された確率分布と実際の確率分布の差を測定し、値が小さいほど優れています。AUC とは異なり、LogLoss は予測確率に敏感です。
対数損失に対応するバイナリ分類の計算式は次のとおりです。
、ここで、N はサンプル数です。
、pi は、i 番目のサンプルが 1 であると予測される確率です。対数損失も多分類問題で広く使用されており、その計算式は次のとおりです。
このうち、N はサンプル数、C はカテゴリ数、yij は i 番目のサンプルのカテゴリ j の分類ラベル、i 番目のサンプルのカテゴリの確率を表します。pij は、i 番目のサンプルのカテゴリ j の確率です。
LogLoss と AUC の違い
- LogLossは主に正確かどうかを評価するもので、AUCは陽性サンプルを上位にランク付けする能力を評価するもので、評価面が異なります。
- LogLoss は主に全体的な精度を評価し、主にデータ バランスの場合に使用されます。AUC は、データが不均衡な場合にモデルの精度を評価するために使用されます。
- バランスのとれた分類の問題であれば、AUC と LogLoss の両方に問題はありません。
要約する
以上の評価指標を比較すると、以下のようにまとめられる。
- 精度とは、システムによって実際に真であると判断されたすべての「真の」サンプルの割合を指します。
- 再現率 (Recall) は、実際に真であるすべてのサンプルのうちの「真」の割合を指します。
- F1値は、適合率と再現率を総合的に考える指標です。
- MCC は、予測結果と実際の結果の間の相関係数を表します。
- TPR (True Positive Rate) の定義は Recall と同じです。
- 誤診率とも呼ばれる FPR (False Positive Rate) は、実際に「偽」であるすべてのサンプルの中で偽陽性のサンプルです。
- ROC 曲線は TPR と FPR の曲線を示し、対応するPR 曲線は Precision と Recall の曲線を示します。
- AUC は ROC 曲線の下の領域です. この領域の値は 0 から 1 の間であり, 分類器の品質を直感的に評価できます. AUC の値が大きいほど, 分類器の効果が高くなります.
- 対数損失は、予測確率の尤度推定値であり、予測確率分布と実際の確率分布の差を測定します。
最終的な分類指数の選択については、さまざまなデータ セット、さまざまなシナリオ、さまざまな時期にさまざまな選択肢があります。二項分類問題では通常 AUC が使用され、多分類問題では通常 F1 値が使用されます。
参考: