【評価指標】感度・特異度・PPV・NPV等の指標の原理と算出方法

キーワード:
機械学習分類指標、臨床評価指標、精度/精度/リコール/F1、感度/特異度/ヨーデン指数、ROC/AUC

機械学習分類モデルでは、評価指標には通常、精度、適合率、再現率、および F1 値が使用されます。臨床実験では通常、感度、特異度、ヨーデン指数、PPV、NPV などの指標が使用されますが、これらの指標には相関関係があります。これらの指標について混乱している学生もいることから、この記事ではこれらの指標を順番に理解して説明します。以下の目的を達成するため。

  • 上記の指標を専門知識のない学生に平易な言葉で説明できる。
  • 臨床指標と分類モデル指標の関係を理解できる。
  • 関連ツールを使用して上記の指標を迅速に計算できるようになります。

1. 二項分類予測結果の混同行列

2x2 混同行列 (混同行列) を使用してモデルの予測結果を表します。行は実際のラベルを表し、列は予測されたラベルを表します。混同行列は、サンプルを次の 4 つのカテゴリに分類します。

  • TP (True Positive) 真の例: 実際に陽性であり、陽性であると予測されたサンプルの数。
  • TN (True Negative) True Negative : 実際に陰性であり、陰性であると予測されるサンプルの数。
  • FP (False Positive) False Positive : 実際には陰性であり、陽性であると予測されるサンプルの数。
  • FN (False Negative) False Negative : 実際には陽性であり、陰性であると予測されるサンプルの数。

記憶方法:最初の文字T/Fは予測を示し、2番目の文字P/Nは実際のラベルを示します

実績・予想 陽性予測 陰性と予測される 合計予測
実際に良い例 TP FN P
実はネガティブな例 FP テネシー州 N
実際の合計 TP+FN FP+TN P+N

2. ACC/P/R/F1/感度/特異度/ヨーデン指数などの指標の説明

索引 計算式 説明
精度ACC TP + TNTP + FP + FN + TN \frac{TP+TN}{TP+FP+FN+TN}TP + FP + FN + TNTP + TN サンプル全体のうち、正しく予測されたサンプルの割合
精度P TPTP + FP \frac{TP}{TP+FP}TP + FPTP 陽性サンプルでは正しい量の割合が予測されます
リコールR TPTP + FN \frac{TP}{TP+FN}TP + FNTP 実際に陽性であるサンプルのうち、陽性であると予測される割合
F1値 2 P × RP + R 2\frac{P\times R}{P+R}2P + RP × R 適合率と再現率の複合指標
感度 TPTP + FN \frac{TP}{TP+FN}TP + FNTP 実際に陽性例であるサンプルのうち、陽性例であると予測された割合がリコールされない場合、診断が見逃されたことを意味します
特異性 TNTN + FP \frac{TN}{TN+FP}TN + FPTN 実際に陰性例であるサンプルのうち、陰性例であると予測された割合がリコールされない場合は誤診を意味します
ようでんインデックス 感度 + 特異性 − 1 感度 + 特異性 -1感度_ _ _ _ _ _ _ _ _ _+仕様_ _ _ _ _ _ _ _1 感度と特異度の複合尺度
陽性的中率 (PPV) TPTP + FP \frac{TP}{TP+FP}TP + FPTP 「正診率」に相当し、検査で陽性となった人の割合が本当に陽性であり、誤った判断は偽陽性となる。
陰性的中率 (NPV) TNTN + FN \frac{TN}{TN+FN}TN + UNTN 検査結果が陰性だった人の割合は実際に陰性であり、偽陰性は誤って判断された
真陽性率 (TPR) TPTP + FN \frac{TP}{TP+FN}TP + FNTP 「感度」に相当し、実際に陽性サンプルであるサンプルのうち、陽性であると予測されるサンプルの割合。
誤検知率 (FPR) FPTN + FP \frac{FP}{TN+FP}TN + FPFP 1 − 1-1 -特異性、陽性と予測される実際には陰性サンプルであるサンプルの割合
AUC ROC 曲線の下の面積。ROC 曲線は、異なるしきい値の下での TPR と FPR で構成される曲線です。AUC は、陽性サンプルと陰性サンプルの比率には影響されません。これは、異なるしきい値の下でのモデルの全体的なパフォーマンスを反映します。

インデックス関係

1. 正例召回率Recall = 敏感性Sensitivity = 真正例率TPR
2. 精确率Precision = 阳性预测值PPV
3. 假正例FPR = 1 - 特异性Specificity
4. F1 = 1/P + 1/R = 2*P*R/(P+R)
5. 约登指数YoudenIndex =  敏感性Sensitivity + 特异性Specificity −1

機械学習では通常、「陽性例」の特定のみに注目します。対応する指標は適合率 P、再現率 R、総合指標 F1 値です。たとえば、リスク管理の分野では、陽性例はリスク物質です。 、負の事例は通常の材料である、正の事例が想起されなかった場合、より重大なリスク漏れをもたらす可能性があるため、R の要件は高くなる、負の事例の再現率(特異性)を考慮すると、金額は否定的な例の数が肯定的な例の数よりもはるかに多くなると、指標は当然高くなります。
医療分野では、陽性の場合を「陽性」、陰性の場合を「陰性」に相当し、感度とは陽性の再現率を示しPPV と NPV はそれぞれ陽性識別の正診率と陰性識別率を表し、PPV 識別誤差は偽陽性、つまり誤診を意味し、NPV 識別誤差は偽陰​​性、つまり診断を見落とすことを意味します。誤診は非常に深刻な出来事であるため、肯定的な認識効果と否定的な認識効果を反映するこれらの指標が一般的に使用されます。

3. 計算ツール

オープンソースのアドレス: https://github.com/donote/youden_index

具体的な使用方法については、デモを参照してください。

from youden import youden_index

# 生成随机标签和预测概率
np.random.seed(42)
y_true = np.random.randint(0, 2, size=50)
y_score = np.random.rand(50)
df, mj_val, mf1_val, auc = youden_index(y_true, y_score, pos_label=1, step=5)
print(df)    # df中保存了各个指标,具体参考github

実行結果は以下の通りです。

 Thr    ACC    PPV    NPV Sens(Rec/TPR)   Spec YoudenIdx     F1 TrueBen TrueMal PredBen PredMal      TP      FP      TN      FN
0.000  0.540  0.540  0.000         1.000  0.000     0.000  0.701  27.000  23.000  50.000   0.000  27.000  23.000   0.000   0.000
0.050  0.540  0.543  0.500         0.926  0.087     0.013  0.685  27.000  23.000  46.000   4.000  25.000  21.000   2.000   2.000
0.100  0.580  0.571  0.625         0.889  0.217     0.106  0.696  27.000  23.000  42.000   8.000  24.000  18.000   5.000   3.000

参考文献:
https://blog.csdn.net/xu624735206/article/details/121849981
https://mp.weixin.qq.com/s/qYS9wkWAV1jC47hQzZaXPA

AIガソリン スタンドへの同期更新

- - - - - - - - 終わり - - - - - - - -

おすすめ

転載: blog.csdn.net/iling5/article/details/130526176