バイナリ分類 - それらの事について話[思い出記事の評価]

分類の問題を解決するには、評価があまりにもあまりないを選択することができます。しかし、基本的な2は、2つのカテゴリに分類することができ、私たちが話しているチャンネルは本日述べました

  • 予測の閾値決意精度の確率の閾値に基づいて
  • (さまざまなしきい値で)全体的な性能評価を測定するためのモデル

前の指標は、すべての場合に最初に遭遇した分類問題は、単にオーバー行く予定です。36度北京でのクールなものの例を見てみましょう - 我々は雨が降る予想します!横軸は0-1からの予測確率で、赤い部分には雨の日(陰性試料)、雨の日(陽性試料)の青色の一部ではありません。我々はカードをしきい値かどうか、ミスがあるだろうどこ実際の状況では、完璧な分割分級正と負のサンプルを見つけることは困難であるので、我々は、中央部で見ることができ、偶然の確率を予測する上で、正と負のサンプルの存在、すなわち、サンプル予測。

上記4例配布、混同行列は、単純に要約することができます。

TP:正の予測&リアル正
FP:予測本当のポジティブ&ネガティブ
TN:&負の実負予想
FNを:真陽性と負を予測します

インデックスしきい値に基づいて、

分類モデルの出力は、各サンプルが正である確率は、我々が最初に0/1の確率予測に変換する必要があります。しきい値を考えると、我々は、しきい値サンプル予測を上回る確率が負より小さく、正の予測します。そして、confustion行列上記の4つのケースが内部に表示されます。どのようにして性能を評価するためにモデル化するのですか?

初心者の視点 - 精度!

これは、評価のほとんどの人は、全体的な分類精度を評価するために、正と負のサンプルのミックスであることを知って最初にする必要があります。

\ [精度= \ FRAC {TP + TN} {TP + TN + FN + FP} \]

〜とてもシンプルで素朴な - ベテランは、すべての予測精度率がマイナスであることを、あなたはポジティブサンプルのわずか1%であれば、あなたに伝え不均衡サンプル例内のすべてのチュートリアルを見ることができるでしょうとすると、99%もあります。 〜

精度は、もちろん使用することができないではなく、一緒に陽性サンプルの割合もまた、情報の一部を見て比較することができます。しかし、精度は確かに開くために、正と負のサンプル55のために、より適しており、正のサンプルより多くのための状況を予測します。

精度はトレードオフの異なる指標の間には、多くの場合があるので、あなたがたはすべての権利、実用上の問題を解決するには、彼らはより多くの方向性の指標を使用する傾向があるが、通常、選択された以上の2つの指標であると考えられて知っています

精度、リコール、F1 - 目標は、正確に陽性サンプルを予測することである場合には

精度予測の観点から精度の正の指標を予測し、真の分布の尺度の観点からリコールは、陽性予測精度です。精度と再現率のトレードオフ、あなたは衰退の正確性正見通しのリスクを負担しなければならない、より多くの陽性サンプルを選び出すしたいがあります。例えば、飛行機が安全保障を通じて、あなたは危険物は基本的に識別されていることを確認したい場合、それは確かに偽陽性の一定割合を負担する必要があります。しかし、この文脈で明らかに、より重要であるように、パッケージを開くために乗客が再びチェックしてみましょうよりも正義のない危険な項目の流産は認められませんでした。

\ [\開始{整列}精度&= \ FRAC {TP} {TP + FP}&= \ FRACリコール\\ {TP} {TP + FN} \端\ {整列}]

フロリダスコア-トレードオフがあるので、一般的に、複合2つの指標の指標と統合する
\ [=フロリダ\ FRAC 1} {{\ FRAC 1 {{}} +精密\ FRAC 1 {{}}} =リコール。 \ FRAC {精度*リコール} {精度+リコール} \]

実際には精度に直接、単純なポイント、リコール平均は、複合指標として用いることができるが、方法の逆を取ることによってF1は、第一、次いで0またはリコールそのような極端な状況が発生すると等しい精度を避けるために平均しました

感度(リコール)、特異性、FPR - 目標は正確に真の分布を予測することである場合には

感度、sepcifity両方実際の分布の観点から、それぞれ、陽性/陰性サンプル予測精度を測定します。最も一般的な医療検査とペア、実際の病気/病気の人の確率の尺度が適切にテストされていませんでした。適切に病気の人は非常に重要ですが、人の病気を排除する権利も非常に重要ではありませんテストします。

\ [\開始{整列}感度&=リコール\\特異性&= \ FRAC {TN} {TN + FP} \\ \端{整列} \]

多くの人々に非常に奇妙な特異性ならば、それはFPR人兄弟の多くを知っている必要があります。FPRとリコール(TPR)が一緒にROC曲線を形成します。この同じロジックのためのトレードオフは、医療検査は、医師が患者の状態(リコール)どちらを欠場することを説明するのか、あるいは自分自身の人に病気の病気(FPR)を怖がらせるためにしたくありませんでした。
\ [FPR = \ FRAC {FP } {TN + FP} = 1-特異性\]

そして、頻繁に使用される指標を関連付けられた閾値は、ほとんどこれらのです。これらの指標を算出する決意閾値に依存し、それはしばしば最大閾値のアプリケーションバリデーションセット来る大使F1 /精度で使用され、その後、テスト・セットに適用され、次いで試験は、モデルの性能を評価するために、F1 /精度を設定します。ここでは、インデックスkaggleゲームのいくつかのアプリケーションがあります

  1. F1スコア
    https://www.kaggle.com/c/quora-insincere-questions-classification/overview/evaluation
  2. 精度
    https://www.kaggle.com/c/titanic/overview/evaluation

しかし、モデルが決定された後に時々使用されるしきい値と関連した評価を開始します。モデルを決定する最初のステップは、多くの場合、まだいくつかの指標は、モデルの全体的なパフォーマンスを測定するために統合することができる必要があります。シンプル!失礼な!曲線全体のしきい値を行う、あなたは数が終了したことになる私に何を与えます!

総合評価指標

これらの指標の総合評価は、製品の基本的に再処理されています。対応kaggleゲームは継続的に更新されます。

TPR(リコール)+ FPR = ROC-> AUC

しきい値は1-0から落下して、我々はポジティブサンプルは徐々に、より正確にスクリーニング陽性サンプルを徐々に増加されるになるだろう期待していますが、負のサンプルは、偽陽性の確率が徐々に上昇しますです。

プロセス全体しきい値がROC曲線で表すことができる横切る、横軸は、偽陽性率(FPR)であり、縦軸が精度(TPR /リコール/感度)です。曲線下面積 - しかし、あなたは直接ROC曲線は少し難しいだろう2つの分類器を比較したいので、私たちは、ROC曲線を記述するためにスケーラを使用AUCです。完璧な分類器に近いROC曲線下面積が大きいほど、ランダム推測AUCを得ることができ、プラスまたはマイナス50%の対角線。



Kaggleリンクhttps://www.kaggle.com/c/santander-customer-transaction-prediction/overview/evaluation

AUCは、正及び負のサンプルに状況の相対的なバランスを適用し、予測確率モデルの精度は、ケースの分類を必要としません。参照記事[戦闘]

精度+リコール= AUCPR(AP)

上記ROC-AUCやアイデア。閾値が1から0に減少するように、予測は陽性サンプル増加、正しくスクリーニング陽性サンプルの増加が、陽性予測精度が低下します。

このように、我々は、PRカーブ、曲線下面積AUCPRを取得します。AUCPRは時々 、すべての対応する精度の値を平均AP、リコールと呼びます。私はだまされた一見すると、これは心の中で二つの概念として扱われてきました。しかし、書かれた式は、母親は多分それはものではありません。
\ [AUCPR = \ sum_1 ^ K \デルタ{R(K)} * P(K)= \ int_o ^ 1 {P(r)はdrは} AP \を=]

AP 刚好弥补AUC曲线的不足,适用于正负样本imbalance的情况,或者我们更关心模型在正样本上表现的情况。但AP同样不能保证模型预测概率的准确率。详见【实战篇】

cross-entropy loss

cross-entropy放在这里会有点奇怪,因为本质上它是和这里其他所有指标都不同的存在。其他的评价指标评价的是0/1的分类效果,或者更准确说是对排序效果(根据阈值把预测值从大到小分成0/1两半)进行评价。但是cross-entropy是直接对预测概率是否拟合真实概率进行评价。
\[ L = -\sum_{i=1}^N y_i * log p_i + (1-y_i) * log(1-p_i) \]

kaggle链接 https://www.kaggle.com/c/statoil-iceberg-classifier-challenge/overview/evaluation

cross-entropy弥补了AP和AUC的不足。如果分类目标其实是获得对真实概率的估计的话,使用cross-entropy应该是你的选择。详见【实战篇】

*Mean F1 Score

kaggle链接 https://www.kaggle.com/c/instacart-market-basket-analysis/overview/evaluation

第一次见到这个指标是在Instacart的kaggle比赛里面。这里的mean不是指的对所有阈值下的F1求平均值而是对每个order_id的多个product_id求F1,再对所有order_id的F1求平均,有点绕...

之所以把这个评价指标也放在这里是因为这个特殊的评价方法会对你如何split训练集/测试集,以及如何选定最优的阈值产生影响。有兴趣的可以来试一试,反正我觉得自己是把能踩的坑都踩了一个遍,欢迎大家一起来踩坑 >_<


Reference

  1. Alaa Tharwat,Classification assessment methods,Applied Computing and Informatics
  2. Nan Ye,Kian Ming A. Chai,Wee Sun Lee,Hai Leong Chieu,Optimizing F-Measures: A Tale of Two Approaches,
  3. https://en.wikipedia.org/wiki/Confusion_matrix

おすすめ

転載: www.cnblogs.com/gogoSandy/p/11112459.html