[電源を入れる]分類モデル評価指標の概要

著者:孔子の取り組み

https://www.cnblogs.com/yanshw/p/10735079.html

ときにモデル評価には、指標の様々な選択することができますが、異なる指標が必要ミッション要件に応じて、右の指標を選択する方法を、異なる結果を与える可能性があります。

精度とエラー率

正解率:サンプルの正しく分類されたサンプルの数/総数は、精度

エラー率:誤分類されたサンプルの数/サンプルの合計数、エラー

精度誤差率= 1 +

どちらの指標最も簡単な、最も一般的な

短所

  1. 汎化は、このようなクラスの不均衡の問題として反応モデル、必ずしもを行います。

  2. 私たちは、すべてのタスクのニーズを満たすことができません

多くは、実際に良いメロン、タスク二つどのように良いメロン選び出すために::車のスイカ、タスク場合はすべての良いメロン選抜されたどのように多くを、明らかに正しいとエラー率がこの問題を解決することはできません。

精度とリコール

最初のいくつかの概念を知ります

陽性サンプル/ nタプル:ターゲットタプル、関心のタプル

陰性サンプル/負のタプル:他のタプル

TPの実際の例、偽陽性例FP、TNの真の負の例、FNの偽陰性例、バイナリの分類については、予測モデルを分けることができます

実際の例は、実際に肯定的で、予測が肯定的である、他の同じように

サンプルの明らかTP + FP + TN + FN =合計数

混同マトリックス

混同行列の4種類の分割を表すために使用されます

したがって、次の概念を描きます

精度:どのくらいの実際の予測は、正、高精度、精度としても知られている正であります

リコール:正、リコール実際に、またリコールとして知られているどのように多くの肯定的な見通しで

精度とリコールは、矛盾の尺度です。一般に、高い精度、再現率が低く、その逆。

このようなスイカやカーとして、私は、それは当然、今回の良いメロンメロンとして認識する必要があるすべてが選出されているすべての良いメロン、すべての私は、すべてのメロンが選出されて置けば、可能性として選出良いメロン願っています低精度、および再現率は100%です。

私はメロンのメロンを選出したい場合は良いですが、それは慎重でなければならず、むしろ、投票しないだろう、精度は100%の再現率であるとき、正の予測は、実際のケースでなければならない必要が間違った選択、することはできませんそれは低いかもしれません。

私が言ったことを注意サンプルは通常、全体正、負、負割り当てフル、その精度に割り当てられるように良い点、である場合、低い可能性がある、再現率は100%で、矛盾しません。

PRカーブ

矛盾するので、両者の関係は以下のように示されるべきであることを

リコール曲線 - この曲線は、PR曲線、精度と呼ばれています。

この曲線は、どのようにそれを引き出すには?私はいくつかの方法でサンプルを取得する場合(例えば、すべてのサンプルを予測するモデルの使用など)は、正例の確率であり、理解することができ、その後、サンプルは、確率順に並べ替え、低高

最初の予測モデルが正の場合、負の予測残り、この時点での精度でしたが、0に近いリコール

モデルは、フロント2つの正、負の予測残りを予測した場合は、この時間は、わずかに、わずかに増加精度、再現率を減少します

ターン...

最後の予測を除いてサンプルモデルが正の場合、最終予測はマイナスで、精度は非常に低く、フルレートが非常に高いです確認してください。

この時点で私はマップから引き出され、データをスクランブルマップ上のものと同じまま。

評価指標、それを使用した精度と再現率矛盾、以来?または、同時に2つの指標の評価モデルとどのように?

どちらの例

  1. PR学習曲線Aは完全に「ラップ」学習者PR曲線Cの場合、パフォーマンスが良く、A、Cよりも

  2. 曲線Bを学習曲線PR PRは、学習者の交差であれば、それは1が優れている裁判官に困難であり、それはこの時、固定精度、再現率の比較、固定またはリコール、精度コンパレータで一般的に行われています率。

曲線は、通常の状況下で交差することになるが、人々はまだ合理的なアプローチは、曲線の下の2つのPRの面積を比較することで、レベルが1つ以上2人の学習者を載せていきたいと思います。

それは代わりに、面積計算のため、他の考慮精度の数が道を思い出すように設計しているので、しかし、この領域は、良い計算ではありません。

バランス:ブレークイベントポイントは、BEPは、点、すなわち図、精度=リコールを選択することで、Y = X直線カーブの交線とPRと称される

この方法は、暴力的です

F1とFβ対策

より一般的な方法は、F1を測定することです

即ち、F1は、調和平均のP及びRです。

算術平均と小さい値に幾何平均、調和平均より強調と比較。

一部のアプリケーションでは、精度重視とは異なる思い出します。

このような製品の推奨システムとして、推薦コンテンツは、顧客への関心のある期待して、顧客の嫌がらせを避けるために、精度は、この時点ではより重要です

別の例は、より重要なリコール、すべての情報を取得することを望んで、有用な情報を見逃さないようにするために、データのクエリシステムです。

この場合、精度の必要性とは、フルレートチェックを加重します

すなわち、RおよびP加重調和平均。

β> 0、β測定精度の重要性のリコール、β= 1 F1であります

β> 1、リコールは、さらに重要なことは、β<、精度は1より重要です

マルチ分類F1

多分类没有正例负例之说,那么可以转化为多个二分类,即多个混淆矩阵,在这多个混淆矩阵上综合考虑查准率和查全率,即多分类的F1

方法1

直接在每个混淆矩阵上计算出查准率和查全率,再求平均,这样得到“宏查准率”,“宏查全率”和“宏F1”

方法2

把混淆矩阵中对应元素相加求平均,即 TP 的平均,TN 的平均,等,再计算查准率、查全率、F1,这样得到“微查准率”,“微查全率”和“微F1”

ROC 与 AUC

很多学习器是为样本生成一个概率,然后和设定阈值进行比较,大于阈值为正例,小于为负例,如逻辑回归。

而模型的优劣取决于两点:

  1. 这个概率的计算准确与否

  2. 阈值的设定

我们把计算出的概率按从大到小排序,然后在某个点划分开,这个点就是阈值,可以根据实际任务需求来确定这个阈值,比如更重视查准率,则阈值设大点,若更重视查全率,则阈值设小点,

这里体现了同一模型的优化,

不同的模型计算出的概率是不一样的,也就是说样本按概率排序时顺序不同,那切分时自然可能分到不同的类,

这里体现了不同模型之间的差异,

所以ROC可以用来模型优化和模型选择,理论上讲 P-R曲线也可以。

ROC曲线的绘制方法与P-R曲线类似,不再赘述,结果如下图

横坐标为假正例率,纵坐标为真正例率,曲线下的面积叫 AUC

如何评价模型呢?

  1. 若学习器A的ROC曲线能包住学习器B的ROC曲线,则A优于B

  2. 若学习器A的ROC曲线与学习器B的ROC曲线相交,则难以比较孰优孰劣,此时可以比较AUC的大小

总结

  1. 模型评估主要考虑两种场景:类别均衡,类别不均衡

  2. 模型评估必须考虑实际任务需求

  3. P-R 曲线和 ROC曲线可以用于模型选择

  4. ROC曲线可以用于模型优化

参考资料:

周志华《机器学习》

本文由博客一文多发平台 OpenWrite 发布!

おすすめ

転載: www.cnblogs.com/jpld/p/11948870.html