准确率(Accuracy), 精确率(Precision,也可称为查准率), 召回率(Recall,也可称为查全率)和F1-Measure(也称为F1-Score)的一些总结

一个班里有男女生,我们来进行分类,把女生看成正类,男生看成是负类。我们可以用混淆矩阵来描述TP、TN、FP、FN

 先上公式

 

方便记忆就是检测到的(Retrieved)都有个P(Positives)  及检测到的展示出来的,用户感兴趣的。而人为判定这个检测效果好与坏,就用到了精确率(Precision)也可称为查准率。就是用女生占(女生+伪娘)的比例来衡量。当然了假设分出19个女生+1个伪娘这个精确率=19/(19+1)=95.2%。展示出来的就是这种效果,很亮眼吧!

 

也有可能分出了1个女生+19个伪娘,这时精确率就=1/(1+19)=5%,这就说明这个分类器比较失败了。效果如下,明明要看女生,却一个女生都没有,用户体验极差!!

 当然了,光有一个精确率是不够的,假设共有100美女(全部都是美女),我只检测出1个美女并展现出来

 

TP=1 ,FP=0 ,FN=99,TN=0,这时精确率=1/(1+0)=100%已经达到了人生的巅峰,但实际了遗漏了99个,这个就成了名符其实的美女”走光“图了。

所以我们还要引入一个另外一个召回率R,也称为查全率来补充模型的评估。

 这样对于这个只检出一个美女的召回率=1/(1+99)=1%,这个数就小得可怜,说明模型分类不怎么样。

而F1-Score可以帮助我们根据各个算法的Precision和Recall来评测一个算法的好坏。

 三者关系如下图所示

 

 一个好的模型应该是TP,TN占比很大,而FP,FN很小,如下图所示,这种情况有些类似女生很多100人里有80个女生,20个男生,可以检测出大部分女生

 ,如下图所示,这种情况有些类似女生很少100人里有20个女生,80个男生,可以检测出大部分男生,一般现实的检测情况都是下面这种TP+FN占总体占比都比较小。

 下面这个图也可以帮助我们更好的理解

 

 

 

 

おすすめ

転載: blog.csdn.net/babytiger/article/details/120368696