机器学习评价准则

机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域评价指标一般有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。同时深度学习目标检测领域的评价指标更注重平均精确率(Mean Average Precision),召回率(Recall),以及速度(rate)。在介绍上面三个参数之前,首先介绍混淆矩阵。

~ Positive Negative
True True Positive (TP) True Negative(TN)
False False Positive (FP) False Negative (FN)

上表以二分类问题为例,有两类预测结果Positive(正类),Negative(负类),在进行二分类时,同样会有两类预测结果True(正确分类,真),False(错误分类,假),因此会出现上表所示的四种情况,每种情况代表的含义如表2所示:

True Positive (TP) 将正类正确的预测为正类数. (真正)
True Negative(TN) 将负类正确的预测为负类数.(真负)
False Positive (FP) 将负类错误的预测为正类数(误报)
False Negative (FN) 将正类错误的预测为负类数(漏报)

在上述条件下,定义精确率(Precision),准确率(Accuracy)和召回率(Recall):

IOU(Precision)

在目标检测中IOU的定义为:
这里写图片描述
如图所示蓝色的框是:Ground Truth 、黄色的框是:Detection Result 、绿色的框是:Detection Result ⋂ Ground Truth 即Area of overlap、红色的框是:Detection Result ⋃ Ground Truth即Area of union
这里写图片描述
对应到混淆矩阵中:

True Positive (TP) 绿色的框
True Negative(TN) 红框之外的图像部分
False Positive (FP) 黄色的框-绿色的框
False Negative (FN) 蓝色的框-绿色的框

准确率(Accuracy)

准确率
准确率可表示:假设要检测A,B两类目标,对于给定的测试数据集,分类器正确分类的A,B两样本数 与被分类的总样本数 之比。在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷,较少使用。对应到上图中就是当蓝色框人太小的时候,背景太大,即使预测的黄色框和蓝色框不重合的时候,由于红框之外的图像部分非常大,导致准确度依然很高:
这里写图片描述

精确率(Precision)

精确率
精确率可表示:假设要检测A类目标,对于给定的测试数据集,分类器正确分类为A类的样本数TP与被分为A类的样本数TP+FP之比。对应上图就是
这里写图片描述

召回率(Recall)

召回率

召回率可表示:假设要检测A,B两类目标,对于给定的测试数据集,分类器正确分为A类的样本数TP占所有应该被检测为A类的样本数的比例。对应上图就是:
这里写图片描述

F-Measure

这里写图片描述
这里写图片描述
Measure可表示:精确率和召回率的调和均值,相当于精确率和召回率的综合评价指标,计算方法如上式。

MAP

在多分类问题中,上述的精确度定义不足以描述多分类器的性能,于是又引入了平均精确率(Mean Average Precision):
这里写图片描述
其中Q是样本的种类,P是每种样本的检测精确度,上式表示计算所有样本种类的精确度的均值。

猜你喜欢

转载自blog.csdn.net/qq_36130482/article/details/79599295
今日推荐