检测与姿态估计的评价标准

1. AP, mAP

转载自 点击打开链接    点击打开链接

多标签图像分类(Multi-label   Image Classification)任务中图片的标签不止一个,因此评价不能用普通单标签图像分类的标准,即mean accuracy,该任务采用的是和信息检索中类似的方法—mAPmean Average Precision)。mAP虽然字面意思和mean accuracy看起来差不多,但是计算方法要繁琐得多,以下是mAP的计算方法:

首先用训练好的模型得到所有测试样本的confidence score,每一类(如car)的confidence score保存到一个文件中(如comp1_cls_test_car.txt)。假设共有20个测试样本,每个的idconfidence scoreground truth label如下:​​

 

接下来对confidence score排序,得到:


这张表很重要,接下来的precision和recall都是依照这个表计算的

然后计算precisionrecall,这两个标准的定义如下:

上图比较直观,圆圈内(true   positives+ false positives)是我们选出的元素,它对应于分类任务中我们取出的结果,比如对测试样本在训练好的car模型上分类,我们想得到top-5的结果,即:

在这个例子中,true  positives就是指第4和第2张图片,false positives就是指第13196张图片。方框内圆圈外的元素(false  negativestrue negatives)是相对于方框内的元素而言,在这个例子中,是指confidence score排在top-5之外的元素,即:

 

其中,false  negatives是指第916720张图片,true negatives是指第1,18,5,15,10,17,12,14,8,11,3张图片。

那么,这个例子中Precision=2/5=40%,意思是对于car这一类别,我们选定了5个样本,其中正确的有2个,即准确率为40%Recall=2/6=30%,意思是在所有测试样本中,共有6car,但是因为我们只召回了2个,所以召回率为30%

实际多类别分类任务中,我们通常不满足只通过top-5来衡量一个模型的好坏,而是需要知道从top-1top-NN是所有测试样本个数,本文中为20)对应的precisionrecall。显然随着我们选定的样本越来也多,recall一定会越来越高,而precision整体上会呈下降趋势。把recall当成横坐标,precision当成纵坐标,即可得到常用的precision-recall曲线。这个例子的precision-recall曲线如下:

接下来说说AP的计算,此处参考的是PASCAL VOC CHALLENGE的计算方法。首先设定一组阈值,[0, 0.1, 0.2, …,1]。然后对于recall大于每一个阈值(比如recall>0.3),我们都会得到一个对应的最大precision。这样,我们就计算出了11precisionAP即为这11precision的平均值。这种方法英文叫做11-pointinterpolated average precision。​

当然PASCAL VOCCHALLENGE自2010年后就换了另一种计算方法。新的计算方法假设这N个样本中有M个正例,那么我们会得到M个recall值(1/M,2/M, ..., M/M),对于每个recall值r,我们可以计算出对应(r' >r)的最大precision,然后对这M个precision值取平均即得到最后的AP值。计算方法如下:​

相应的Precision-Recall曲线(这条曲线是单调递减的)如下:​

注: 这种标准比前面那个AP更加科学,比如当前面所有的 True Positive都被检测出来,此时 top-N 变成 top-N+1时,recall保持不变,precision也能够保持不变,而前一种的prcision却会变小,但这并不意味着应该认为检测效果差了


AP衡量的是学出来的模型在每个类别上的好坏,mAP衡量的是学出的模型在所有类别上的好坏,得到APmAP的计算就变得很简单了,就是取所有AP的平均值。



不同AP计算方式的区别  见 点击打开链接



猜你喜欢

转载自blog.csdn.net/xiaojiajia007/article/details/78746149