深度学习的性能指标

1. 基础知识

1.1 前言

1.1.0 样本

要理解性能指标的含义,首先需要了解两种样本:

  • 正样本:属于某一类(一般是所求的那一类)的样本。在本例中是及格的学生。
  • 负样本:不属于这一类的样本。在本例中是不及格的学生。
  • 困难样本: 预测时与真值标签误差较大的样本。
  • 简单样本: 预测时与真值标签误差较小的样本。

eg. 图片分类:需要识别马、羊、牛三个类别。
给一张马的图片。对于预测马来说这个样本为正样本,对于预测羊和牛来说该样本为负样本。

eg. 语音识别:需要识别“我 爱 中 国”四个字。
语音片段对应“我”。则对于预测“我”来说这个样本为正样本,对于预测其他字来说该样本为负样本。

eg. 真值one-hot标签:[1, 0, 0]
在预测出概率分布为[0.3, 0.3, 0.4]时,与真值one-hot标签相差较大,该样本是困难样本。而预测出[0.98, 0.01, 0.01]时,与真值one-hot标签相差较小,该样本为简单样本。

1.1.1 混淆矩阵

基本所有的性能指标都需要通过混淆矩阵(表0.1)计算:

表1 混淆矩阵:
Actual positive (P=TP+FN) Actual nefative(N=FP+TN)
Predicted positive True positive(TP) False positive(FP)
Predicted nefative False negative(FN) True negative(TN)

eg. 一个班有50人,在某场考试中有40人及格,10人不及格。
现在需要根据一些特征预测出所有及格的学生。
某一模型执行下来,给出了39人,其中37人确实及格了,剩下2人实际上不及格。

  • TP:被检索到正样本,实际也是正样本(正确识别)
    在本例表现为:预测及格,实际也及格。

  • FP:被检索到正样本,实际是负样本(一类错误识别)
    在本例表现为:预测及格,实际不及格。

  • FN:未被检索到正样本,实际是正样本。(二类错误识别)
    在本例表现为:预测不及格,实际及格了

  • TN:未被检索到正样本,实际也是负样本。(正确识别)
    在本例表现为:预测不及格,实际也不及格

  • 混淆矩阵的作用:
    1)用于观察模型在各个类别上的表现,可以计算模型对应各个类别的准确率,召回率;
    2)直接观察到哪些类别不容易区分,比如A类别中有多少被分到了B类别,这样可以有针对性的设计特征等,使得类别更有区分性;

eg. 对一百张图片进行学习分类,其中包含 火星(40张),地球(40张),冰激凌(20张) 三个种类;
在算法学习过程中需要对每次的迭代分类结果进行精度评估,用到混淆矩阵这一工具。
如下图,列出每次迭代后各类别分类状态的混淆矩阵。
其中,每一行的数目之和是该类别的真实数量,比如第一行的总和为50,代表火星真实存在50个。
对角线代表模型预测正确了,而其他的位置代表预测错误。
因此,混淆矩阵能够帮助分析每个类别的误分类情况,从而分析调整。

图片显示不出的时候出现的文字

图1. 第一次迭代、第二次迭代、第n次迭代(分类结果全部正确)

1.2 阈值相关

许多二分类器的原理,都是给每个样本打一个分,然后设置一个阈值,分数高于阈值的样例就被分为正类,低于阈值则被分为负类。

依赖阈值的性能指标如下:

1.2.1 准确率 A c c u r a c y Accuracy Accuracy

分类正确的样本数 与 样本总数之比。即: ( T P + T N ) / ( A L L ) (TP + TN) / ( ALL ) (TP+TN)/(ALL).
准确率是最常用的指标,可以总体上衡量一个预测的性能。
在本例中,正确分类了45人(及格37 + 不及格8),所以 A c c u r a c y = 45 / 50 = 90 Accuracy = 45 / 50 = 90% Accuracy=45/50=90.

1.2.2 精确率/查准率 P r e c i s i o n Precision Precision

被正确检索的正样本数 与 被检索到正样本总数之比。即: T P / ( T P + F P ) TP / (TP + FP) TP/(TP+FP).
在本例中,正确检索到了37人,总共检索到39人,所以 P r e c i s i o n = 37 / 39 = 94.9 Precision = 37 / 39 = 94.9% Precision=37/39=94.9.

1.2.3 召回率/查全率 R e c a l l Recall Recall

被正确检索的正样本数 与 应当被检索到的正样本数之比。即: T P / ( T P + F N ) = T P / P TP / (TP + FN)=TP/P TP/(TP+FN)=TP/P.
在本例中,正确检索到了37人,应当检索到40人,所以 R e c a l l = 37 / 40 = 92.5 Recall = 37 / 40 = 92.5% Recall=37/40=92.5.

1.2.4 平衡F分数 F 1 − s c o r e F_1-score F1score

精确率和召回率的调和平均数(值越大越好) F 1 = 2 P r e c i s i o n ∗ R e c a l l P r e c i s i o n + R e c a l l F_1=2\frac{Precision*Recall}{Precision+Recall} F1=2Precision+RecallPrecisionRecall
推广为: F β = ( 1 + β 2 ) P r e c i s i o n ∗ R e c a l l ( β 2 P r e c i s i o n ) + R e c a l l F_\beta=(1+\beta^2)\frac{Precision*Recall}{(\beta^2Precision)+Recall} Fβ=(1+β2)(β2Precision)+RecallPrecisionRecall
其中 β β β 用于调整权重,当 β = 1 β=1 β=1 时两者权重相同,简称为 F 1 − S c o r e F_1-Score F1Score.
P r e c i s i o n Precision Precision 更重要,则减小 β β β R e c a l l Recall Recall 更重要,则增大 β β β.
除了 F 1 − s c o r e F_1-score F1score 之外, F 2 − s c o r e F_2-score F2score F 0.5 − s c o r e F_{0.5}-score F0.5score 在统计学中也得到大量的应用。其中, F 2 − s c o r e F_2-score F2score召回率的权重高于精确率,而 F 0.5 − s c o r e F_{0.5}-score F0.5score精确率的权重高于召回率

1.2.5 TOP error

TOP-5 error:前五个概率中 全都未正确标记的样本本数 / 总的样本数
TOP-1 error:最佳概率 未正确标记的样本数 / 总的样本数

  • 依赖阈值 ≠ \neq =固定阈值,我们不固定阈值,而是根据需求来调整。如0.1所示(假设P=4)。
图片显示不出的时候出现的文字

图0.1:不同阈值下的查全率和查准率

1.3 阈值不相关

不依赖阈值的性能指标:

  1. Receiver operating characteristic Curve(ROC 曲线);
    评估性能的具体数值:area under the curve(AUC);mean area under the curve(mAUC)
  2. Precision-recall Curve( P-R 曲线);
    评估性能的 具体数值:average precision(AP);mean average precision(mAP)
  3. Detection error tradeoff Curve(DET 曲线)。

2. ROC曲线+P-R曲线

关于ROC,P-R曲线

2.1 ROC(Receiver Operating Characteristic Curve)

  1. ROC曲线:横坐标为负类查误率 = 1 -负类的查全率( F P R = 1 − T N P = 1 − R − = F P N = 1 − T N N FPR=1-TNP=1-R_-=\frac{FP}{N}=1-\frac{TN}{N} FPR=1TNP=1R=NFP=1NTN);纵坐标为正类的查全率( R e c a l l = T P R = R + = T P P Recall=TPR=R_+=\frac{TP}{P} Recall=TPR=R+=PTP)。
  2. ROC 曲线最早是在二战中用来分析雷达检测信号的能力的。
    假设有10个导弹信号,其中8个是导弹(P=8),2个是飞过的鸟(N=2)。经过导弹信号分析,判断出9个是导弹,1个是鸟。则TP=8,FP=1,TN=1,FN=0。计算出FPR=1/2=0.5,TPR=8/8=1。则(0.5,1)对应ROC曲线上一点。
  3. 根据不同阈值,计算正类查全率TPR和负类查误率FPR,如图1.1所示。
图片显示不出的时候出现的文字

图1.1:不同阈值下的正类查全率TPR和负类查误率FPR

  1. 根据图1.1绘制ROC曲线,如图1.2所示。
图片显示不出的时候出现的文字

图1.2:根据不同阈值下的TPR和FPR绘制的ROC曲线

  1. FPR和TPR相互制约
    以导弹预测为例:对于导弹的判断,希望能把所有导弹(P)都预测(TP)出来,即TPR(正类的查全率)越高越好;但不希望把小鸟(N)也当成导弹(FP),即 FRP(1 减去负类的查全率)越低越好。我们发现,FPR和TPR这两个坐标值是相互制约的。
    以图1.1和1.2为例:

    • 从微观上看,ROC 曲线是锯齿状的,但它的每一段都是横平竖直的(有正、负例得分相同时除外)。
    • 从宏观上看,ROC 曲线呈单调上升趋势;
    • 总体来看,二分类器越好,ROC 曲线越接近图像的左上角,在这个区域,正类的查全率高,负类的查误率低。
    • 极端情况:
      它的左、右两端一定会位于 ( 0 , 0 ) (0,0) (0,0) ( 1 , 1 ) (1,1) (1,1),分别对应阈值设为最高和最低的情况。
  2. 优点
    当正负样本分布变化时,ROC曲线形状基本保持不变。(P-R曲线形状一般会发生剧烈的变化)因此ROC能降低不同测试集带来的干扰,更加客观的衡量模型本身的性能。

    • 分析:
      如混淆矩阵(表0.1)所示,若负样本(N)数量扩大10倍,FP,TN都会增加,必然会影响到Precision,Recall。
      对于ROC曲线: F P R = F P N FPR=\frac{FP}{N} FPR=NFP只考虑混淆矩阵第二列,N增大10倍,则FP,TN也会成比例增加,不影响其值, T P R = T P P TPR=\frac{TP}{P} TPR=PTP只考虑混淆矩阵第一列,不影响其值。
      通过图1.3可视化分析:图a:ROC曲线,图b:P-R曲线; 在负样本增大10倍后:图c:ROC曲线基本没有变化,图d:P-R曲线却剧烈震荡。
图片显示不出的时候出现的文字

图1.3:ROC曲线(左)和P-R曲线(右)

2.2 P-R曲线(Precision-Recall)

  1. P-R曲线:横坐标为召回率/查全率( R e c a l l = T P R = T P T P + F N = T P P Recall=TPR=\frac{TP}{TP+FN}=\frac{TP}P Recall=TPR=TP+FNTP=PTP);纵坐标为精确率/查准率( P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP+FP} Precision=TP+FPTP)。
  2. 计算不同阈值下的查准率 P + P_+ P+和查全率 R + R_+ R+,如图1.4所示。
图片显示不出的时候出现的文字

图1.4:不同阈值下的正类查准率P+ 和 查全率R+

  1. 根据图1.4绘制P-R曲线,如图1.5所示。
图片显示不出的时候出现的文字

图1.5根据不同阈值的P+ 和R+绘制的 P-R曲线

  1. Recall和Precision相互制衡,以图1.4和图1.5为例:
    • 从微观上看,P-R 曲线是锯齿状的。
      当阈值下调,并且跨越一个正例时(0.9->0.8和0.5->0.4), P + P_+ P+ R + R_+ R+都会升高,产生一条向右上方的线段;
      当阈值下调,并且跨越一个负例时(0.8->0.7和0.6->0.5和0.4->0.3), R + R_+ R+不变,而 P + P_+ P+会减小,产生一条竖直向下的线段。
      图 1.5中有一条向右下方的线段(0.7->0.6),这是由于正样例得分=负样例得分=0.6产生的,这种得分相同的情况在实际中是罕见的。
    • 从宏观上看, P + P_+ P+ R + R_+ R+ 是相互制衡的关系,所以 P-R 曲线呈现单调下降的趋势。
    • 总体来看,越好的二分类器,其 P-R 曲线会越接近图像的右上角,在这个区域,正类的查准率和查全率都高。
    • 极端情况:
      右端不在 ( 1 , 0 ) (1,0) (1,0),而是会位于 ( 1 , P P + N ) (1,\frac{P}{P+N}) (1,P+NP),纵坐标为正例在所有数据中的比例,这对应于阈值设为最低的情形。
      左端不在 ( 0 , 1 ) (0,1) (0,1) ,这对应于阈值设为最高的情形,对于正常的二分类器,得分最高的样例应当是个正例,所以左端的坐标会是 ( 1 P , 1 ) (\frac1P,1) (P1,1),实际上很接近 ( 0 , 1 ) (0,1) (0,1) ;如果得分最高的样例是个负例,那么左端的坐标就是 ( 0 , 0 ) (0,0) (0,0) 了。

2.3 ROC 曲线跟 P-R 曲线的关系

  1. 我们发现,ROC 曲线的纵轴,恰好就是 P-R 曲线的横轴,它们都是正类的查全率(Recall,TPR, R + R_+ R+)。如果把 ROC 曲线以 ( 1 2 , 1 2 ) (\frac12,\frac12) (21,21)为中心顺时针旋转 90 度,就能让 ROC 曲线变得「像」P-R 曲线,如图1.6所示.
图片显示不出的时候出现的文字

图1.6 P-R曲线(左),旋转后的ROC曲线(右)

  1. 如图1.6所示,两条曲线都集中在图像的右上角,宏观上呈单调下降趋势。横轴都是正类的查全率。旋转后的 ROC 曲线,其纵轴的含义是 R − ( 即 1 − F P R = 1 − ( 1 − T N R ) = T N R ) R_-(即1-FPR=1-(1-TNR)=TNR) R(1FPR=1(1TNR)=TNR),即负样本中被正确地分类为负例的比例,称为负类的查全率。而 P-R 曲线的纵轴是正类的查准率 ,两条曲线只是纵轴的含义不同。
  2. 在真实场景中,正例往往远少于负例。只要阈值不是设得极端低,一般都有 T P < T N TP<TN TP<TN,所以 P + < R − P_+<R_- P+<R(正类查准率<负类查全率)。也就是说,除了在曲线的最右端,旋转后的 ROC 曲线一般会高于 P-R 曲线。
  3. 在曲线的最右端,阈值设为最低,所有样例均被分类为正例,正类查全率 R + R_+ R+ 为1;P-R 曲线的纵坐标正类查准率 P + P_+ P+ P P + N \frac{P}{P+N} P+NP等于正例所占比例,而旋转后的 ROC 曲线的纵坐标负类查全率 R − R_- R则会下降到 0。

3. AUC+AP

3.1 AUC(Area under roc Curve)

  1. AUC面积:ROC曲线下的面积大小,沿ROC横轴做积分计算。
    绘制完ROC,通过计算AUC面积,对模型进行量化的分析。
  2. 真实场景中ROC曲线一般会在直线的上方,所以AUC的值一般在0.5~1之间。
  3. AUC值是一个概率值,分类算法按此概率(AUC值)将正样本排在负样本前面。
    AUC的值越大,越可能将正样本排在负样本前面,该模型的性能越好

3.2 AP(average precision)

  1. P-R曲线下的面积为: m A P = ∫ 0 1 P ( R ) d R = ∑ k = 1 N P ( k ) ∆ r ( K ) mAP=\int_0^1P(R)dR=\sum_{k=1}^{N}P(k)∆r(K) mAP=01P(R)dR=k=1NP(k)r(K)
  2. AP 指标的定义:是对物体检测模型性能的一种评估指标,它主要用于衡量模型在不同类别目标上的精度。具体来说,AP是计算Precision-Recall曲线下的面积得到的,即使用一组阈值生成P-R曲线并计算该曲线下的面积。
  3. AP的值越大,该模型的性能越好
  4. mAP指标:由于一个数据集中通常会包含多个目标类别,因此平均准确率(mAP)是评估模型在整个数据集上性能的更综合的指标。通常,对于每个目标类别,我们都可以计算出一个AP值,然后对这些AP值取平均数来得到mAP。计算mAP时,通常采用两种方式:1)对所有类别的AP值求平均数;2)对所有类别进行加权平均数,其中每个类别的权重为它在数据集中出现的频率。
  5. mAP是评估物体检测模型性能的一种广泛使用的指标,特别是在目标检测竞赛中。它可以综合考虑模型在多个目标类别上的性能表现,并提供了一种直观的方法来比较不同模型之间的性能差异。是取所有类别AP的平均值,衡量的是在所有类别上的平均好坏程度。
图片显示不出的时候出现的文字

图2.1:不同阈值下的正类查准率P+

  1. 以图2.1为例
    把阈值设置在紧靠第 1、2、3、4 个正例之后,正类的查准率分别是 1、1、0.6、0.5,所以 AP 指标等于 ( 1 + 1 + 0.6 + 0.5 ) / 4 = 0.775 (1+1+0.6+0.5)/4=0.775 (1+1+0.6+0.5)/4=0.775
    如果有多个正例的得分相同,那么阈值设置在紧靠它们之下时的查准率,在取平均时也会被计算多次。比如,如果图 5.1 中得分为 0.6 的两个样例都是正例,那么 AP 就会变成 ( 1 + 1 + 4 / 5 + 4 / 5 + 5 / 8 ) / 5 = 0.845 (1+1+4/5+4/5+5/8)/5=0.845 (1+1+4/5+4/5+5/8)/5=0.845

4. 真实的ROC和P-R曲线

上述例子中展示了小数据集上的ROC和P-R曲线,下面展示了在大数据集上的结果。

4.1 正负样本得分-随机分布

  1. 把所有的样例得分随机分布,作为二分类问题的一个 baseline。当样例随机排序时,不管把阈值设在哪里,正类的查准率都会接近正类在所有数据中的比例(下记为 % + \%_+ %+);而正类的查全率 R + R_+ R+会跟负类的查误率 1 − R − 1-R_- 1R一样高,都等于阈值上方的样例占所有数据的比例,即 T P + F P P + N = 1 − T N + F N P + N \frac{TP+FP}{P+N}=1-\frac{TN+FN}{P+N} P+NTP+FP=1P+NTN+FN。于是,P-R 曲线将是纵坐标为 % + \%_+ %+的一条横线,而 ROC 曲线将是从 ( 0 , 0 ) (0,0) (0,0) ( 1 , 1 ) (1,1) (1,1)的一条斜线。

  2. 图 3.1是把 2000 个正例和 8000 个负例随机排序后,绘制出的 P-R 曲线和 ROC 曲线,以及把 ROC 曲线顺时针旋转 90 度后的结果。除了 P-R 曲线的左端有较大波动以外,一切符合预期。

图片显示不出的时候出现的文字

图3.1:样本随机分布的 P-R 曲线(左)、 ROC 曲线(中)、旋转后的ROC曲线(右)

4.2 正负样本得分-等方差高斯分布

  1. 假设正类与负类各有 5000 个样例,且两类的得分都服从方差为 1 的高斯分布,均值之差为 2,如图 3.2:
图片显示不出的时候出现的文字

图3.2正负样本得分为等方差高斯分布

  1. 这是一种比较真实的场景,在此场景下的 P-R 曲线与 ROC 曲线如图 3.3。P-R 曲线集中于右上角;ROC 曲线集中于左上角,顺时针旋转 90 度后则集中于右上角。
图片显示不出的时候出现的文字

图3.3 样本高斯分布的 P-R 曲线(左)、 ROC 曲线(中)、旋转后的ROC曲线(右)

  1. 曲线越靠近相应的角落,正负样本得分的分布则相距越远。在上面的例子里,两类得分的均值之差 d d d 等于各自标准差 σ \sigma σ的 2 倍。如果把正负样本得分的分布距离拉远,那么 P-R 和 ROC 曲线都会更加靠近角落。图 3.4 展示了 d = 2 σ , 3 σ , 4 σ d=2\sigma,3\sigma,4\sigma d=2σ,3σ,4σ时曲线的样子:
图片显示不出的时候出现的文字

图3.4 d=2σ,3σ,4σ时的P-R 曲线(左)、 ROC 曲线(中)、旋转后的ROC曲线(右)

  1. 上面的例子中,正例的比例均为 50%。事实上,正例的比例对 P-R 曲线有较大的影响。正例越少,曲线越低,并且曲线右端的纵坐标恰好就是正例的比例。然而,ROC 曲线并不受正例所占比例的影响(如图1.2,ROC曲线比较稳定)。图 3.5 展示了 d = 2 σ d=2\sigma d=2σ时,把正例的比例减少至 20% 和 5% 时的 P-R 曲线。同时证明了1.1-6.中的理论,当正例远少于负例时,旋转后的 ROC 曲线会高于 P-R 曲线,最右端除外。
图片显示不出的时候出现的文字

图3.5 不同正例占比的P-R曲线

4.3 正负样本得分-不等方差高斯分布

  1. 当两类得分呈不等方差的高斯分布时,观察P-R 曲线和 ROC 曲线。设正、负类各有 5000 个样例,正类得分的均值为 1、方差为 1,负类得分的均值为 -2、方差为 4,如图 3.6所示。
图片无法显示

图3.6正负样本得分为不等方差高斯分布

  1. 此时的 P-R 曲线和 ROC 曲线如图 3.7。注意到 P-R 曲线不再呈单调下降的趋势,而是先升后降,这是因为负类的最高得分跟正类的最高得分差不多了,哪怕把阈值设得很高,也无法完全排除负类。这并不是「两类得分方差不等」的必然结果,而是依赖于分布的具体参数。另外可以注意到,与等方差的情形不同,ROC 曲线不再是关于对角线对称的了。
图片无法显示

图3.7 样本不等方差高斯分布的 P-R 曲线(左)、 ROC 曲线(中)、旋转后的ROC曲线(右)

  1. 和等方差高斯分布一样,两类得分的分布分得越开,曲线就越靠近角落(图略);
  2. 和等方差高斯分布一样,正例所占比例会影响 P-R 曲线,如图 3.8所示。但不会影响 ROC 曲线(图略,理由同上,请看1.1-6.中的理论)。
图片无法显示

图3.8 不同正例占比的P-R曲线

添加链接描述

5. MCC(Matthews correlation coefficient)

参考
马修斯相关系数 (MCC)是 p h i phi phi系数的一个特例。即将True Class和Predicted Class视为两个(二进制)变量,并计算它们的相关系数(与计算任何两个变量之间的相关系数类似)。真实值和预测值之间的相关性越高,预测效果越好。只有当预测在所有四个混淆矩阵类别(TP、TN、FN和FP)中都获得了良好的结果时,它才会产生高分。

计算公式如下:
M C C = T P × T N − F P × F N ( T P + F P ) ( T P + F N ) ( T N + F P ) ( T N + F N ) MCC=\frac{TP\times TN-FP\times FN}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}} MCC=(TP+FP)(TP+FN)(TN+FP)(TN+FN) TP×TNFP×FN

根据计算公式,可知当分类器是完美的(FP = FN = 0),MCC的值是1,表示完全正相关。相反,当分类器总是分类错误时(TP = TN = 0),得到的数值是-1,代表完美的负相关。所以,MCC的值总是在-1和1之间,0意味着分类器不比随机二分类选择好。此外,MCC是完全对称的,所以没有哪个类别比其他类别更重要,如果把正反两个类别换一下,仍然会得到相同的值。

然后我们再计算一下,上面例举的数据中MCC的值:
M C C = 18 × 1 − 3 × 2 ( 18 + 3 ) ( 18 + 2 ) ( 1 + 3 ) ( 1 + 2 ) = 0.17 MCC=\frac{18\times 1-3\times 2}{\sqrt{(18+3)(18+2)(1+3)(1+2)}}=0.17 MCC=(18+3)(18+2)(1+3)(1+2) 18×13×2=0.17

MCC的值是0.17 ,表明预测类和真实类是弱相关的。从以上的计算和分析,我们知道这种弱相关是因为分类器不擅长对猫进行分类。

6. IOU

6.1 重叠度 IoU Intersect over Union

IoU:在特定数据集中检测物体准确度的一个标准,评价候选框 bounding box的定位精度。

IOU用于测量真实和预测范围之间的相关度(重叠度),相关度越高,该值越高。对于任意大小形状的物体检测,其中:

  1. ground-truth bounding boxes:人为在训练集图像中标出要检测物体的大概范围
  2. predicted bounding boxes:根据算法得出的预测范围

如下图6所示。绿色标线是人为标记的正确结果(ground-truth),红色标线是算法预测的结果(predicted)。

图片显示不出的时候出现的文字

真实和预测候选框

6.2 IoU的计算

IoU为区域重叠的部分 除以 区域的集合部分得出的结果。
I o U = A r e a   o f   O v e r l a p A r e a   o f   U n i o n IoU=\frac{Area\, of\, Overlap}{Area\, of\, Union} IoU=AreaofUnionAreaofOverlap

图片显示不出的时候出现的文字

真实和预测候选框

比较设定的阈值与IoU计算结果,通常我们认为:

  • Correct: 类别正确 且 IoU > .5
  • Localization: 类别正确, .1 < IoU < .5
  • Similar: 类别近似, IoU > .1
  • Other: 类别错误, IoU > .1
  • Background: IoU < .1 的任意目标

猜你喜欢

转载自blog.csdn.net/deer2019530/article/details/129317812