深度学习的性能指标

文章目录

1. 基础知识

1.1 前言

1.1.0 样本

要理解性能指标的含义，首先需要了解两种样本：

正样本：属于某一类（一般是所求的那一类）的样本。在本例中是及格的学生。
负样本：不属于这一类的样本。在本例中是不及格的学生。
困难样本：预测时与真值标签误差较大的样本。
简单样本：预测时与真值标签误差较小的样本。

eg. 图片分类：需要识别马、羊、牛三个类别。
给一张马的图片。对于预测马来说这个样本为正样本，对于预测羊和牛来说该样本为负样本。

eg. 语音识别：需要识别“我爱中国”四个字。
语音片段对应“我”。则对于预测“我”来说这个样本为正样本，对于预测其他字来说该样本为负样本。

eg. 真值one-hot标签：[1, 0, 0]
在预测出概率分布为[0.3, 0.3, 0.4]时，与真值one-hot标签相差较大，该样本是困难样本。而预测出[0.98, 0.01, 0.01]时，与真值one-hot标签相差较小，该样本为简单样本。

1.1.1 混淆矩阵

基本所有的性能指标都需要通过混淆矩阵（表0.1）计算：

表1 混淆矩阵：

	Actual positive (P=TP+FN）	Actual nefative(N=FP+TN）
Predicted positive	True positive(TP)	False positive(FP)
Predicted nefative	False negative(FN)	True negative(TN)

eg. 一个班有50人，在某场考试中有40人及格，10人不及格。
现在需要根据一些特征预测出所有及格的学生。
某一模型执行下来，给出了39人，其中37人确实及格了，剩下2人实际上不及格。

TP：被检索到正样本，实际也是正样本（正确识别）
在本例表现为：预测及格，实际也及格。
FP：被检索到正样本，实际是负样本（一类错误识别）
在本例表现为：预测及格，实际不及格。
FN：未被检索到正样本，实际是正样本。（二类错误识别）
在本例表现为：预测不及格，实际及格了
TN：未被检索到正样本，实际也是负样本。（正确识别）
在本例表现为：预测不及格，实际也不及格
混淆矩阵的作用：
1）用于观察模型在各个类别上的表现，可以计算模型对应各个类别的准确率，召回率；
2）直接观察到哪些类别不容易区分，比如Ａ类别中有多少被分到了Ｂ类别，这样可以有针对性的设计特征等，使得类别更有区分性；

eg. 对一百张图片进行学习分类，其中包含火星（40张），地球（40张），冰激凌（20张）三个种类；
在算法学习过程中需要对每次的迭代分类结果进行精度评估，用到混淆矩阵这一工具。
如下图，列出每次迭代后各类别分类状态的混淆矩阵。
其中，每一行的数目之和是该类别的真实数量，比如第一行的总和为50，代表火星真实存在50个。
对角线代表模型预测正确了，而其他的位置代表预测错误。
因此，混淆矩阵能够帮助分析每个类别的误分类情况，从而分析调整。

图1. 第一次迭代、第二次迭代、第n次迭代（分类结果全部正确）

1.2 阈值相关

许多二分类器的原理，都是给每个样本打一个分，然后设置一个阈值，分数高于阈值的样例就被分为正类，低于阈值则被分为负类。

依赖阈值的性能指标如下：

1.2.1 准确率 $A cc u r a cy$

分类正确的样本数与样本总数之比。即： $(TP + TN) / (A LL)$ .
准确率是最常用的指标，可以总体上衡量一个预测的性能。
在本例中，正确分类了45人（及格37 + 不及格8），所以 $A cc u r a cy = 45/50 = 90$ .

1.2.2 精确率/查准率 $P rec i s i o n$

被正确检索的正样本数与被检索到正样本总数之比。即： $TP / (TP + FP)$ .
在本例中，正确检索到了37人，总共检索到39人，所以 $P rec i s i o n = 37/39 = 94.9$ .

1.2.3 召回率/查全率 $R ec a ll$

被正确检索的正样本数与应当被检索到的正样本数之比。即： $TP / (TP + FN) = TP / P$ .
在本例中，正确检索到了37人，应当检索到40人，所以 $R ec a ll = 37/40 = 92.5$ .

1.2.4 平衡F分数 $F_1-score$

精确率和召回率的调和平均数(值越大越好) $F_1=2\frac{Precision*Recall}{Precision+Recall}$
推广为： $F_\beta=(1+\beta^2)\frac{Precision*Recall}{(\beta^2Precision)+Recall}$
其中 $β$ 用于调整权重，当 $β = 1$ 时两者权重相同，简称为 $F_1-Score$ .
$P rec i s i o n$ 更重要，则减小 $β$ ， $R ec a ll$ 更重要，则增大 $β$ .
除了 $F_1-score$ 之外， $F_2-score$ 和 $F_{0.5}-score$ 在统计学中也得到大量的应用。其中， $F_2-score$ 召回率的权重高于精确率，而 $F_{0.5}-score$ 精确率的权重高于召回率

1.2.5 TOP error

TOP-5 error：前五个概率中全都未正确标记的样本本数 / 总的样本数
TOP-1 error：最佳概率未正确标记的样本数 / 总的样本数

依赖阈值 $\neq$ 固定阈值，我们不固定阈值，而是根据需求来调整。如0.1所示(假设P=4)。

图0.1：不同阈值下的查全率和查准率

1.3 阈值不相关

不依赖阈值的性能指标：

Receiver operating characteristic Curve（ROC 曲线）；
评估性能的具体数值：area under the curve（AUC）；mean area under the curve（mAUC）
Precision-recall Curve（ P-R 曲线）；
评估性能的具体数值：average precision（AP）；mean average precision（mAP）
Detection error tradeoff Curve（DET 曲线）。

2. ROC曲线+P-R曲线

关于ROC,P-R曲线等

2.1 ROC（Receiver Operating Characteristic Curve）

ROC曲线：横坐标为负类查误率 = 1 -负类的查全率（ $FPR=1-TNP=1-R_-=\frac{FP}{N}=1-\frac{TN}{N}$ ）；纵坐标为正类的查全率（ $Recall=TPR=R_+=\frac{TP}{P}$ ）。
ROC 曲线最早是在二战中用来分析雷达检测信号的能力的。
假设有10个导弹信号，其中8个是导弹（P=8），2个是飞过的鸟（N=2）。经过导弹信号分析，判断出9个是导弹，1个是鸟。则TP=8，FP=1，TN=1，FN=0。计算出FPR=1/2=0.5，TPR=8/8=1。则（0.5,1）对应ROC曲线上一点。
根据不同阈值，计算正类查全率TPR和负类查误率FPR，如图1.1所示。

图1.1：不同阈值下的正类查全率TPR和负类查误率FPR

根据图1.1绘制ROC曲线，如图1.2所示。

图1.2：根据不同阈值下的TPR和FPR绘制的ROC曲线

FPR和TPR相互制约
以导弹预测为例：对于导弹的判断，希望能把所有导弹（P）都预测（TP）出来，即TPR（正类的查全率）越高越好；但不希望把小鸟（N）也当成导弹（FP），即 FRP（1 减去负类的查全率）越低越好。我们发现，FPR和TPR这两个坐标值是相互制约的。
以图1.1和1.2为例：
- 从微观上看，ROC 曲线是锯齿状的，但它的每一段都是横平竖直的（有正、负例得分相同时除外）。
- 从宏观上看，ROC 曲线呈单调上升趋势；
- 总体来看，二分类器越好，ROC 曲线越接近图像的左上角，在这个区域，正类的查全率高，负类的查误率低。
- 极端情况：
  它的左、右两端一定会位于 $(0, 0)$ 和 $(1, 1)$ ，分别对应阈值设为最高和最低的情况。
优点
当正负样本分布变化时，ROC曲线形状基本保持不变。（P-R曲线形状一般会发生剧烈的变化）因此ROC能降低不同测试集带来的干扰，更加客观的衡量模型本身的性能。
- 分析：
  如混淆矩阵（表0.1）所示，若负样本（N）数量扩大10倍，FP,TN都会增加，必然会影响到Precision，Recall。
  对于ROC曲线： $FPR=\frac{FP}{N}$ 只考虑混淆矩阵第二列，N增大10倍，则FP，TN也会成比例增加，不影响其值， $TPR=\frac{TP}{P}$ 只考虑混淆矩阵第一列，不影响其值。
  通过图1.3可视化分析：图a：ROC曲线，图b：P-R曲线；在负样本增大10倍后：图c：ROC曲线基本没有变化，图d：P-R曲线却剧烈震荡。

图1.3：ROC曲线（左）和P-R曲线（右）

2.2 P-R曲线（Precision-Recall）

P-R曲线：横坐标为召回率/查全率（ $Recall=TPR=\frac{TP}{TP+FN}=\frac{TP}P$ ）；纵坐标为精确率/查准率（ $Precision=\frac{TP}{TP+FP}$ ）。
计算不同阈值下的查准率 $P_+$ 和查全率 $R_+$ ，如图1.4所示。

图1.4：不同阈值下的正类查准率P+ 和查全率R+

根据图1.4绘制P-R曲线，如图1.5所示。

图1.5根据不同阈值的P+ 和R+绘制的 P-R曲线

Recall和Precision相互制衡，以图1.4和图1.5为例：
- 从微观上看，P-R 曲线是锯齿状的。
  当阈值下调，并且跨越一个正例时（0.9->0.8和0.5->0.4）， $P_+$ 和 $R_+$ 都会升高，产生一条向右上方的线段；
  当阈值下调，并且跨越一个负例时（0.8->0.7和0.6->0.5和0.4->0.3）， $R_+$ 不变，而 $P_+$ 会减小，产生一条竖直向下的线段。
  图 1.5中有一条向右下方的线段（0.7->0.6），这是由于正样例得分=负样例得分=0.6产生的，这种得分相同的情况在实际中是罕见的。
- 从宏观上看， $P_+$ 和 $R_+$ 是相互制衡的关系，所以 P-R 曲线呈现单调下降的趋势。
- 总体来看，越好的二分类器，其 P-R 曲线会越接近图像的右上角，在这个区域，正类的查准率和查全率都高。
- 极端情况：
  右端不在 $(1, 0)$ ，而是会位于 $(1,\frac{P}{P+N})$ ，纵坐标为正例在所有数据中的比例，这对应于阈值设为最低的情形。
  左端不在 $(0, 1)$ ,这对应于阈值设为最高的情形，对于正常的二分类器，得分最高的样例应当是个正例，所以左端的坐标会是 $(\frac1P,1)$ ，实际上很接近 $(0, 1)$ ；如果得分最高的样例是个负例，那么左端的坐标就是 $(0, 0)$ 了。

2.3 ROC 曲线跟 P-R 曲线的关系

我们发现，ROC 曲线的纵轴，恰好就是 P-R 曲线的横轴，它们都是正类的查全率（Recall，TPR， $R_+$ ）。如果把 ROC 曲线以 $(\frac12,\frac12)$ 为中心顺时针旋转 90 度，就能让 ROC 曲线变得「像」P-R 曲线，如图1.6所示.

图1.6 P-R曲线（左），旋转后的ROC曲线（右）

如图1.6所示，两条曲线都集中在图像的右上角，宏观上呈单调下降趋势。横轴都是正类的查全率。旋转后的 ROC 曲线，其纵轴的含义是 $R_-(即1-FPR=1-(1-TNR)=TNR)$ ，即负样本中被正确地分类为负例的比例，称为负类的查全率。而 P-R 曲线的纵轴是正类的查准率，两条曲线只是纵轴的含义不同。
在真实场景中，正例往往远少于负例。只要阈值不是设得极端低，一般都有 $TP < TN$ ，所以 $P_+<R_-$ (正类查准率<负类查全率)。也就是说，除了在曲线的最右端，旋转后的 ROC 曲线一般会高于 P-R 曲线。
在曲线的最右端，阈值设为最低，所有样例均被分类为正例，正类查全率 $R_+$ 为1；P-R 曲线的纵坐标正类查准率 $P_+$ 为 $\frac{P}{P+N}$ 等于正例所占比例，而旋转后的 ROC 曲线的纵坐标负类查全率 $R_-$ 则会下降到 0。

3. AUC+AP

3.1 AUC（Area under roc Curve）

AUC面积：ROC曲线下的面积大小，沿ROC横轴做积分计算。
绘制完ROC，通过计算AUC面积，对模型进行量化的分析。
真实场景中ROC曲线一般会在直线的上方，所以AUC的值一般在0.5~1之间。
AUC值是一个概率值，分类算法按此概率（AUC值）将正样本排在负样本前面。
AUC的值越大，越可能将正样本排在负样本前面，该模型的性能越好。

3.2 AP（average precision）

P-R曲线下的面积为： $mAP=\int_0^1P(R)dR=\sum_{k=1}^{N}P(k)∆r(K)$
AP 指标的定义：是对物体检测模型性能的一种评估指标，它主要用于衡量模型在不同类别目标上的精度。具体来说，AP是计算Precision-Recall曲线下的面积得到的，即使用一组阈值生成P-R曲线并计算该曲线下的面积。
AP的值越大，该模型的性能越好
mAP指标：由于一个数据集中通常会包含多个目标类别，因此平均准确率（mAP）是评估模型在整个数据集上性能的更综合的指标。通常，对于每个目标类别，我们都可以计算出一个AP值，然后对这些AP值取平均数来得到mAP。计算mAP时，通常采用两种方式：1）对所有类别的AP值求平均数；2）对所有类别进行加权平均数，其中每个类别的权重为它在数据集中出现的频率。
mAP是评估物体检测模型性能的一种广泛使用的指标，特别是在目标检测竞赛中。它可以综合考虑模型在多个目标类别上的性能表现，并提供了一种直观的方法来比较不同模型之间的性能差异。是取所有类别AP的平均值，衡量的是在所有类别上的平均好坏程度。

图2.1：不同阈值下的正类查准率P+

以图2.1为例
把阈值设置在紧靠第 1、2、3、4 个正例之后，正类的查准率分别是 1、1、0.6、0.5，所以 AP 指标等于 $(1 + 1 + 0.6 + 0.5) /4 = 0.775$ 。
如果有多个正例的得分相同，那么阈值设置在紧靠它们之下时的查准率，在取平均时也会被计算多次。比如，如果图 5.1 中得分为 0.6 的两个样例都是正例，那么 AP 就会变成 $(1 + 1 + 4/5 + 4/5 + 5/8) /5 = 0.845$ 。

4. 真实的ROC和P-R曲线

上述例子中展示了小数据集上的ROC和P-R曲线，下面展示了在大数据集上的结果。

4.1 正负样本得分-随机分布

把所有的样例得分随机分布，作为二分类问题的一个 baseline。当样例随机排序时，不管把阈值设在哪里，正类的查准率都会接近正类在所有数据中的比例（下记为 $\%_+$ ）；而正类的查全率 $R_+$ 会跟负类的查误率 $1-R_-$ 一样高，都等于阈值上方的样例占所有数据的比例，即 $\frac{TP+FP}{P+N}=1-\frac{TN+FN}{P+N}$ 。于是，P-R 曲线将是纵坐标为 $\%_+$ 的一条横线，而 ROC 曲线将是从 $(0, 0)$ 到 $(1, 1)$ 的一条斜线。
图 3.1是把 2000 个正例和 8000 个负例随机排序后，绘制出的 P-R 曲线和 ROC 曲线，以及把 ROC 曲线顺时针旋转 90 度后的结果。除了 P-R 曲线的左端有较大波动以外，一切符合预期。

图3.1：样本随机分布的 P-R 曲线（左）、 ROC 曲线（中）、旋转后的ROC曲线（右）

4.2 正负样本得分-等方差高斯分布

假设正类与负类各有 5000 个样例，且两类的得分都服从方差为 1 的高斯分布，均值之差为 2，如图 3.2：

图3.2正负样本得分为等方差高斯分布

这是一种比较真实的场景，在此场景下的 P-R 曲线与 ROC 曲线如图 3.3。P-R 曲线集中于右上角；ROC 曲线集中于左上角，顺时针旋转 90 度后则集中于右上角。

图3.3 样本高斯分布的 P-R 曲线（左）、 ROC 曲线（中）、旋转后的ROC曲线（右）

曲线越靠近相应的角落，正负样本得分的分布则相距越远。在上面的例子里，两类得分的均值之差 $d$ 等于各自标准差 $\sigma$ 的 2 倍。如果把正负样本得分的分布距离拉远，那么 P-R 和 ROC 曲线都会更加靠近角落。图 3.4 展示了 $d=2\sigma,3\sigma,4\sigma$ 时曲线的样子：

图3.4 d=2σ,3σ,4σ时的P-R 曲线（左）、 ROC 曲线（中）、旋转后的ROC曲线（右）

上面的例子中，正例的比例均为 50%。事实上，正例的比例对 P-R 曲线有较大的影响。正例越少，曲线越低，并且曲线右端的纵坐标恰好就是正例的比例。然而，ROC 曲线并不受正例所占比例的影响（如图1.2，ROC曲线比较稳定）。图 3.5 展示了 $d=2\sigma$ 时，把正例的比例减少至 20% 和 5% 时的 P-R 曲线。同时证明了1.1-6.中的理论，当正例远少于负例时，旋转后的 ROC 曲线会高于 P-R 曲线，最右端除外。

图3.5 不同正例占比的P-R曲线

4.3 正负样本得分-不等方差高斯分布

当两类得分呈不等方差的高斯分布时，观察P-R 曲线和 ROC 曲线。设正、负类各有 5000 个样例，正类得分的均值为 1、方差为 1，负类得分的均值为 -2、方差为 4，如图 3.6所示。

图3.6正负样本得分为不等方差高斯分布

此时的 P-R 曲线和 ROC 曲线如图 3.7。注意到 P-R 曲线不再呈单调下降的趋势，而是先升后降，这是因为负类的最高得分跟正类的最高得分差不多了，哪怕把阈值设得很高，也无法完全排除负类。这并不是「两类得分方差不等」的必然结果，而是依赖于分布的具体参数。另外可以注意到，与等方差的情形不同，ROC 曲线不再是关于对角线对称的了。

图3.7 样本不等方差高斯分布的 P-R 曲线（左）、 ROC 曲线（中）、旋转后的ROC曲线（右）

和等方差高斯分布一样，两类得分的分布分得越开，曲线就越靠近角落（图略）；
和等方差高斯分布一样，正例所占比例会影响 P-R 曲线，如图 3.8所示。但不会影响 ROC 曲线（图略，理由同上，请看1.1-6.中的理论）。

图3.8 不同正例占比的P-R曲线

添加链接描述

5. MCC（Matthews correlation coefficient）

参考
马修斯相关系数（MCC）是 $p hi$ 系数的一个特例。即将True Class和Predicted Class视为两个（二进制）变量，并计算它们的相关系数（与计算任何两个变量之间的相关系数类似）。真实值和预测值之间的相关性越高，预测效果越好。只有当预测在所有四个混淆矩阵类别（TP、TN、FN和FP）中都获得了良好的结果时，它才会产生高分。

计算公式如下：
$MCC=\frac{TP\times TN-FP\times FN}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}$

根据计算公式，可知当分类器是完美的（FP = FN = 0），MCC的值是1，表示完全正相关。相反，当分类器总是分类错误时（TP = TN = 0），得到的数值是-1，代表完美的负相关。所以，MCC的值总是在-1和1之间，0意味着分类器不比随机二分类选择好。此外，MCC是完全对称的，所以没有哪个类别比其他类别更重要，如果把正反两个类别换一下，仍然会得到相同的值。

然后我们再计算一下，上面例举的数据中MCC的值：
$MCC=\frac{18\times 1-3\times 2}{\sqrt{(18+3)(18+2)(1+3)(1+2)}}=0.17$

MCC的值是0.17 ，表明预测类和真实类是弱相关的。从以上的计算和分析，我们知道这种弱相关是因为分类器不擅长对猫进行分类。

6. IOU

6.1 重叠度 IoU Intersect over Union

IoU：在特定数据集中检测物体准确度的一个标准，评价候选框 bounding box的定位精度。

IOU用于测量真实和预测范围之间的相关度（重叠度），相关度越高，该值越高。对于任意大小形状的物体检测，其中：

ground-truth bounding boxes：人为在训练集图像中标出要检测物体的大概范围
predicted bounding boxes：根据算法得出的预测范围

如下图6所示。绿色标线是人为标记的正确结果（ground-truth），红色标线是算法预测的结果（predicted）。

真实和预测候选框

6.2 IoU的计算

IoU为区域重叠的部分除以区域的集合部分得出的结果。
$IoU=\frac{Area\, of\, Overlap}{Area\, of\, Union}$

真实和预测候选框

比较设定的阈值与IoU计算结果，通常我们认为:

Correct: 类别正确且 IoU > .5
Localization: 类别正确, .1 < IoU < .5
Similar: 类别近似, IoU > .1
Other: 类别错误, IoU > .1
Background: IoU < .1 的任意目标