在二分类条件下，我们可以很轻易的在混淆矩阵的基础上定义出各种指标（例如Accurarcy, precision, $F_1$ , recall），其定义方法如下：
在这里插入图片描述
true positive: TP，真实情况为True,预测也为正的样本数。
false positive:FP，真实情况为False，预测为正的样本数。
false negative:FN，真实情况为True，预测为负的样本数。
true negative: TN，真实情况为False，预测为负的样本数。
对于这四个指标，在英文的取名是是两个形容词【 $A_1$ , $A_2$ 】，其中第二个形容词是主体，表示预测的结果（预测目标的是正样本，还是负样本），它其实对应着一个命题：预测该样本为正或负样本。第一个形容词是对这个命题的判断结果，表示这个命题的正确与否。
例如： false negative： negative表示"分类器预测该样本为负样本"这个命题。 false则表示这个命题（“分类器预测该样本为负样本”）是错误的，既然命题是错误的，说明这个样本的实际情况是正样本。
在这些指标下，acc,recall，precision的值定义如下：
$Accuracy=\frac{TP+TN}{TP+FP+FN+TN}$
$Recall=\frac{TP}{TP+FN}$
$Precision=\frac{TP}{TP+FP}$

那么对于多分类，如何定义混淆矩阵的TP,FP,FN,TN？
一般的做法是，对于多分类里面的每个类别，将自身类作为正类，其他所有类作为反类，然后定义出各自的 $TP_i,FP_i,FN_i,TN_i$ ，然后再去计算各个类别的 $accuracy_i$ ， $recall_i$ 和 $F_{1i}$ ，其中 $i$ 表示第i个类别。
如果要计算出分类器对于所有类别的acc和recall，需要把所有类别的结果都汇聚起来，而Macro-average，Micro-average和Weighted-average就是三种汇聚所有类的指标的方式。
具体来说：
Macro-average下的accuracy的计算方式是：
$Accuracy_{macro\_avg}=\sum^{N}_{i=1}\frac{1}{N} \times accuracy_i=\sum^{N}_{i=1}\frac{1}{N}\times \frac{TP_i+TN_i}{TP_i+TN_i+FP_i+FN_i}$
这相当于把所有类别的权重都是设置为一致，这种方式在测试样本的类别在数量上极端不均衡的时候极端的不合理。
因此，为了考虑到不同类别的样本不均衡，就有所谓的Weighted-average计算方式：
$Accuracy_{weight\_avg}=\sum^{N}_{i=1}\frac{TP_i+FN_i}{\sum^{N}_{j=1} TP_i+FN_i}\times accuracy_i$
这是把第i个类别的权重设置为了第i类样本占所有类别样本的比例了。

而Micro-average下的Precision和recall的计算方式和accuracy的计算方式还不太一样：
$Recall=\frac{\sum_{i=1}^{N}TPi}{\sum_{j=1}^N TP_j+FN_j}$
$Precision=\frac{\sum_{i=1}^{N}TPi}{\sum_{j=1}^N TP_j+FP_j}$
而Accuracy是说，所有这些样本里面，有多少个样本是识别正确的，因此它的计算方式为：
$Accuracy=\frac{\sum_{i=1}^{N}TPi}{总样本数}$

举例说明

我们举个三分类的例子加以说明。
如下图所示的混淆矩阵：
在这里插入图片描述
对猫，鱼，鸡，我们可以分别求出各自的TP,TN,FP,FN:
$TP_{猫}=4$ , $TP_{鱼}=2$ ， $TP_{鸡}=6$
$TN_{猫}=2+2+0+6=10$ , $TN_{鱼}=4+3+1+6=14$ ， $TN_{鸡}=4+6+1+2=13$
$FP_{猫}=6+3=9,FP_{鱼}=1+0=1,FP_{鸡}=1+2=3$
$FN_{猫}=1+1=2,FN_{鱼}=6+2=8,FN_{鸡}=3+0=3$
于是对于猫来说：
$Accuracy_{猫}=\frac{4+10}{4+10+9+2}=0.56$
$recall_{猫}=\frac{4}{6}=0.66$
$precision_{猫}=\frac{TP_{猫}}{TP_{猫}+FP_{猫}}=\frac{4}{4+9}=0.3076$

对于鱼来说：
$Accuracy_{鱼}=\frac{2+14}{2+14+1+8}=0.64$
$recall_{鱼}=\frac{2}{2+8}=0.20$
$precision_{鱼}=\frac{TP_{鱼}}{TP_{鱼}+FP_{鱼}}=\frac{2}{2+1}=0.66$

对于鸡来说：
$Accuracy_{鸡}=\frac{6+13}{6+13+3+3}=0.76$
$recall_{鸡}=\frac{6}{6+3}=0.66$
$precision_{鸡}=\frac{TP_{鸡}}{TP_{鸡}+FP_{鸡}}=\frac{6}{6+3}=0.66$

接下来，我们分别计算Macro-average，Micro-average和Weighted-average下的三种指标：
Macro-average 情况下 :
$acc=\frac{0.56+0.64+0.76}{3}$

$recall=\frac{0.66+0.66+0.20}{3}$

$precision=\frac{0.3076+0.66+0.66}{3}$

Micro-average 情况下:
$acc=\frac{4+2+6}{6+4+9}=\frac{12}{25}=0.48$

$recall=\frac{4+2+6}{4+2+6+2+8+3}=\frac{12}{25}=0.48$

$precision=\frac{4+2+6}{4+2+6+9+1+3}=\frac{12}{25}=0.48$

以及Weighted情况下：
我们首先计算出三个类别的样本比例：
样本总数目： $TP_{猫}+FN_{猫}+TP_{鱼}+FN_{鱼}+TP_{鸡}+FN_{鸡}$ =4+2+2+8+6+3=25

猫占比 $r_猫$ ： $\frac{TP_{猫}+FN_{猫}}{TP_{猫}+FN_{猫}+TP_{鱼}+FN_{鱼}+TP_{鸡}+FN_{鸡}}=\frac{6}{25}=0.24$

鱼占比 $r_鱼$ ： $\frac{TP_{鱼}+FN_{鱼}}{TP_{猫}+FN_{猫}+TP_{鱼}+FN_{鱼}+TP_{鸡}+FN_{鸡}}=\frac{10}{25}=0.4$

鸡占比 $r_鸡$ ： $\frac{TP_{鸡}+FN_{鸡}}{TP_{猫}+FN_{猫}+TP_{鱼}+FN_{鱼}+TP_{鸡}+FN_{鸡}}=\frac{9}{25}=0.36$
于是各个指标就是加权求和了：
$acc=acc_猫\times r_猫+ acc_鱼 \times r_鱼+ acc_鸡 \times r_鸡$ =0.560.24+0.640.4+0.76*0.36=0.664

$recall=recall_猫\times r_猫+recall_鱼 \times r_鱼+ recall_鸡 \times r_鸡$ =0.660.24+0.200.4+0.66*0.36=0.476

$precision=precision_猫\times r_猫+ precision_鱼 \times r_鱼+ precision_鸡 \times r_鸡$ =0.30760.24+0.660.4+0.66*0.36=0.5754

其它

我们会看到上面这个例子里面，Micro-average下，多分类的accuracy，recall和precision会相同。这不是个例，而是多分类任务下，micro-average指标的常态。

这是因为在多分类里面，micro-average情况下，recall和precision的计算公式为：
$Recall=\frac{\sum_{i=1}^{N}TPi}{\sum_{j=1}^N TP_j+FN_j}$
$Precision=\frac{\sum_{i=1}^{N}TPi}{\sum_{j=1}^N TP_j+FP_j}$
其中 $\sum^N_{j=1}FN_j$ 含义为所有类别里面，把【本属于自己类】的样本错误的识别为其他类别的样本数之和； $\sum^N_{j=1}FP_j$ 含义为所有类别里面，把【不属于自己类】的样本错误的识别为本类的样本数之和。

假设样本 $x$ 的正确类别为 $y_r$ ，但是预测的类别为 $y_p$ ，且 $y_r\neq y_p$ 。
毫无疑问，对于类别 $y_r$ 来说，它被错误的识别为其他类了，因此这个样本会被统计到 $\sum^N_{j=1}FN_j$ 里面去。
同时对于类别 $y_p$ 来说，这个样本也会一样统计到 $\sum^N_{j=1}FP_j$ ，因为它是属于把本不是 $y_p$ 类的样本错误的识别为 $y_p$ 类了。
因此对所有类别求和以后，即有： $\sum^N_{j=1}FN_j$ = $\sum^N_{j=1}FP_j$ 。

同时注意到，对于每个样本 $x$ ，其预测结果与真实标签之间只存在相等于不相等的关系。如果 $y_r\neq y_p$ 那么这个样本会被统计进 $\sum^N_{j=1}FP_j$ 或者 $\sum^N_{j=1}FN_j$ ；如果 $y_r=y_p$ ，那么这个样本会被统计进 $\sum^N_{j=1}TP_j$ ，因此统计量 $\sum^N_{j=1}TP_j+ FN_j$ 其实也等于样本总数；

而 $accuracy=\frac{\sum_{i=1}^{N}TPi}{总样本数}$ 。因此，Micro-average平均下，多分类的accuracy,recall和precision其实是一致的。而这也是为什么sklearn里面classification_report在输出的时候，没有micro-average，只有accuracy，macro-average和weighted-average的结果。其实，第一行的accuracy就把micro-average下的三个值都显示出来了，因为precision，recall都是和accuracy相等的。
在这里插入图片描述

多分类条件下分类指标：Macro-average和Micro-average，以及Weighted-average

举例说明

其它

猜你喜欢