sklearn中分类模型评估指标（二）：Kappa系数、混淆矩阵、分类指标报告、汉明损失

这是我参与11月更文挑战的第23天，活动详情查看：2021最后一次更文挑战

混淆矩阵

confusion_matrix函数通过计算每一行对应于真实类别的混淆矩阵来评估分类准确率。

根据定义，混淆矩阵中的条目[i，j]是实际上在类 i 中，但预测在类 j 中的数量。

示例代码：

from sklearn.metrics import confusion_matrix
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
print(confusion_matrix(y_true, y_pred))
复制代码

运行结果：

[[2 0 0]
 [0 0 1]
 [1 0 2]]
复制代码

参数normalize允许报告结果是比率而不是计数。混淆矩阵可以通过3种不同的方式进行归一化：'pred'、'true'和'all'，它们分别将计数除以每列、每行或整个矩阵的总和。

示例代码：

y_true = [0, 0, 0, 1, 1, 1, 1, 1]
y_pred = [0, 1, 0, 1, 0, 1, 0, 1]
print(confusion_matrix(y_true, y_pred, normalize='all'))
复制代码

运行结果：

[[0.25  0.125]
 [0.25  0.375]]
复制代码

对于二分类问题，我们可以得到真阴性(tn)、假阳性(fp)、假阴性(fn)和真阳性(tp)的计数，如下所示：

tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
print(tn, fp, fn, tp) # 2 1 2 3
复制代码

Kappa系数

cohen_kappa_score函数计算 Cohen 的 kappa 统计量。该措施旨在比较不同人类标注者的标签，而不是分类器的预测值与真实值。

其公式为：

\kappa = (p_o - p_e) / (1 - p_e)

其中， $p_o$ 是分配给任何样本的标签的经验概率（观察到的一致性比率）， $p_e$ 是两个标注者随机分配标签时的预期一致性。 $p_e$ 是使用类标签上的每个标注者的经验先验估计的。

上面关于 $p_o$ 和 $p_e$ 的解释有点晦涩难懂，请看下面：

$p_o$ 是每一类正确分类的样本数量之和除以总样本数，也就是总体分类精度。

我们假设每一类的真实样本个数分别为 $a_1,a_2,...,a_n$ ，而预测出来的每一类的样本个数分别为 $b_1,b_2,...,b_n$ ，总样本个数为 $n$ ，则有： $p_e=\frac{a_1×b_1+a_2×b_2+...+a_n×b_n}{n×n}$

kappa 分数是一个介于 -1 和 1 之间的数字。通常，kappa是落在0与1之间，高于 0.8 的分数通常被认为是良好的一致性；零或更低意味着不一致（实际上是随机标签）。

可以为二分类或多分类问题计算 Kappa 分数，但不能为多标签问题计算 Kappa 分数（除非通过手动计算每个标签的分数）并且不能为两个以上的标注者计算。

举例说明：学生考试的作文成绩，由两个老师给出好、中、差三档的打分，现在已知两位老师的打分结果，需要计算两位老师打分之间的相关性kappa系数：

从上面的公式中，我们可以知道，其实只需要计算 $p_o$ ， $p_e$ 即可：

$p_o = (10+35+15) / 87 = 0.689$
$a1 = 10+2+8 = 20; a2 = 5+35+5 = 45; a3 = 5+2+15 = 22;$
$b1 = 10+5+5 = 20; b2 = 2+35+2 = 39; b3 = 8+5+15 = 28;$
$p_e = \frac{a1*b1 + a2*b2 + a3*b3}{87*87} = 0.455$
$\kappa = \frac{p_o-p_e}{1-p_e}$ = 0.4293578

示例代码：

from sklearn.metrics import cohen_kappa_score
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
print(confusion_matrix(y_true, y_pred))
print("-----------")
print(cohen_kappa_score(y_true, y_pred))
复制代码

运行结果：

[[2 0 0]
 [0 0 1]
 [1 0 2]]
-----------
0.4285714285714286
复制代码

计算过程如下：

po=4/6=2/3
a1=2; a2=1; a3=3
b1=3; b2=0; b3=3
pe=(2*3+1*0+3*3)/(6*6)=15/36=5/12
kappa=(2/3-5/12)/(1-5/12)=3/7=0.4285
复制代码

分类指标报告

classification_report函数构建一个显示主要分类指标的文本报告。

主要参数说明：

target_names：显示与标签匹配的名称（相同顺序），可选参数
labels：选择要包含在报告中的标签索引列表，可选参数

这是一个带有自定义target_names和推理labels的例子：

from sklearn.metrics import classification_report
y_true = [0, 1, 2, 2, 0]
y_pred = [0, 0, 2, 1, 0]
target_names = ['class 0', 'class 1', 'class 2']

print(classification_report(y_true, y_pred, target_names=target_names))
复制代码

运行结果：

              precision    recall  f1-score   support

     class 0       0.67      1.00      0.80         2
     class 1       0.00      0.00      0.00         1
     class 2       1.00      0.50      0.67         2

    accuracy                           0.60         5
   macro avg       0.56      0.50      0.49         5
weighted avg       0.67      0.60      0.59         5
复制代码

下面是一个自定义labels的例子：

print(classification_report(y_true, y_pred, labels=[1, 2]))
复制代码

运行结果：

              precision    recall  f1-score   support

           1       0.00      0.00      0.00         1
           2       1.00      0.50      0.67         2

   micro avg       0.50      0.33      0.40         3
   macro avg       0.50      0.25      0.33         3
weighted avg       0.67      0.33      0.44         3
复制代码

汉明损失

hamming_loss计算两组样本之间的平均汉明损失或汉明距离，取值在0~1之间，距离为0说明预测结果与真实结果完全相同，距离为1就说明模型与我们想要的结果完全就是背道而驰。

如果 $\hat{y}_j$ 是给定样本的第 j 个标签的预测值， $y_j$ 为对应的真值， $n_\text{labels}$ 为类别或标签的个数，那么真实值与预测值这两个样本之间的汉明损失 $L_{Hamming}$ 定义为：

L_{Hamming}(y, \hat{y}) = \frac{1}{n_\text{labels}} \sum_{j=0}^{n_\text{labels} - 1} 1(\hat{y}_j \not= y_j)

其中， $1(x)$ 是指标函数。

示例代码：

from sklearn.metrics import hamming_loss

y_pred = [1, 2, 3, 4]
y_true = [2, 2, 3, 4]
print(hamming_loss(y_true, y_pred)) # (1/4)*(1+0+0+0)

# 在具有二标签指示器的多分类场景
print(hamming_loss(np.array([[0, 1], 
                             [1, 1]]), 
                   np.zeros((2, 2)))
     ) # (1/2)*(1/2)*((1+0)+(1+1))
复制代码

运行结果：

0.25
0.75
复制代码

注意：

在多分类中，汉明损失对应于 y_true 和 y_pred 之间的汉明距离，类似于零一损失函数。然而，虽然零一损失惩罚不严格匹配真实集的预测集，但汉明损失惩罚单个标签。因此，以零一损失为上限的汉明损失始终介于0和1之间，包括两者；并且预测真实标签的适当子集或超集将给出介于 0 和 1 之间的汉明损失，不包括0和1。

总结

函数	说明
`cohen_kappa_score`	适用于二分类、多分类场景，一种检验一致性的方法
`confusion_matrix`	适用于二分类、多分类场景，通过计算每一行对应于真实类别的混淆矩阵来评估分类准确率
`classification_report`	适用于二分类、多分类、多标签场景，显示主要分类指标的文本报告
`hamming_loss`	适用于二分类、多分类、多标签场景，计算两组样本之间的汉明距离