机器学习中的混淆矩阵，准确率，精确率，召回率，F1-Score

评价指标的引出

为什么要引出这么多评价指标，它是基于什么样的需求？

在生活中，最常用的就是准确率，因为它定义简单而且比较通用，但在机器学习中，它往往不是评估模型的最佳工具，特别是在数据分布不平衡的时候，请看一个例子：

比如我们训练了一个预测地震的模型，预测类别只有两个：0：不发生地震、1：发生地震，当前有100个测试集，如果模型地无脑把每一个测试用例都预测为0，那么它就达到99%的准确率，但实际上它并不具有预测的能力，为什么会出现这种情况？因为这里数据分布不平衡，类别为1的数据太少，完全分错类别1依然可以达到很高的准确率，因此在正负样本不平衡的情况下，准确率这个评价指标就有很大的缺陷。（这里的正负是相对于任务来说的，对于预测地震这个任务而言，目标是预测出地震，所以地震就是正例）

准确率是关注了所有分类正确的，当正负样例分布不平衡时，负例占据了绝大多数，而正例得不到体现，因此会造成分数高的情况，那么一个很自然解决的办法就是我们聚焦于关注正例的识别，于是就引出了精确率（精度）、召回率等指标。

一级指标

准确率、精确率、召回率等这些评价指标都是基于底层的统计指标（一级指标）计算出来的。

对于一个二分类问题，模型的预测结果有四类：

真正例，实际是正例，模型预测为正例（True Positive=TP）
假正例，实际是负例，模型预测为正例（False Negative=FN）
真负例，实际是负例，模型预测为负例（False Positive=FP）
假负例，实际是正例，模型预测为负例（True Negative=TN）

缩写可能比较容易搞混，注意前面的真假是修饰后面正负的，是对模型的预测结果的描述，比如第2个，假正例，表示模型预测的是正例，但是结果是假的，意思是实际它是负例，好好体会（手动狗头

将这四个指标放在表格里就能得到如下这样一个矩阵，称它为混淆矩阵（Confusion Matrix）：
在这里插入图片描述

二级指标

有了混淆矩阵，就可以进一步计算准确率、精确率（精度）、召回率了，这些属于二级指标，计算方式如下：
在这里插入图片描述
可以看到，相比准确率的全局关注，精确率和召回率更多的关注了正例的内容

三级指标—F1值

有了精确率和召回率，为什么还要引入F1值指标呢？

在实际应用中，模型的精确率和召回率是矛盾的，一个高一个就低，以预测地震为例，测试集中1000天中有10天地震，假如模型不轻易预测为地震，但一个预测一个准，1000天就预测了一天为地震（预测对），那么它的精确率就为1，但召回率只有10%，假如模型随便就预测为地震，预测了100天地震（预测出了全部），那召回率为1，但精确率就只有10%。所以需要综合的考虑两者的分数，于是就引入了F1值，它是精确率和召回率的调和平均，计算方式为：
$F_{1}=2 * \frac{\text {precision } * \text { recall}}{\text {precision }+\text {recall}}$
F1-Score的取值范围从0到1的，1代表模型的输出最好，0代表模型的输出结果最差，很多常见的任务比如比如命名实体识别就拿它作为评价指标。

如果对你有帮助，请点个赞让我知道:-D

reference
https://www.cnblogs.com/xuexuefirst/p/8858274.html
https://blog.csdn.net/qq_35290785/article/details/89603729