分类问题的性能度量

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sunlanchang/article/details/89461879

错误率和精度Accuracy

错误率公式:
E ( f ; D ) = 1 m i = 1 m I ( f ( x i ) y i ) E(f ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)
精度公式:
acc ( f ; D ) = 1 m i = 1 m I ( f ( x i ) = y i ) = 1 E ( f ; D ) \begin{aligned} \operatorname{acc}(f ; D) &=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right)=y_{i}\right) \\ &=1-E(f ; D) \end{aligned}

查准率、查全率和F1

混淆矩阵定义:
在这里插入图片描述

查准率:与混淆矩阵第一列有关,预测的正例子有多少是真正的正例子:
P = T P T P + F P P=\frac{T P}{T P+F P}

查全率:与混淆矩阵第一行有关,真正的正例子中有多少被正确的预测了:
R = T P T P + F N R=\frac{T P}{T P+F N}

F1:由于查全率和查准率是一对矛盾,此时F1兼顾P和R的表现,是P和R的调和平均,定义式如下:
1 F 1 = 1 2 ( 1 P + 1 R ) \frac{1}{F 1}=\frac{1}{2} \cdot\left(\frac{1}{P}+\frac{1}{R}\right)

P-R曲线

目的:用于选择查准率和查全率都表现相对较好的模型。
x轴为查全率,y轴为查准率即可绘制PR曲线:
在这里插入图片描述
如图所示A模型的PR曲线包住了C的PR曲线,说明A模型在P和R的综合表现要强过C。

ROC与AUC

目的:用来选择分类阈值(threshold)超参。
ROC曲线以x轴为假正率,y轴为真正率。真正率即召回率,假正率与混淆矩阵的第二行有关,假正率定义如下:
F P R = F P T N + F P \mathrm{FPR}=\frac{F P}{T N+F P}

曲线如下图所示:
在这里插入图片描述
b图中每一个点坐标代表着由一个阈值所预测的混淆矩阵计算得出的真正率和假正率的坐标。阈值的确定是递增或者递减的例如从0开始一直到1,每改变一次阈值就计算一次混淆矩阵,然后计算真正率假正率,然后绘图。

参考:周志华 机器学习

猜你喜欢

转载自blog.csdn.net/sunlanchang/article/details/89461879