混淆矩阵及分类评价指标概念辨析

分类评价指标概念辨析

这些东西其实没什么难的，而且很多人肯定也是很早就接触过了，最大的问题在于时间长了记不住，所以就尽量解释的简单写，用于下次查阅使用。
主要需要理解的就是二分类的指标。
在这里插入图片描述
混淆矩阵中，横轴是样本真实标签，决定了样本是正例( P)还是负例(N)，纵轴代表模型的估计标签。在辨析各种基本概念的时候，因为这些评价都是和真实标签进行对比。分类分对了就是真(T)，分错了就是假(F)，只需要把分对分错加到所分标签即可。分对了正例就叫TP，分对了负例就叫TN，显然分对了是矩阵对角线的元素。然后分类分错就叫F，分出来正例分错就叫FP，分出来负例分错了就叫FN。
知道了这些概念就能很容易把概念和名字对应起来了，假阴(FN)率，真阳率(TP)。TPR自然就是真阳率，就是分对的正例占正例的比例。 $TPR=TP/P$ ，假阳率虽然也有个阳，但是是假的，其实就是阴例，所以分母是所有的阴例， $FPR=FP/N$ ，这几个都是除以自己所在列的和。
正确率就是分对的除总数，也就是 $T/T+F$ ，总数也可以通过 $N+P$ 计算，可以看到分对的其实就是主对角线。错误率就是分错的除总数，分错的就是副对角线。
召回(Recall)率又叫查全率，意思就是分类正确的正例的占全部正例的比例，比例越高说明查的越全。 $Re=TP/(TP+FN)=TP/P$ 。可以看到召回率又叫真阳率，又叫敏感度(Sensitive)。
准确(Precision)率又叫查准率，就是看判别为正例的是否准确， $Pr=TP/(TP+FP)=TP/Y$ 。这里可以看到准确率和查全率的分子都是TP。
在医学等相关行业会关注特异性(Specificity)，所有负例被分对的比例，计算方式 $Sp=TN/TN+FP=TN/N$ 。可以看到特异性又叫真阴率。
如果把所有的样本逐个摊开，每次来一个样本，根据分类的结果算一次假阳(FP)率和真阳(TP)率，然后分别作为x，y轴描出一系列的点，这个时候就叫接受者操作特性(ROC)曲线（要注意两个指标的分母是不一样的，前者是F，后者是P）。然后这个曲线的面积就叫AUC(Area Under Curve)了，显然如果值越大，说明FPR和TPR都很好，通常这两者是矛盾的，如果都比较好，那模型基本是没问题了。

August-us

发布了36 篇原创文章 · 获赞 4 · 访问量 47万+

私信关注

混淆矩阵及分类评价指标概念辨析

分类评价指标概念辨析

猜你喜欢