混淆矩阵及分类评价指标概念辨析

分类评价指标概念辨析

  这些东西其实没什么难的,而且很多人肯定也是很早就接触过了,最大的问题在于时间长了记不住,所以就尽量解释的简单写,用于下次查阅使用。
  主要需要理解的就是二分类的指标。
在这里插入图片描述
  混淆矩阵中,横轴是样本真实标签,决定了样本是正例( P)还是负例(N),纵轴代表模型的估计标签。在辨析各种基本概念的时候,因为这些评价都是和真实标签进行对比。分类分对了就是真(T),分错了就是假(F),只需要把分对分错加到所分标签即可。分对了正例就叫TP,分对了负例就叫TN,显然分对了是矩阵对角线的元素。然后分类分错就叫F,分出来正例分错就叫FP,分出来负例分错了就叫FN。
  知道了这些概念就能很容易把概念和名字对应起来了,假阴(FN)率,真阳率(TP)。TPR自然就是真阳率,就是分对的正例占正例的比例。 T P R = T P / P TPR=TP/P ,假阳率虽然也有个阳,但是是假的,其实就是阴例,所以分母是所有的阴例, F P R = F P / N FPR=FP/N ,这几个都是除以自己所在列的和。
  正确率就是分对的除总数,也就是 T / T + F T/T+F ,总数也可以通过 N + P N+P 计算,可以看到分对的其实就是主对角线。错误率就是分错的除总数,分错的就是副对角线。
  召回(Recall)率又叫查全率,意思就是分类正确的正例的占全部正例的比例,比例越高说明查的越全。 R e = T P / ( T P + F N ) = T P / P Re=TP/(TP+FN)=TP/P 。可以看到召回率又叫真阳率,又叫敏感度(Sensitive)。
  准确(Precision)率又叫查准率,就是看判别为正例的是否准确, P r = T P / ( T P + F P ) = T P / Y Pr=TP/(TP+FP)=TP/Y 。这里可以看到准确率和查全率的分子都是TP。
  在医学等相关行业会关注特异性(Specificity),所有负例被分对的比例,计算方式 S p = T N / T N + F P = T N / N Sp=TN/TN+FP=TN/N 。可以看到特异性又叫真阴率。
  如果把所有的样本逐个摊开,每次来一个样本,根据分类的结果算一次假阳(FP)率和真阳(TP)率,然后分别作为x,y轴描出一系列的点,这个时候就叫接受者操作特性(ROC)曲线(要注意两个指标的分母是不一样的,前者是F,后者是P)。然后这个曲线的面积就叫AUC(Area Under Curve)了,显然如果值越大,说明FPR和TPR都很好,通常这两者是矛盾的,如果都比较好,那模型基本是没问题了。

发布了36 篇原创文章 · 获赞 4 · 访问量 47万+

猜你喜欢

转载自blog.csdn.net/m0_38065572/article/details/104599403
今日推荐