评价模型的指标

正确率、精确率、召回率、F1、AUC和ROC曲线其实都是评价模型好坏的指标,而且相互之间是有关系的,只是侧重点不同。

根据混淆矩阵可以得出:TP,FN,FP,TN四个值。

准确率:(TP+TN)/(TP+FN+FP+TN)

可以看出是实际分对的样本/总样本

精确率:TP/ ( TP+FP )

预测为正确的样本中实际为正确样本的占比

召回率: TP /(TP+FN)

 

F1值相当于精确率和召回率的综合评价指标。

 

接下来就是ROC值,ROC空间将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。这两个值由上面四个值计算得到,公式如下:

TPR(True Positive Rate):TPR代表能将正例分对的概率,也就是召回率:

TPR=TP/(TP+FN)

FPR(false Positive Rate):FPR代表将负例错分为正例的概率,也就是误检率:

FPR=FP/(FP+TN)

 

AUC值等于ROC曲线下面的面积

AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。

0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。

AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

较大的AUC代表了较好的模型。

 

为什么要用ROC?

因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化,例如Precision-Recall曲线则变化较大。

PR值:就是以precision为横轴, recall为纵轴,取不同的threshold画成的,鱼与熊掌不可兼得,可用此图辅助,控制你的阈值,达到你的要求,如何更好的选择你的precision和recall。

猜你喜欢

转载自blog.csdn.net/qq_36447181/article/details/83026344
今日推荐