机器学习相关指标

1 ROC

ROC((Receiver Operating Characteristic Curve)),即受试者工作特征曲线。ROC曲线是用来验证一个分类器(二分)模型的性能的。其工作原理是,给出一个模型,输入已知正负类的一组数据,并通过对比模型对该组数据进行的预测,衡量这个模型的性能。

TP:实际是正样本预测成正样本的样本数
FN:实际是正样本预测成负样本的样本数
FP:实际是负样本预测成正样本的样本数
TN:实际是负样本预测成负样本的样本数
TPR=TP/(TP+FN),也称为“命中率”
FPR=FP/(FP+TN),也称为“假报率”
TNR=TN/(FP+TN),也称为“敏感度”

  • ROC曲线如下图所示

    (0,0):分类器全部预测成负样本,这种情况说明阈值选得过高
    (0,1):全部完美预测正确
    (1,0):全部完美预测错误
    (1,1):分类器全部预测成正样本,这种情况说明阈值选得过低
    TPR=FPR,斜对角线,预测为正样本的结果一半是对的,一半是错的,代表随机分类器的预测效果

2 AUC

  • AUC(Area Under Curve):ROC曲线与FPR轴线形成的面积,是对ROC曲线的量化指标。AUC的值越大越好,其取值范围为(0.5,1)

3 ACC

  • ACC(Accuracy):准确率,ACC=(TP+TN)/(TP+TN+FP+FN),即分类器准确识别真阳性和假阴性的比率。
  • ACC没办法较好地脱离测试数据对模型进行评价,这也就是我们为什么要用ROC的原因。(如一组数据负样本比例极高,ACC值高,表明对负类预测很准;但另一组数据正样本比例高,这样ACC的值会很低)

4 召回率(Recall)

  • 召回率表示样本中的正例有多少被预测正确,有两种可能:一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
  • R=TPR=TP/(TP+FN)

5 精度(Precision)

  • 精度表示预测为正的样本中有多少是正确的,有两种可能:一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。
  • P=TP/(TP+FP)

参考

https://blog.csdn.net/shenpibaipao/article/details/78033218
https://blog.csdn.net/sunflower_sara/article/details/81214897

猜你喜欢

转载自blog.csdn.net/u013187057/article/details/84028890