机器学习相关指标

1 ROC

ROC((Receiver Operating Characteristic Curve))，即受试者工作特征曲线。ROC曲线是用来验证一个分类器（二分）模型的性能的。其工作原理是，给出一个模型，输入已知正负类的一组数据，并通过对比模型对该组数据进行的预测，衡量这个模型的性能。

TP：实际是正样本预测成正样本的样本数
FN：实际是正样本预测成负样本的样本数
FP：实际是负样本预测成正样本的样本数
TN：实际是负样本预测成负样本的样本数
TPR=TP/(TP+FN)，也称为“命中率”
FPR=FP/(FP+TN)，也称为“假报率”
TNR=TN/(FP+TN)，也称为“敏感度”

ROC曲线如下图所示

(0,0)：分类器全部预测成负样本，这种情况说明阈值选得过高
(0,1)：全部完美预测正确
(1,0)：全部完美预测错误
(1,1)：分类器全部预测成正样本，这种情况说明阈值选得过低
TPR＝FPR，斜对角线，预测为正样本的结果一半是对的，一半是错的，代表随机分类器的预测效果

2 AUC

AUC(Area Under Curve)：ROC曲线与FPR轴线形成的面积，是对ROC曲线的量化指标。AUC的值越大越好，其取值范围为(0.5，1)。

3 ACC

ACC(Accuracy)：准确率，ACC=(TP+TN)/(TP+TN+FP+FN)，即分类器准确识别真阳性和假阴性的比率。
ACC没办法较好地脱离测试数据对模型进行评价，这也就是我们为什么要用ROC的原因。（如一组数据负样本比例极高，ACC值高，表明对负类预测很准；但另一组数据正样本比例高，这样ACC的值会很低）

4 召回率(Recall)

召回率表示样本中的正例有多少被预测正确，有两种可能：一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。
R=TPR=TP/(TP+FN)

5 精度(Precision)

精度表示预测为正的样本中有多少是正确的，有两种可能：一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)。
P=TP/(TP+FP)

参考

https://blog.csdn.net/shenpibaipao/article/details/78033218
https://blog.csdn.net/sunflower_sara/article/details/81214897