菜鸟理解ROC曲线

版权声明:yangwy https://blog.csdn.net/weixin_43474731/article/details/89326435

1.ROC曲线: 受试者工作特征曲线 (receiver operating characteristic curve)又称为感受性曲线(sensitivity curve)。
2.ROC曲线: 它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感度和特异度,再以敏感度为纵坐标、特异度为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。
3.纵轴—敏感度—TPR
4.横轴—特异度—FPR

在二分类问题中,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况。
(1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP)
(2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN)
(3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP)
(4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN)
如下图:其中1表示正类,0表示负类。
在这里插入图片描述
在这里插入图片描述
在理解以上概念之后,接下来就是绘制ROC曲线了。假设已经得出一系列样本被划分为正类的概率,然后按照正类的概率降序排序。下图中一共有20个测试样本。“类别”表示每个测试样本真正的标签(1表示正样本,0表示负样本)。“得分”表示每一个测试样本属于正样本的概率。
在这里插入图片描述
一般的二分类的实现方法就是选择一个阈值,将大于这个阈值的样本认为是正例,小于这个阈值的样本认为是反例。于是,不妨对 样本4来看,如果将样本4的评分设置为分类阈值,被分类器为正例的样本有1 2 3 4,其中真正的正例样本有1 2 4,故其TPR=3/10=0.3,FPR=1/10=0.1(分母虽然数值一样但是意义不同,前面TPR的分母是样本总体中的真正例个数,后者是样本总体中的真反例个数)。接着不妨设置样本9的评分0.51作为阈值,那么样本1~9都会被分类器认为是正例样本,其中为真正例的有1 2 4 5 6 9共6个,所以TPR=6/10=0.6,FPR=3/10=0.3.如此这样,将1~20每个样本的评分均作为分类器的判定阈值,可以得到20组TPR和FPR的有序数对;然后不妨以TPR和FPR为两个坐标轴建立一个直角坐标系,就可以得到这样的图像:(随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1))
在这里插入图片描述
纵轴TPR:TPR越大,预测正类中实际正类越多。
横轴FPR:FPR越大,预测正类中实际负类越多。
理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好。

参考:
https://www.cnblogs.com/dlml/p/4403482.html
https://blog.csdn.net/Green2_0/article/details/83744119

猜你喜欢

转载自blog.csdn.net/weixin_43474731/article/details/89326435