Understanding AUC - ROC Curve

在这里插入图片描述

在机器学习中,性能测量是一项重要任务。 因此,当涉及到分类问题时,我们可以依靠AUC - ROC曲线。 当我们需要检查或可视化多类分类问题的性能时,我们使用AUC(曲线下面积)ROC(接收器操作特性)曲线。 它是检查任何分类模型性能的最重要的评估指标之一。 它也被写为AUROC(接收器工作特性下的区域)

本博客旨在回答以下问题:
1.什么是AUC - ROC曲线?

2.定义AUC和ROC曲线中使用的术语。

3.如何推测模型的性能?

4.灵敏度,特异性,FPR和阈值之间的关系。

5.如何使用AUC-ROC曲线进行多类模型?

  • What is AUC - ROC Curve?

AUC - ROC曲线是在各种阈值设置下的分类问题的性能测量。 ROC是概率曲线,AUC表示可分离性的程度或度量。 它告诉我们有多少模型能够区分类。 AUC越高,模型越好,将0预测为0,将1预测为1。 通过类比,AUC越高,模型越好区分疾病患者和无疾病患者。

用TPR对FPR绘制ROC曲线,其中TPR在y轴上,FPR在x轴上。

在这里插入图片描述

  • Defining terms used in AUC and ROC Curve.

  • TPR (True Positive Rate) / Recall /Sensitivity(TPR(真阳性率)/回忆/灵敏度)
    在这里插入图片描述

  • Specificity(特异性)
    在这里插入图片描述

  • FPR

在这里插入图片描述

  • How to speculate the performance of the model?

一个优秀的模型具有接近1的AUC,这意味着它具有良好的可分离性。 一个糟糕的模型的AUC接近0,这意味着它具有最差的可分离性度量。 事实上,这意味着它是对结果的回报。 它将0s预测为1,将1s预测为0。 当AUC为0.5时,意味着模型没有任何类别分离能力。

让我们解释一下上述陈述。

众所周知,ROC是概率曲线。 因此,让我们绘制这些概率的分布:

注意:红色分布曲线是阳性分类(患有疾病的患者),绿色分布曲线是阴性分类(没有疾病的患者)。在这里插入图片描述
这是一个理想的情况。 当两条曲线完全不重叠时,模型具有理想的可分离性度量。 它完全能够区分积极阶级和消极阶级。
在这里插入图片描述
当两个分布重叠时,我们引入类型1和类型2错误。 根据阈值,我们可以最小化或最大化它们。 当AUC为0.7时,意味着该模型有70%的可能区分正类和负类。

在这里插入图片描述
这是最糟糕的情况。 当AUC约为0.5时,模型没有区分正类和负类的辨别能力。

在这里插入图片描述
当AUC大约为0时,模型实际上是对类进行往复运动。 这意味着,模型将负类预测为正类,反之亦然。

  • Relation between Sensitivity, Specificity, FPR and Threshold.(敏感性,特异性,FPR和阈值之间的关系。)

灵敏度和特异性彼此成反比。 因此,当我们提高灵敏度时,特异性会降低,反之亦然。
在这里插入图片描述
当我们降低阈值时,我们得到更多的正值,因此它增加了灵敏度并降低了特异性。

同样,当我们增加阈值时,我们得到更多的负值,因此我们获得更高的特异性和更低的灵敏度。

我们知道FPR是1 - 特异性。 因此,当我们增加TPR时,FPR也会增加,反之亦然。

在这里插入图片描述

  • How to use AUC ROC curve for multi-class model?

在多类模型中,我们可以使用One vs ALL方法为N个数字类绘制N个AUC ROC曲线。 因此,例如,如果你有三个名为X,Y和Z的类,你将有一个针对Y和Z分类的X的ROC,针对X和Z分类的Y的另一个ROC,以及针对Y和X分类的Z的第三个ROC。

猜你喜欢

转载自blog.csdn.net/weixin_41697507/article/details/88710309