AUC的计算

AUC顾名思义就是ROC曲线下的面积，一种计算方法是直接计算面积；另一种方法是假设分类器的输出是样本属于正类的socre（置信度），则AUC的物理意义为，任取一对（正、负）样本（这里的正负样本是实际的正负样本，不是预测出的正负样本），正样本的score大于负样本的score的概率。关于AUC的博文如下：
[1] https://mp.weixin.qq.com/s/zeOviV1rjcSSwk79FznnNA
[2] https://www.cnblogs.com/gatherstars/p/6084696.html
[3] https://tracholar.github.io/machine-learning/2018/01/26/auc.html
[4] https://www.zhihu.com/question/39840928

假设有9个样本，其中7个负样本（-1），2个正样本（+1），分类器对这些样本进行分类预测，计算其对应的score，则每个样本的实际标签和预测score如下：第一列代表样本序号，第二列为样本真实标签，第三列为样本预测score
1.     -1     -1.1042
2.     -1    -1.10415
3.     -1    -1.10397
4.     +1    -1.10379
5.     -1    -1.10373
6.     -1    -1.10371
7.     +1    -1.10275
8.     -1    -1.10274
9.     -1    -1.10274

AUC的物理意义是：将所有M个正样本和N个负样本两两取对，形成M*N个配对，在这些配对中，正样本score大于负样本score的配对有P个，则AUC=P/MN

我们用代码计算AUC，令x=负样本个数，y=正样本个数，a=正样本score小于负样本score的配对个数，初始x=y=a=0，则执行过程如下：

先将所有样本按照score从小到大排序；
依次读取每一行，若是负样本：x++，a+=y；若是正样本：y++；
遍历所有行后，计算1-a/xy；

当读到第3个样本后，x=3，y=0，a=0；读到第4个样本后，x=3，y=1，a=0；读到第5个样本后，x=4，y=1，a=1（第4个样本和第5个样本配对时，正样本的score小于负样本的score）；读到第6个样本后，x=5，y=1，a=2（第4个样本配对第5个样本，第4个样本配对第6个样本，2个配对的正样本score小于负样本score）；当读到第9个样本后，x=7，y=2，a=6（样本4配样本5，样本4配样本6，样本4配样本8，样本7配样本8，样本4配样本9，样本7配样本9，6个配对的正样本score小于负样本score），此时AUC=0.57

也就是说7个负样本和2个正样本共组成14个正负样本对，其中8个配对中的正样本score大于负样本score，则AUC=8/14，即AUC可以看做随机从正负样本中选取一对正负样本，其中正样本的得分大于负样本的概率。

按score从小到大排序的目的就是找出正样本score小于负样本score的配对数

猜你喜欢