DataWhale NLP 打卡(二)IMDB数据集(英文)和THUCNews数据集(中文)

学习召回率、准确率、ROC曲线、AUC、PR曲线

TP、FP、TN、FN

TP:模型将实际为正类的真确预测为正类。P指最终预测结果为positive, T指是正确的预测 true

FP:模型将实际为负类的错误预测为正类。P指最终预测结果为positive, F指是错误的预测 false

TN:模型将实际为负类的正确预测为负类。N指最终预测结果为negative, T指是正确的预测 true

FN:模型将实际为正类的错误预测为负类。N指最终预测结果为negative, F指是错误的预测 false

准确率 Accuracy)

预测准确的在所有样本中的比例,即

精确率 Precision

对于给定的测试数据集,预测结果为正类的数据中,有多少数据被正确预测,即

召回率 Recall

对于所有实际上为正的样本,模型预测正确为正的比例,即

PR曲线

P-R曲线刻画准确率和召回率之间的关系,准确率和召回率是一对矛盾的度量,一般来说,准确率高时,召回率往往偏低,召回率高时,准确率往往偏低。
在很多情况下,我们可以根据学习器的预测结果对样例进行排序,排在前面的是学习器认为最可能是正例的样本,排在后面的是学习器认为最不可能是正例的样本,按此顺序逐个把样本作为正例进行预测,则每次可计算当前的准确率和召回率,以准确率为纵轴,以召回率为横轴,可以画出下面的P-R曲线。

上图来自西瓜书,查准率即准确率,查全率即召回率。

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住,则可断言后者的性能优于前者,例如上面的A和B优于学习器C,但是A和B的性能无法直接判断,但我们往往仍希望把学习器A和学习器B进行一个比较,我们可以根据曲线下方的面积大小来进行比较,但更常用的是平衡点。平衡点(BEP)是查准率=查全率时的取值,如果这个值较大,则说明学习器的性能较好。所以基于平衡点,可以认为学习器A优于B。


ROC曲线与AUC

ROC曲线的两个参数:

  • 真正例率
  • 假正例率

很多学习器是为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值分为正类,否则为反类,因此分类过程可以看作选取一个截断点。
不同任务中,可以选择不同截断点,若更注重”准确率”,应选择排序中靠前位置进行截断,反之若注重”召回率”,则选择靠后位置截断。因此排序本身质量的好坏,可以直接导致学习器不同泛化性能好坏,ROC曲线则是从这个角度出发来研究学习器的工具。


ROC全称是"受试者工作特征(Receiver Operating Characteristic)",ROC曲线的坐标轴分别为真正例率(TPR)和假正例率(FPR),TPR为纵轴,FPR为横轴,定义如下:
 

在进行学习器比较时,和P-R图类似,若一个学习器的ROC曲线完全"包住"另一个学习器的ROC曲线,则说明前者的性能更好,若二者的ROC曲线发生交叉,则难以一般性的断言二者孰优孰劣。这时可以通过比较ROC曲线下的面积,即AUC(Area Under of ROC Curve),如上图阴影部分面积。
 

参考博客:

https://blog.csdn.net/ljfwz153076024/article/details/89071850#Task2_49
https://blog.csdn.net/qq_14822691/article/details/81051958
https://blog.csdn.net/nc514819873/article/details/89094687

猜你喜欢

转载自blog.csdn.net/qq_35175666/article/details/89162925