ROC曲线

一、ROC曲线简介

 混淆矩阵

 

  • 若一个实例是正类,并且被预测为正类,即为真正类(True Postive TP),比如诸葛亮, 人才,被识别重用.
  • 若一个实例是正类,但是被预测为负类,即为假负类(False Negative FN), 漏报,比如韩非, 人才,没有被君主识别重用.
  • 若一个实例是负类,但是被预测为正类,即为假正类(False Postive FP), 误报, 比如和绅, 奸臣,被当作忠臣重用.
  • 若一个实例是负类,但是被预测为负类,即为真负类(True Negative TN), 强盗, 被正确识别,并被干掉

  

 ROC曲线(receiver operating characteristic curve,受试者工作特征曲线)是显示分类器真正率(TPR)和假正率(FPR)之间折中的一种图形化方法。 

 一个好的分类模型应该尽可能的靠近ROC曲线的左上角如果随机猜测的话,那么TPR和FPR会一直相等,最终曲线是主对角线。

 另外,我们也可以用曲线下的面积,来表示一个模型的平均表现。

 那这时候如何衡量你这个君主的能力, 衡量分类器的好坏呢?

  • 真正类率(True Postive Rate)TPR: TP/(TP+FN),Sensitivity, 君主对人才的辨识度. 诸葛亮/诸葛亮+韩非.
  • 负正类率(False Postive Rate)FPR: FP/(FP+TN) = 和绅/和绅+强盗, 代表君主对滥用奸臣的能力. 1- Specificity, 滥用小人的昏君
  • 真负类率(True Negative Rate)TNR: TN/(FP+TN) = 强盗/和绅+强盗 
    代表君主对识别奸臣的能力. Specificity, 特异性, 能识别奸臣的明君.

 最理想的目标是:上帝,TPR是1,FPR是0,识别出所有贤臣,杀掉所有奸臣.

 如何绘制ROC曲线?

 

 阈值就是环境的严酷程度,可以理解宽松程度. 在实际环境中,没有明确的非黑即白, 识别器针对识别对象只能计算一个系数. 然后君主根据这个系数来判断.控制阈值的变化,我们就可以得到ROC曲线 , 整体上代表识别器的识别能力(君主的明辨忠奸的能力).

 上帝:不管环境如何变化, 如何宽松和严苛,都坚持原则; 
 明君:识别能力很强. 环境苛刻的时候,能识别大部分贤臣, 尽可能避免使用奸臣. 但是因为太严格,不能识别所有贤臣。同时因为识别能力, 也会有少量和绅之流被使用。在环境宽松,更多的和绅会被重用. 如上图的ROC曲线. 
 硬币君(完全随机): 对角线曲线. 
 昏君:识别能力很差,容易被迷惑. 环境苛刻的时候,始终重用和绅之流.如下图的曲线,环境宽松的时候, 忠臣的识别度才能提高.

 

猜你喜欢

转载自www.cnblogs.com/always-fight/p/8982323.html