ROC曲线

一、ROC曲线简介

　混淆矩阵

若一个实例是正类，并且被预测为正类，即为真正类(True Postive TP)，比如诸葛亮, 人才，被识别重用.
若一个实例是正类，但是被预测为负类，即为假负类(False Negative FN), 漏报，比如韩非, 人才，没有被君主识别重用.
若一个实例是负类，但是被预测为正类，即为假正类(False Postive FP), 误报, 比如和绅, 奸臣，被当作忠臣重用.
若一个实例是负类，但是被预测为负类，即为真负类(True Negative TN), 强盗, 被正确识别，并被干掉

　ROC曲线(receiver operating characteristic curve，受试者工作特征曲线)是显示分类器真正率(TPR)和假正率(FPR)之间折中的一种图形化方法。

　一个好的分类模型应该尽可能的靠近ROC曲线的左上角如果随机猜测的话，那么TPR和FPR会一直相等，最终曲线是主对角线。

　另外，我们也可以用曲线下的面积，来表示一个模型的平均表现。

　那这时候如何衡量你这个君主的能力, 衡量分类器的好坏呢？

真正类率(True Postive Rate)TPR: TP/(TP+FN)，Sensitivity, 君主对人才的辨识度. 诸葛亮/诸葛亮+韩非.
负正类率(False Postive Rate)FPR: FP/(FP+TN) = 和绅/和绅+强盗, 代表君主对滥用奸臣的能力. 1- Specificity, 滥用小人的昏君
真负类率(True Negative Rate)TNR: TN/(FP+TN) = 强盗/和绅+强盗
代表君主对识别奸臣的能力. Specificity, 特异性, 能识别奸臣的明君.

　最理想的目标是：上帝，TPR是1，FPR是0，识别出所有贤臣，杀掉所有奸臣.

　如何绘制ROC曲线？

　阈值就是环境的严酷程度，可以理解宽松程度. 在实际环境中，没有明确的非黑即白, 识别器针对识别对象只能计算一个系数. 然后君主根据这个系数来判断.控制阈值的变化，我们就可以得到ROC曲线 , 整体上代表识别器的识别能力（君主的明辨忠奸的能力）.

　上帝：不管环境如何变化, 如何宽松和严苛，都坚持原则；
　明君：识别能力很强. 环境苛刻的时候，能识别大部分贤臣, 尽可能避免使用奸臣. 但是因为太严格，不能识别所有贤臣。同时因为识别能力, 也会有少量和绅之流被使用。在环境宽松，更多的和绅会被重用. 如上图的ROC曲线.
　硬币君(完全随机): 对角线曲线.
　昏君：识别能力很差，容易被迷惑. 环境苛刻的时候，始终重用和绅之流.如下图的曲线,环境宽松的时候, 忠臣的识别度才能提高.

猜你喜欢