模型评估

模型评估

一、回归任务最常用的性能度量是均方误差

二、分类任务常用的性能度量指标

1）错误率：分类错误的占总样本的比例

精度分类正确的占总样本的比例

错误率+精度 = 1

2）查准率Precision

——分类为正的样本中真正的正样本的比例

查全率Recall

——在所有正样本中被正确分为正样本的样本的比例

3）P-R曲线

——查准率与查全率关系曲线

绘图方式：

对学习器的概率结果排序，按照概率从大到小，逐个把样例作为正例进行预测

（类似ROC的画法）

判断准则：

和ROC类似，包住的好，面积大的好。面积大，说明查准率高的时候查全率也高

4）F1度量

对查准率和查全率的调和平均

本身查准率和查全率都要求越大越好，但是两者是矛盾的

F1是两者的调和平均，综合考虑二者的大小

更近一步，还可以根据对二者的不同偏好，改变调和比例

5）ROC———受试者工作特征（RecieverOperating Characteristic）

纵坐标：真正例率（正样本被准确预测的概率——查全率）

横坐标：假正利率（负样本被预测成正样本的概率）

对于二分类，正负分类时根据阈值确定的，不同的阈值对上面两个评估数据有很大影响，如果阈值设定的很小，纵坐标大，横坐标也大

所以ROC曲线的横纵坐标的值，相当于以阈值为参数构成的参变量的函数

绘制ROC就是根据实际预测的结果，通过调整阈值，得到不同的x和y，然后描点绘图

用ROC比较学习器的泛化性能：

若一个学习器A的ROC曲线被B的完全包住，则B的性能更好

有交叉的情况下，用AUC的大小来判断

AUC--Areaunder Roc Curve 曲线下面经

最理想的分类器，就是对样本分类完全正确，即FP=0，FN=0。所以理想分类器TPR=1，FPR=0。