模型评估
一、回归任务最常用的性能度量是 均方误差
二、分类任务常用的性能度量指标
1)错误率:分类错误的占总样本的比例
精度分类正确的占总样本的比例
错误率+精度 = 1
2)查准率Precision
——分类为正的样本中真正的正样本的比例
查全率Recall
——在所有正样本中被正确分为正样本的样本的比例
3)P-R曲线
——查准率与查全率关系曲线
绘图方式:
对学习器的概率结果排序,按照概率从大到小,逐个把样例作为正例进行预测
(类似ROC的画法)
判断准则:
和ROC类似,包住的好,面积大的好。面积大,说明查准率高的时候查全率也高
4)F1度量
对查准率和查全率的调和平均
本身查准率和查全率 都要求越大越好,但是两者是矛盾的
F1是两者的调和平均,综合考虑二者的大小
更近一步,还可以根据对二者的不同偏好,改变调和比例
5)ROC———受试者工作特征(RecieverOperating Characteristic)
纵坐标:真正例率(正样本被准确预测的概率——查全率)
横坐标:假正利率(负样本被预测成正样本的概率)
对于二分类,正负分类时根据阈值确定的,不同的阈值对上面两个评估数据有很大影响,如果阈值设定的很小,纵坐标大,横坐标也大
所以ROC曲线的横纵坐标的值,相当于以阈值为参数构成的参变量的函数
绘制ROC就是根据实际预测的结果,通过调整阈值,得到不同的x和y,然后描点绘图
用ROC比较学习器的泛化性能:
若一个学习器A的ROC曲线被B的完全包住,则B的性能更好
有交叉的情况下,用AUC的大小来判断
AUC--Areaunder Roc Curve 曲线下面经
最理想的分类器,就是对样本分类完全正确,即FP=0,FN=0。所以理想分类器TPR=1,FPR=0。