机器学习-性能度量

模型评估是对学习器泛化能力有效可行的实验估计方法。而性能度量是衡量模型泛化能力的评价标准。性能度量反应了任务需求，在对比不同模型能力时，使用不同的性能度量往往会导致不同的评估结果。模型的好坏不仅取决于算法和数据，还有任务需求。

1.错误率与精度

　　最常用的两种性能度量，对于样例集D={(x1,y1), (x2,y2), ..., (xm,ym)}。分类错误率定义为

　　精度则定义为

　　更一般的，对于数据分布D和概率密度函数p(.)，错误率和精度可以分别描述为

2.查准率、查全率与F1

　　错误率仅适用发生分类错误的样本，而对于样本集中数据比例需要用查准率（准确率）和查全率（召回率）满足此类需求。

　　对于二分类问题，样例可根据其真实类别和学习器预测类别组合划分为

　　真正例-TP(true positive)、假正例-FP(false positive)、真反例-TN(true negative)、假反例-FN(false negative)。分类结果的混淆矩阵如下

查准率P=TP/(TP+FP); 查全率R=TP/(TP+FN)

　　P、R是一对矛盾的度量,很少学习任务会使查准率和查全率都高。根据学习器的预测结果进行排序，逐一将每个样本作为正例预测，按照是正例的可能性降序排序，每次计算出当前的P、R值，以查准率P为纵轴，查全率R为横轴生成“P-R曲线”

　　A曲线包住C曲线，可断言学习器A优于学习器C。对于B、C学习器，可以采用积分面积大小或者平衡点（Break-Even Point）来度量，即P=R时与P-R曲线交点，图中C的BEP小于B的BEP，可认为B优于C。但更常用的度量是F1度量，

F1 = （2*P*R）/（P+R）= （2*TP）/（样例总数+TP-TN），

　　实际中，往往对查准率和查全率的重视程度不同，F1的一般度量形式Fβ能表达出对P、R的不同偏好，

Fβ = （（1+β²）*P*R） /（（β²*P）+R），

0<β<1查准率P有更大涌向，β=1退化为F1，β>1查全率R有更大影响

　　对于多个二分类混淆矩阵，如在n个二分类混淆矩阵的基础上考察P、R：

　　　　宏考察：先计算各各矩阵的（Pi，Ri），取平均值得到宏-P(macro-P)、宏-R(macro-R)、宏-F1(macro-F1)。

　　　　微考察：将混淆矩阵的各元素平均得到avr(TP,FP,TN,FN)，基于元素平均值得到微-P(micro-P)、微-R(micro-R)、微-F1(micro-F1)。

3.ROC和AUC

　　ROC:Reciever Operating Characteristic-受试者工作特征曲线。

　　同P-R曲线类似，也是逐一对每个样本是正例的可能性降序排序，纵轴为真正例率TP Rate(TPR)，横轴为假正例率FP Rate(FPR)，两者分别定义为

TPR=TP/(TP+FP); FPR=FP/(FP+TN)

　　度量标准同P-R曲线度量标准类似，其中ROC曲线积分面积就是AUC，即比较AUC大小来判断学习器优劣。形式化的看，AUC考虑的是样本预测的排序质量，因此与排序误差有紧密联系。值得注意的是，现实测试往往不是光滑的ROC曲线，而是离散的值。

4.代价敏感错误率和代价曲线

　　为权衡不同错误所造成的不同损失，我们为错误赋予一个“非均等代价(unequal cost)”，非均等代价下，学习任务可根据领域知识设定一个“代价矩阵”

　　一般来说cost(ii)=0,cost(ij)指将第i类预测成第j类需要付出的代价。对于这样的不均等代价，我们希望总体代价能够最小，而不是简单的最小化错误次数。