[DataAnalysis]机器学习预测模型评估与性能度量——衡量模型泛化能力的指标

一、回归任务

在预测任务中，给定样例 $D=\left \{ (x_1,y_1),(x_2,y_2)...(x_m,y_m) \right \}$ ，要评估学习器 $f$ 的性能，就要把预测结果 $f(x)$ 与真实标记与 $y$ 进行比较。回归任务中最常用的性能度量是“均方误差”（mean squared error，MSE)。下面我们主要介绍分类任务中常用的性能度量。

二、分类任务

1、错误率与精度

错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。

2、查准率、查全率与F1

（1）查准率Precision：真实正例占预测正例的概率

$P=\frac{TP}{TP+FP}$

（2）查全率Recall：真实正例占全体正例的概率

一般而言，查准率和查全率是一对矛盾的度量。例如，查全率高时，即希望将所有正例尽可能选出来时，就会增加预测为正例的概率，从而降低查准率。但是在不同的状况例如信息检索中，我们可能有时会希望查全率高（用户感兴趣的信息能尽可能地被选取出来），有时又会希望查准率高（检索出来的信息尽可能是用户感兴趣的）

（3）PR曲线

我们可以根据学习器的预测效果对样例进行排序，排在前面的是学习器认为“最可能”是正例的样本，排在最后面的是学习器认为“最不可能”是正例的样本。按此顺序不断降低阈值，逐个把样本作为正例进行预测，则每次可以算出当前的查全率、查准率。以查准率为纵轴，查全率为横轴，就可以得到查准率-查全率曲线。

若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者。因为被包住的P-R曲线代表着更低的查全率和查准率，即学习器的效能不好。

当不同学习器的P-R曲线相交时则难以比较学习器的优劣，因此人们设计了一些综合考虑查准率、查全率的性能度量，平衡点就是这样一个度量。它是“查全率=查准率”时的取值，如上图基于平衡点的考虑，我们可以认为学习器A优于B。

但平衡点还是过于简化了些，更常用的是F1度量，它是基于查准率和查全率的调和平均。

$\frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})$

F1再一般化是 $F_\beta$ ，它可以调整β值来衡量对查准率和查全率的重视程度

$F_\beta=\frac{1}{1+\beta^2}*(\frac{1}{P}+\frac{\beta^2}{R})$

3、ROC与AUC

ROC全称是“受试者工作特征”。与P-R曲线使用查准率和查全率为纵、横轴不同，ROC曲线的纵轴是“真正例率”（True Positive Rate，简称TPR），横轴是“假正例率”（False Positive Rate，简称FPR）。两者分别定义为

$TPR=\frac{TP}{TP+FN} FPR=\frac{FP}{TN+FP}$

TPR：正例中被预测为正例的概率

FPR：反例中被预测为正例的概率

上图是“ROC图”，显然对角线对应于“随机猜测”模型，而点（0,1）则对应于将所有正例排在所有反例之前的理想模型。若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”，则可以断言后者的性能优于前者。若两个学习器交叉，较为合理的判别依据是比较ROC曲线下方的面积，即AUC（Area Under ROC Curve）。

4、代价敏感错误率与代价曲线

在生活中会碰上这样的情况：不同类型的错误所造成的后果不同。例如在医疗诊断中，错误把患者诊断为健康人与错误地把健康人诊断为患者的错误代价是不同的，后者的影响是增加了进一步检查的麻烦，前者的后果却可能是丧失了拯救生命的最佳时期。为权衡不同错误造成的不同损失，我们可为错误赋予“非均等代价”。

在“非均等代价”下，我们所希望的不是简单的最小化错误次数，而是希望最小化“总体代价”（total cost）。

二分类代价矩阵
真实类别	预测类别
真实类别	第0类	第1类
第0类	0	$cost_01$
第1类	$cost_10$	0

令 $D^+$ 和 $D^-$ 分别代表样例集 $D$ 的正例子集和反例子集，则“代价敏感”（cost-sensitive）错误率为：

$E(f;D;cost)=\frac{1}{m}(\sum_{x_i\in D^+}I(f(x_i)\neq y_i) *cost_{01}+\sum_{x_i\in D-}I(f(x_i)\neq y_i) *cost_{10}))$

在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而“代价曲线”可达到该目的。ROC曲线上每一点对应了代价平面上的一条线段，线段下的面积代表在该条件下的期望总体代价。如此将ROC曲线上每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成的面积即在所有条件下学习器的期望总体代价，如上图所示。

[DataAnalysis]机器学习预测模型评估与性能度量——衡量模型泛化能力的指标

猜你喜欢