ML-32:机器学习模型的性能度量

一起创作,Come on!!! 简练而全面的开源ML&AI电子书

机器学习模型是通过学习并利用数据内部的规律与关系，去完成一个指定任务的数学模型。我们需要一系列的性能度量指标评价模型的泛化能力。不同的性能度量出发点和关注点存在差异，评判结果也有明显差别。

1 性能度量概述

机器学习算法通过学习训练数据集的内部的规律，构建了一个机器学习模型。进行机器学习模型的性能评测时，需要关注模型的泛化能力，即机器学习模型面对新的数据时，处理任务的精度问题。

2 分类性能度量指标

根据机器学习任务性质和目标不同，可分成回归算法、分类算法和聚类算法。评估分类算法的性能指标包括:查准率&查全率、ROC与AUC等。

2.1 查准率(precision)&查全率(recall)

查准率和查全率是应用于分类问题的两个重要指标。
查准率表示预测为正例的样本中，真正的正样本所占的比例。比如模型将5个样本预测为正例，其中4个正样本，1个负样本，则查准率为4/5=0.8。
查全率表示正样本中，预测为正样本的样本数所占的比例。比如模型共有10个正样本，其中6个被预测为正样本，4个被预测为负样本，则查全率为6/10=0.6。

查准率和查全率其实是矛盾的。想提高查准率就要谨慎判断每一个抓到的人是不是该杀的目标，杀错一个就会降低查准率；而想提高查全率就要把每一个抓到的疑似目标都杀掉，这样虽然可能会误杀很多人但是放过目标的概率会比较低。

2.2 ROC与AUC

受试者工作特征(ROC, Receiver Operating Characteristic)根据学习器的预测结果，对样本依概率从高到低进行进行排序，然后按照顺序逐个把样本作为正例进行预测，计算出此时的TPR(真正例率)作为纵坐标，FPR(假正例率)作为横坐标，画出的曲线就是ROC曲线。

标量值AUC指标通过ROC曲线去衡量泛化能力。AUC值为ROC曲线所覆盖的区域面积，AUC越大，分类器分类效果越好。

思考题: 请阅读关于ROC&AUC更多的材料。

3 回归的性能度量指标

根据机器学习任务性质和目标不同，可分成回归算法、分类算法和聚类算法。评估回归算法的性能指标包括:平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)等。

3.1 平均绝对误差(MAE)

平均绝对误差(MAE, Mean Absolute Error)又被称为L1范数损失。MAE最基础的量度指标。sklearn库的metrics模块提供了mean_absolute_error方法，用来评估回归模型。平均绝对误差(MAE)公式如下:

$MAE(y, \hat{y_i})=\frac{1}{m}\sum_{m=0}^{m}|y_i-{\hat{y_i}}|$

3.2 均方误差(MSE)

均方误差(MSE, Mean Squared Error)又被称为L2范数损失。均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。MSE是衡量平均误差的一种较方便的方法，MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。sklearn库的metrics模块提供了mean_squared_error方法，用来对回归模型进行均方误差评估。均方误差(MSE)如下：

$MSE(y, \hat{y_i})=\frac{1}{m}\sum_{m=0}^{m}(y_i-{\hat{y_i}})^2$

3.3 均方根误差(RMSE)

均方根误差(RMSE, Root mean square error)亦称为标准差(Standard error)，是观测值与真值偏差的平方与观测次数n比值的平方根。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均值相同的数据集，标准差未必相同。均方根误差(RMSE)公式如下:

$MSE(y, \hat{y_i})=\sqrt{\frac{1}{m}\sum_{m=0}^{m}(y_i-{\hat{y_i}})^2}$

参考文献

[1] 周志华. 机器学习. 清华大学出版社. 2016.
[2] [日]杉山将. 图解机器学习. 人民邮电出版社. 2015.
[3] 佩德罗·多明戈斯. 终极算法-机器学习和人工智能如何重塑世界. 中信出版社. 2018.
[4] 常见的性能度量方法对比与总结