ML-32:机器学习模型的性能度量

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/shareviews/article/details/82848689

ML-32:机器学习模型的性能度量

一起创作,Come on!!! 简练而全面的开源ML&AI电子书

机器学习模型是通过学习并利用数据内部的规律与关系,去完成一个指定任务的数学模型。我们需要一系列的性能度量指标评价模型的泛化能力。不同的性能度量出发点和关注点存在差异,评判结果也有明显差别。

1 性能度量概述

机器学习算法通过学习训练数据集的内部的规律,构建了一个机器学习模型。进行机器学习模型的性能评测时,需要关注模型的泛化能力,即机器学习模型面对新的数据时,处理任务的精度问题。

2 分类性能度量指标

根据机器学习任务性质和目标不同,可分成回归算法、分类算法和聚类算法。评估分类算法的性能指标包括:查准率&查全率、ROC与AUC等。

2.1 查准率(precision)&查全率(recall)

  • 查准率和查全率是应用于分类问题的两个重要指标。
  • 查准率表示预测为正例的样本中,真正的正样本所占的比例。比如模型将5个样本预测为正例,其中4个正样本,1个负样本,则查准率为4/5=0.8。
  • 查全率表示正样本中,预测为正样本的样本数所占的比例。比如模型共有10个正样本,其中6个被预测为正样本,4个被预测为负样本,则查全率为6/10=0.6。

查准率和查全率其实是矛盾的。想提高查准率就要谨慎判断每一个抓到的人是不是该杀的目标,杀错一个就会降低查准率;而想提高查全率就要把每一个抓到的疑似目标都杀掉,这样虽然可能会误杀很多人但是放过目标的概率会比较低。

2.2 ROC与AUC

受试者工作特征(ROC, Receiver Operating Characteristic)根据学习器的预测结果,对样本依概率从高到低进行进行排序,然后按照顺序逐个把样本作为正例进行预测,计算出此时的TPR(真正例率)作为纵坐标,FPR(假正例率)作为横坐标,画出的曲线就是ROC曲线。

标量值AUC指标通过ROC曲线去衡量泛化能力。AUC值为ROC曲线所覆盖的区域面积,AUC越大,分类器分类效果越好。

思考题: 请阅读关于ROC&AUC更多的材料。

3 回归的性能度量指标

根据机器学习任务性质和目标不同,可分成回归算法、分类算法和聚类算法。评估回归算法的性能指标包括:平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)等。

3.1 平均绝对误差(MAE)

平均绝对误差(MAE, Mean Absolute Error)又被称为L1范数损失。MAE最基础的量度指标。sklearn库的metrics模块提供了mean_absolute_error方法,用来评估回归模型。平均绝对误差(MAE)公式如下:

M A E ( y , y i ^ ) = 1 m m = 0 m y i y i ^ MAE(y, \hat{y_i})=\frac{1}{m}\sum_{m=0}^{m}|y_i-{\hat{y_i}}|

3.2 均方误差(MSE)

均方误差(MSE, Mean Squared Error)又被称为L2范数损失。均方误差是指参数估计值与参数真值之差平方的期望值,记为MSE。MSE是衡量平均误差的一种较方便的方法,MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。sklearn库的metrics模块提供了mean_squared_error方法,用来对回归模型进行均方误差评估。均方误差(MSE)如下:

M S E ( y , y i ^ ) = 1 m m = 0 m ( y i y i ^ ) 2 MSE(y, \hat{y_i})=\frac{1}{m}\sum_{m=0}^{m}(y_i-{\hat{y_i}})^2

3.3 均方根误差(RMSE)

均方根误差(RMSE, Root mean square error)亦称为标准差(Standard error),是观测值与真值偏差的平方与观测次数n比值的平方根。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均值相同的数据集,标准差未必相同。均方根误差(RMSE)公式如下:

M S E ( y , y i ^ ) = 1 m m = 0 m ( y i y i ^ ) 2 MSE(y, \hat{y_i})=\sqrt{\frac{1}{m}\sum_{m=0}^{m}(y_i-{\hat{y_i}})^2}

相关内容

参考文献

  • [1] 周志华. 机器学习. 清华大学出版社. 2016.
  • [2] [日]杉山将. 图解机器学习. 人民邮电出版社. 2015.
  • [3] 佩德罗·多明戈斯. 终极算法-机器学习和人工智能如何重塑世界. 中信出版社. 2018.
  • [4] 常见的性能度量方法对比与总结

猜你喜欢

转载自blog.csdn.net/shareviews/article/details/82848689