机器学习数据挖掘——模型评估与选择4(模型性能度量)

    我在前几篇文章中提到了错误率和精度的问题(具体不记得是哪一篇了......)。

    显然,错误率和精度这种模型泛化能力的评价标准只能针对于二分类学习器,或者是多分类学习器;不同的模型有不同的泛化能力的评价标准,这是毋庸置疑的,比如说监督性学习里面的回归任务通常是需要建立一个线性模型用以预测连续值,这时候我们就需要用到均方误差这种性能度量(统计学中有很多种性能度量,均方误差就是典型的一种,不同的模型有很多种性能度量方式,例如R**2,AIC,BIC等等)。

    这部分内容的介绍会用到统计学里面的假设检验问题(关于假设检验问题感兴趣的可以去了解一下。),我给大家做一下用到假设检验的解释,我们在模型选择的过程中会用到两种误差,一种是训练误差,另一种是泛化误差,而这里的泛化误差只是真实误差的一个估计。

    先回顾一下统计学里面的关于参数的点估计(矩估计和极大似然估计法)和区间估计的内容,我们一般会在独立同分布的假设下,从总体抽取一定的样本,以样本特征估计总体特征(比如说均值,方差),但是由于我们抽取样本点的方式是随机抽取,总是与总体存在一定的偏差,所以不能用点估计的方式得到的统计量直接代替总体参数,我们引入了区间估计,估计出参数的一个区间并给出参数在这个区间的可靠度,区间越大,可靠度越高。

    我们只能在参数估计的精确度与可靠度之间进行衡量选取(这里要用到以统计量作为随机变量的分布,需要结合假设检验来分析,我强烈建议大家学一点概率论与数理统计以及线性规划的知识,有这些知识作为基础再来学习机器学习的相关理论,你会发现好多东西之前都接触过,大大提高你的学习效率,别以为掌握了机器学习的几大算法就可以了,那几大算法不知道要以多少东西为基础,就像概率论与数理统计表面上只是一本书(不是大学里面那种应付考试的学习),实际上至少得以微积分、线性代数为基础,稍微难一点的就会涉及到实变函数中的完备空间等等的(数学系有一句话:实变函数学十遍)

扯得好远......

我在接下来的几篇文章中会介绍一些分类任务中常用的性能度量。

1.错误率与精度

2.查准率、查全率与F1

3.ROC曲线与AUC

4.代价敏感错误率与代价曲线

以及学习器某个性能度量结果的评估与比较。

1.假设检验

2.交叉验证t检验

3.McNemar检验

猜你喜欢

转载自blog.csdn.net/weixin_42144636/article/details/81230962