机器学习分类效果评价

转自:彷徨的石头

       一个分类器最主要的评测指标就是查准率(正确率)和查全率(召回率)。为了评价二分分类问题的性能,先做以下约定:

       a:正例测试文档被正确分类为该类的数量;

       b:负例测试文档被错误分类为属于该类的数量;

       c:正例测试文档被错误分类为不属于该类的数量;

       d:负例测试文档被正确分类为不属于该类的数量;

      基于上面四个值,就可以定义下面的一些评价指标:

      其中,查准率和查全率反映了分类器分类性能的两个方面。如果综合考虑查准率与查全率,可以得到新的评价指标F1测试值,也称为综合分类率:

 

      为了综合多个类别的分类情况,评测系统整体性能,经常采用的还有微平均F1(micro-averaging)和宏平均F1(macro-averaging )两种指标。宏平均F1与微平均F1是以两种不同的平均方式求的全局的F1指标。其中宏平均F1的计算方法先对每个类别单独计算F1值,再取这些F1值的算术平均值作为全局指标。而微平均F1的计算方法是先累加计算各个类别的a、b、c、d的值,再由这些值求出F1值。由两种平均F1的计算方式不难看出,宏平均F1平等对待每一个类别,所以它的值主要受到稀有类别的影响,而微平均F1平等考虑文档集中的每一个文档,所以它的值受到常见类别的影响比较大。

       一个分类器最主要的评测指标就是查准率(正确率)和查全率(召回率)。为了评价二分分类问题的性能,先做以下约定:

       a:正例测试文档被正确分类为该类的数量;

       b:负例测试文档被错误分类为属于该类的数量;

       c:正例测试文档被错误分类为不属于该类的数量;

       d:负例测试文档被正确分类为不属于该类的数量;

      基于上面四个值,就可以定义下面的一些评价指标:

      其中,查准率和查全率反映了分类器分类性能的两个方面。如果综合考虑查准率与查全率,可以得到新的评价指标F1测试值,也称为综合分类率:

 

      为了综合多个类别的分类情况,评测系统整体性能,经常采用的还有微平均F1(micro-averaging)和宏平均F1(macro-averaging )两种指标。宏平均F1与微平均F1是以两种不同的平均方式求的全局的F1指标。其中宏平均F1的计算方法先对每个类别单独计算F1值,再取这些F1值的算术平均值作为全局指标。而微平均F1的计算方法是先累加计算各个类别的a、b、c、d的值,再由这些值求出F1值。由两种平均F1的计算方式不难看出,宏平均F1平等对待每一个类别,所以它的值主要受到稀有类别的影响,而微平均F1平等考虑文档集中的每一个文档,所以它的值受到常见类别的影响比较大。

猜你喜欢

转载自blog.csdn.net/taolusi/article/details/81304313