《Machine Learning Yearning》第8章

第8章主要内容:
1.尽量选单个数字来优化你的模型。
2.如果想要同时考虑几个指标,可以用一种标准方式将它们组合成一个数字(例如平均)。
3.提到了recall、precision、F1 score。

8 Establish a single-number evaluation metric for your team to optimize

 分类准确性可以用一个数字来衡量:你在开发集(或测试集)上运行你的分类器,会返回一个数字,这个数字表示正确分类的比例。通过这个指标,如果分类器A获得了97%的准确率,B获得了90%的准确率,那么我们会判别A更好。

 相比之下,precision(查准率、准确率)和recall(查全率、召回率) 1 并不是单数评估指标:它提供了两个数字来评估你的分类器。有多个数字的评估指标会使比较算法时变得困难。假设你的算法表现如下:
这里写图片描述

 没有哪个分类器是很明显好于另一个的,所以这不能立刻决定选哪一个。
这里写图片描述

 在开发过程中,你的团队会尝试各种算法结构、模型参数、特征选择等等。有一个单数字评估标准例如准确性,能让你依靠这个指标对你的模型排序,然后快速决定哪个是最好的。

 如果你真的同时在意Precision和Recall,我建议使用一种标准方式将它们组合成一个数字。例如,可以取precision和recall的平均,这样就成了一个数字了。或者,你可以计算“F1分数”,这是一种计算平均值的改进方式,并且比简单的取平均要好用 2
这里写图片描述

 使用单数字评估指标能让你在很多分类器里面快速做选择。它能对他们有一个明确的偏好排名,因此明确了进展的方向。

 最后一个例子,假设你要在四个主要市场中分别跟踪你的猫分类器准确性:(i)美国,(ii)中国,(iii)印度,(iv)其他。你会得到4个数字。通过取这4个数字的平均或者加权平均,最终你将有一个评估数字。取平均或者加权平均是将多个指标组合成一个的最常见的方式。

1 猫分类器的查准率是开发集(测试集)选出来的猫中有多少是真正的猫.( T P / ( T P + F P ) )。查全率是真正的猫有多少被选出来了.( T P / ( T P + F N ) )。经常在高查准率和高查全率之间中和。

2 如果你想了解更多关于F1分数的内容,查看https://en.wikipedia.org/wiki/F1_score。它是查准率和查全率的“调和平均值”。计算公式为 2 / ( ( 1 / p r e c i s i o n ) + ( 1 / r e c a l l ) )

猜你喜欢

转载自blog.csdn.net/Lisa_Ren_123/article/details/81005994