第8章主要内容：
1.尽量选单个数字来优化你的模型。
2.如果想要同时考虑几个指标，可以用一种标准方式将它们组合成一个数字（例如平均）。
3.提到了recall、precision、F1 score。

8 Establish a single-number evaluation metric for your team to optimize

分类准确性可以用一个数字来衡量：你在开发集（或测试集）上运行你的分类器，会返回一个数字，这个数字表示正确分类的比例。通过这个指标，如果分类器A获得了97%的准确率，B获得了90%的准确率，那么我们会判别A更好。

相比之下，precision（查准率、准确率）和recall（查全率、召回率） $^1$ 并不是单数评估指标：它提供了两个数字来评估你的分类器。有多个数字的评估指标会使比较算法时变得困难。假设你的算法表现如下：
这里写图片描述

没有哪个分类器是很明显好于另一个的，所以这不能立刻决定选哪一个。
这里写图片描述

在开发过程中，你的团队会尝试各种算法结构、模型参数、特征选择等等。有一个单数字评估标准例如准确性，能让你依靠这个指标对你的模型排序，然后快速决定哪个是最好的。

如果你真的同时在意Precision和Recall，我建议使用一种标准方式将它们组合成一个数字。例如，可以取precision和recall的平均，这样就成了一个数字了。或者，你可以计算“F1分数”，这是一种计算平均值的改进方式，并且比简单的取平均要好用 $^2$ 。
这里写图片描述

使用单数字评估指标能让你在很多分类器里面快速做选择。它能对他们有一个明确的偏好排名，因此明确了进展的方向。

最后一个例子，假设你要在四个主要市场中分别跟踪你的猫分类器准确性：(i)美国，(ii)中国，(iii)印度，(iv)其他。你会得到4个数字。通过取这4个数字的平均或者加权平均，最终你将有一个评估数字。取平均或者加权平均是将多个指标组合成一个的最常见的方式。

$^1$ 猫分类器的查准率是开发集（测试集）选出来的猫中有多少是真正的猫.( $真正例TP/(真正例TP+假正例FP)$ )。查全率是真正的猫有多少被选出来了.( $真正例TP/(真正例TP+假反例FN)$ )。经常在高查准率和高查全率之间中和。

$^2$ 如果你想了解更多关于F1分数的内容，查看https://en.wikipedia.org/wiki/F1_score。它是查准率和查全率的“调和平均值”。计算公式为 $2/((1/precision) + (1/recall))$

《Machine Learning Yearning》第8章