周志华《机器学习》笔记：2、模型评估与选择

标签（空格分隔）：机器学习周志华

因为在学习周志华的西瓜书时，对书上很多东西不甚理解，在经过多方查阅资料后，弄通了一点东西。为了防止以后忘记，把它记录下来，作为学习笔记。
同时，我认为学习笔记，不是对书中内容的概括，而是对其中知识点的理解，是书中内容的扩充。因此，此处只记录我对每章阅读时一时间不懂内容的理解。
本章主要讲了《机器学习》中模型的评估方法，以及选择。

P-R曲线

以二分类问题为例进行说明。分类结果的混淆矩阵如下图所示。
2017-08-30_171327.png-27.7kB

假设，现在我们用某一算法 $h$ 对样本进行二分类（划分为正例、反例）。由于算法可能与理想方法存在误差，因此在划分结果中，划分为正例的那部分样本中，可能存在正例，也可能存在反例。同理，在划分为反例的那部分样本中，也可能存在这样的误差。因此，我们需要定义一些指标来衡量我们的算法的好坏程度。下面是两个是目前常用的指标——查准率、查全率。
查准率 $P$ 定义为：

P = T P T P + F P

$P=\frac{TP}{TP+FP}$
查全率

R $R$ 定义为：

R = T P T P + F N

$R=\frac{TP}{TP+FN}$
P-R曲线，即基于这两个指标对算法进行直观衡量。
下面根据我的理解，谈一下P-R曲线是如何做出来的。
假设，我们的数据集包含n个样本

x1,x2,…,xn $x_1,x_2,\dots,x_n$ ，那么经过算法

h $h$ 处理，得到一组数值

h(x1),h(x2),…,h(xn) $h(x_1),h(x_2),\dots,h(x_n)$ 。我们将这组值从高到低进行排列，假设排列的顺序就是

h(x1),h(x2),…,h(xn) $h(x_1),h(x_2),\dots,h(x_n)$ ，其中

h(xn) $h(x_n)$ 是算法认为最有可能为正例的样本，排在后面的

h(x1) $h(x_1)$ ，是算法认为最不可能为正例的样本。有了排序结果，我们还要定义一个阈值

p0 $p_0$ 。在二分类中，高于阈值

p0 $p_0$ 被我们认为是正例，低于阈值

p0 $p_0$ 的，认为是反例。
假设，我们将阈值设得很高，开始时，只认为

xn $x_n$ 是正例（此时只有

h(xn)>p0 $h(x_n)>p_0$ )，其他结果都是反例。那么我们可以计算出一组P、R数值。之后，通过不断降低阈值

p0 $p_0$ 的设定，使得被算法判定为正例的样本，从只有{

xn $x_n$ },到{

xn,xn−1 $x_n,x_{n-1}$ },{

xn,xn−1,xn−2 $x_n,x_{n-1},x_{n-2}$ },直至包含所有样本{

xn,xn−1,…,x1 $x_n,x_{n-1},\dots,x_1$ }。此时可以得到n组不同的P、R值。将查准率P作为横轴，查全率R作为纵轴，在坐标轴上绘制出这些P-R数组，再连成曲线，即可得到相应的P-R曲线图。
2017-08-30_165558.png-64.2kB

从图上所示，不同的算法，对应着不同的P-R曲线。如图所示，我们有A，B，C三条曲线。通常，我们认为如果一条曲线甲，能够被另一条曲线乙包住，则认为乙的性能优于甲。因为如果我们的算法

h $h$ 是最接近真实算法的条件下，在不断调整阈值

p0 $p_0$ 过程中，在某一个

p∗0 $p_0^*$ 之前，所有判定为正例的样本的实际标签也是正例（每个样本有两个标签，一个是真实的，一个是算法判定的），因此查准率P应该保持在100%，也就是1.0的位置，这种算法下的

h $h$ ,必然能够包括住其他所有曲线。在

p∗0 $p_0^*$ 之后，也可以看出，理想曲线必然包含其他算法

hi $h_i$ 的P-R曲线。
在图2.3上，就是曲线B的性能要高于曲线C。但是A和B发生了交叉，所以不能判断出A、B之间哪个算法更优。
比较两个分类器好坏时，显然是查得又准又全的比较好，也就是的PR曲线越往坐标（1，1）的位置靠近越好。因此，在图上标记了“平衡点（Break-Even Point，简称BEP）”。它是“查准率=查全率”时的取值，同时也是我们衡量算法优劣的一个参考。

ROC

主要对应书中P33~35部分内容。这里对ROC，和他的“损失”（ $\cal l_{rank}$ ）进行了补充解释。
ROC的具体画法，可以参阅下面的参考3（分类器性能指标之ROC曲线、AUC值）

还是以上面的表2.1来谈，ROC和PR曲线类似，都是对算法性能的一种评估。
ROC曲线以真正例率和假正例率为Y、X轴。其定义如下
真正例率：

T P R = T P T P + F N

$TPR=\frac{TP}{TP+FN}$
假正例率：

F P R = F P T N + F P

$FPR=\frac{FP}{TN+FP}$
从表2.1可以看到，真正例率和假正例率的分母，就是真实的正例个数，和反例个数。对一组数据

D $\cal D$ 来说，假设其中有

m+ $m^+$ 个正例，

m− $m^-$ 个反例，那么ROC图上，真正例率轴上的单位刻度应该是

1m+ $\frac{1}{m^+}$ ，假正例率轴上的单位刻度是

1m− $\frac{1}{m^-}$ 。（这里对应的是离散的情况，也就是图2.4 b锯齿状图的情况）
在某一算法

h $h$ 作用下，假设当前阈值

p0 $p_0$ 下的TPR，FPR数值对在图上坐标是

(x,y) $(x,y)$ ，改变阈值后，后面一个样本被判为正例（参考ROC曲线图做法），当这个是真正例时，TP=TP+1,但是分母没有变（因为分母是真实的正例数目，真正例增加一个，必然意味着假反例减少一个），所以

T P R = T P + 1 T P + 1 + F N - 1 = T P T P + F N + 1 T P + F N = T P T P + F N + 1 m +

$TPR=\frac{TP+1}{TP+1+FN-1}=\frac{TP}{TP+FN}+\frac{1}{TP+FN}=\frac{TP}{TP+FN}+\frac{1}{m^+}$
也就是书上说的，此时的数值对为

(x,y+1m+) $(x,y+\frac{1}{m^+})$ 。同理可以得到新增的预测正例是假正例的情况。
因此， ROC曲线是一个单调曲线。
2017-08-31_130844.png-176.7kB

从图上可以看出来，有限样本下ROC曲线从左往右，每次新增的数据点只有两种情况，或者向右一格，或者向上一格。
因此，AUC的面积可以这样算：

A U C = 1 2 \sum i = 1 m - 1 (x i + 1 - x i) (y i + y i + 1)

$AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)(y_i+y_{i+1})$

ROC曲线图的对角线

在ROC曲线上的对角线上的点，其真正例率=假正例率。这个结果，可以认为是随机猜测的结果。也就是随机猜测时，一个样例有一半的可能是被认为是“真”，一半的可能被认为是“反”。一个好的预测方法，起ROC曲线应该包含这条对角线，即优于随机猜测结果。

疑问

在图2.4 b 中A点处，可以看成 $x_{i+1}-x_i=0$ ，这部分不参加计算，只有B点处参加计算。但是B点的情况是 $y_i=y_{i+1}$ 。因此感觉如果把公式写成

A U C = \sum i = 1 m - 1 (x i + 1 - x i) y i

$AUC=\sum_{i=1}^{m-1}(x_{i+1}-x_i)y_i$ 会不会更简洁一些？？？
参照下面公式2.21的解释，这部分

12(yi+yi+1) $\frac{1}{2}(y_i+y_{i+1})$ 应该是用来平衡两个样本预测结果相同的情形。

关于损失公式的理解

指示函数，这里用 $I(X)$ 来表示

在ROC图上，关于损失的定义是书中的公式2.21：
2017-08-31_131623.png-16.5kB

$x^+,x^-$ 分别表示样本中的正例和反例（这个是真实的正例与反例）
$
f(x^+)

代价曲线

2017-09-02_165517.png-62.9kB
代价曲线的横轴是正例概率代价，其定义式：

P (+) c o s t = p \times c o s t 01 p \times c o s t 01 + ( 1 - p ) \times c o s t 10

$P(+)cost=\frac{p\times cost_{01}}{p\times cost_{01}+(1-p)\times cost_{10}}$
假设样本集

D $\cal D$ 的样本数目为

N $N$ ，将正例概率代价上下同时乘以

N $N$ ，则得到

P (+) c o s t = N \times p \times c o s t 01 N \times p \times c o s t 01 + N \times ( 1 - p ) \times c o s t 10

$P(+)cost=\frac{N\times p\times cost_{01}}{N\times p\times cost_{01}+N\times (1-p)\times cost_{10}}$ 。
其中分母

N×p×cost01+N×(1−p)×cost10 $N\times p\times cost_{01}+N\times (1-p)\times cost_{10}$ 表示样本集中所有正例都被认为是反例的代价与所有反例都被划分成正例的代价之和，也就是样本划分的最大代价。分子表示所有正例都被认为是反例的代价。这个比率，就是正例划分错误的代价在最大总体代价下的比例。当

P(+)cost=0 $P(+)cost=0$ 时，即

p=0 $p=0$ ,说明样本中没有正例。当

P(+)cost=1 $P(+)cost=1$ 时，即

p=1 $p=1$ ,说明样本中没有反例。
图中归一化代价的定义：

c o s t n o r m = F N R \times p \times c o s t 01 + F P R \times ( 1 - p ) \times c o s t 10 p \times c o s t 01 + ( 1 - p ) \times c o s t 10

$cost_{norm}=\frac{FNR \times p\times cost_{01}+FPR\times(1-p)\times cost_{10}}{p\times cost_{01}+(1-p)\times cost_{10}}$
将之也上下同时乘以样本数量

N $N$ ，则

N×FNR×p×cost01=N×p×FNR×cost01 $N\times FNR \times p\times cost_{01}=N\times p\times FNR\times cost_{01}$ ，

N×p $N\times p$ 是正样例的数目，

FNR $FNR$ 是正样例中被误判为反例的数目。所以分子的第一部分是在某一阈值

p $p$ 下，将正例判别为反例的代价。同理第二部分可以看成是在阈值

p $p$ 下，将反例判为正例的代价。因此，分子部分的和表示算法

f $f$ 在某一阈值

p $p$ 下的总代价。
当

p=0 $p=0$ 时，P(+)cost=0，

costnorm=FPR $cost_{norm}=FPR$ ；同理，当

p=1 $p=1$ 时，P(+)cost=1，

costnorm=FNR $cost_{norm}=FNR$ ；
看到这里，感觉样本集 $\cal D$ 中，正例比例 $p$ 对预测算法 $f$ 的好坏并没有太大影响。
FPR与FNR的连线上的任一点，其横坐标对应某一正概率代价

P(+)cost∗ $P(+)cost^*$ ，纵坐标就是在该正概率代价、FPR、FNR下的预期损失。
图中的阴影部分，也就是期望总体代价那一部分，可以说是在任一正例概率

p $p$ 下，无论FPR和FNR如何变化，算法都必须付出的代价。

期望泛化误差=偏差+方差+噪声

这里只对公式的推导进行下梳理，定义参照书上。
这里写图片描述
式(3)到式(4)最后一项的变化

2 E D [(f (x; D) - f ¯ (x)) (f ¯ (x) - y D)] = 2 E D [(f (x; D) - f ¯ (x)) E D [(f ¯ (x) - y D)]

$2\Bbb E_D[(f(x;D)-\bar f(x))(\bar f(x)-y_D)]=2\Bbb E_D[(f(x;D)-\bar f(x))\Bbb E_D[(\bar f(x)-y_D)]$
是由于噪声与

f $f$ 不相关（书上的话是“噪声不依赖于

f $f$ ”）。公式里应该是认为

f¯(x) $\bar f(x)$ 是一个常数，则

f¯(x)−yD $\bar f(x)-y_D$ 是一个只与

yD $y_D$ 有关都变量，可以认为其代表了噪声，而前面是于

f(x;D) $f(x;D)$ 相关的数，两个无关，因此可以分开。
继续推导：
这里写图片描述

E (f; D) = E D [(f (x; D) - f ¯ (x)) 2] + E D [(f ¯ (x) - y D) 2] = E D [(f (x; D) - f ¯ (x)) 2] + E D [(f ¯ (x) - y + y - y D) 2] = E D [(f (x; D) - f ¯ (x)) 2] + E D [(f ¯ (x) - y) 2 + (y - y D) 2 + 2 (f ¯ (x) - y) (y - y D)] = E D [(f (x; D) - f ¯ (x)) 2] + E D [(f ¯ (x) - y) 2] + E D [(y - y D) 2] + 2 E D [(f ¯ (x) - y) (y - y D)] = E D [(f (x; D) - f ¯ (x)) 2] + E D [(f ¯ (x) - y) 2] + E D [(y - y D) 2] + 2 E D [(f ¯ (x) - y) (y - y D)] = E D [(f (x; D) - f ¯ (x)) 2] + E D [(f ¯ (x) - y) 2] + E D [(y - y D) 2] + 2 E D [f ¯ (x) - y] E D [y - y D] = E D [(f (x; D) - f ¯ (x)) 2] + E D [(f ¯ (x) - y) 2] + E D [(y - y D) 2] (9) (10) (11) (12) (13) (14) (15)

$\begin{align} E(f;D)&=\Bbb E_D[(f(x;D)-\bar f(x))^2]+\Bbb E_D[(\bar f(x)-y_D)^2]\tag 9\\ &=\Bbb E_D[(f(x;D)-\bar f(x))^2]+\Bbb E_D[(\bar f(x)-y+y-y_D)^2]\tag {10}\\ &=\Bbb E_D[(f(x;D)-\bar f(x))^2]+\Bbb E_D[(\bar f(x)-y)^2 +(y-y_D)^2 \\ &+2(\bar f(x)-y)(y-y_D)]\tag {11}\\ &=\Bbb E_D[(f(x;D)-\bar f(x))^2] +\Bbb E_D[(\bar f(x)-y)^2] \\ &+\Bbb E_D[(y-y_D)^2] +2\Bbb E_D[(\bar f(x)-y)(y-y_D)]\tag {12}\\ &=\Bbb E_D[(f(x;D)-\bar f(x))^2]+\Bbb E_D[(\bar f(x)-y)^2] \\ &+\Bbb E_D[(y-y_D)^2]+2\Bbb E_D[(\bar f(x)-y)(y-y_D)]\tag {13}\\ &=\Bbb E_D[(f(x;D)-\bar f(x))^2]+\Bbb E_D[(\bar f(x)-y)^2]+\Bbb E_D[(y-y_D)^2] \\ &+2\Bbb E_D[\bar f(x)-y]\Bbb E_D[y-y_D]\tag {14}\\ &=\Bbb E_D[(f(x;D)-\bar f(x))^2]+\Bbb E_D[(\bar f(x)-y)^2]+\Bbb E_D[(y-y_D)^2] \tag {15}\\ \end{align}$
这里有一点不太懂：
公式13到14的变化

2ED[(f¯(x)−y)(y−yD)]=2ED[f¯(x)−y]ED[y−yD] $2\Bbb E_D[(\bar f(x)-y)(y-y_D)]=2\Bbb E_D[\bar f(x)-y]\Bbb E_D[y-y_D]$ ,是因为

f¯(x)−y $\bar f(x)-y$ 是一个常数，还是说偏差与噪声无关？
因为噪声的期望是0，所以式14最后一项为0。

参考

wiki：ROC曲线
【西瓜书】周志华《机器学习》学习笔记与习题探讨（二）②：这个知乎专题的作者很用心，自己配了很多精美的插图。笔记基本是对书上内容的总结，也含有一部分扩充内容，两相对照，也是大有裨益的。
分类器性能指标之ROC曲线、AUC值：里面详细介绍了ROC曲线的画法。
是什么决定了你的学习算法泛化性能？偏差—方差分解(bias-variance decomposition)：文章里对泛化误差分解进行了仔细推导，写的比西瓜书上的细致。