ML Lecture 5: Classification——Logistic Regression（中）

ML Lecture 5: Classification——Logistic Regression

判别模型与生成模型

前面解决二分类问题的过程中，Logistic回归方法是一种判别（Discriminative）方法，而用多维高斯分布来描述后验分布的过程是一种生成（Generative）方法。

实际上，不管是用Logistic回归判别法，还是事先假设一个概率分布（高斯、伯努利等）的生成方法，这两种方法都是基于同一个模型/函数集的：

P (C_{1} | x) = σ (w^{T} \cdot x + b)

$P(C_1|x) = \sigma(w^T \cdot x + b)$ 通过寻找不同的向量

w

$w$ 和常数

b

$b$ ，相应地得到不同的函数。

如果用Logistic回归方法，可以通过梯度下降法更新参数，直接找出最优的 $w^*$ 、 $b^*$
如果是用生成模型，我们首先会计算 $\mu^1$ 、 $\mu^2$ 、 $\Sigma^{-1}$ ，然后根据上一节的参数公式：
$w^{T} = (μ^{1} - μ^{2})^{T} Σ^{- 1}$ $w^T = (\mu^1 - \mu^2)^T \Sigma^{-1}$ $b = - \frac{1}{2} (μ^{1})^{T} Σ^{- 1} μ^{1} + \frac{1}{2} (μ^{2})^{T} Σ^{- 1} μ^{2} + \ln \frac{N_{1}}{N_{2}}$ $b = - \frac{1}{2} (\mu^1)^T \Sigma^{-1}\mu^1+ \frac{1}{2} (\mu^2)^T \Sigma^{-1}\mu^2 + \ln \frac{N_1}{N_2}$ 计算出参数 $w$ 和 $b$ 。

通过判别方法（上图左）和生成方法（上图右）求出来的最佳参数 $w^*$ 、 $b^*$ 会是同一组参数吗？如果不同，哪一种方法找出来的参数更好？

上述两种方法找出来的两组参数是不一样的。尽管它们是基于同一个模型/函数集，并根据相同的训练数据，从模型中挑选函数。但由于两种方法的假设不同，所以最后找出来的参数是不同的。

事实上，Logistic回归并没有做任何假设，没有对概率分布有任何的描述，只是单纯地去找一组参数 $w$ 和 $b$ 。而在生成模型中，我们对概率分布是有假设的，例如假设它是高斯分布、伯努利分布，假设它是不是特征独立（朴素贝叶斯）等，然后再根据这些假设找出一组参数 $w$ 和 $b$ 。

这两组参数虽然是从同一个模型、且基于相同的训练数据找出来的，数值却不是相等的。

比较生成方法的分类结果（下图左）和判别方法的分类结果（下图右），蓝色点代表水系样本，红色点代表一般系样本。落在粉红色区域内的样本将被判为水系，落在蓝紫色区域内的样本将被判为一般系。如下散点图只用了 $2$ 维特征（防御力、特殊防御力），难以辨别哪种方法的分类效果更好。

但是如果采用全部的 $7$ 维特征，会发现生成模型的分类准确率是 $73$ %；而判别模型的分类准确率上升到 $79$ %。在同样的数据集上，仅仅是因为假设不同，从而找到了不同的 $w$ 和 $b$ ，导致最后对测试集的预测效果也不一样。

许多文献中经常认为判别方法比生成方法的表现更佳，为什么会出现这样的预测差异呢？
这两个方法所做的不同假设，分别对数据产生了什么影响？

假设在一个简单的二元分类问题中，训练集的情况如下。每个样本都具有 $2$ 维特征，共有 $13$ 个样本，它们被分为两类：

第 $1$ 个样本属于 $C_1$ ，它的两个特征都取 $1$ ： $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$
第 $2$ - $5$ 个样本属于 $C_2$ ，第一个特征取 $1$ ，第二个特征取 $0$ ： $\left[ \begin{matrix} 1 \\ 0 \\ \end{matrix} \right]$
第 $6$ - $9$ 个样本属于 $C_2$ ，第一个特征取 $0$ ，第二个特征取 $1$ ： $\left[ \begin{matrix} 0 \\ 1 \\ \end{matrix} \right]$
第 $10$ - $13$ 个样本属于 $C_2$ ，两个特征都取 $0$ ： $\left[ \begin{matrix} 0 \\ 0 \\ \end{matrix} \right]$

对于测试集中的一个新样本： $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 。直觉上，这个新样本极可能是属于 $C_1$ 的。因为从训练集的构成来看，新样本所代表的情况只在 $C_1$ 中出现过，而从未在 $C_2$ 中出现过。因此，新样本属于 $C_2$ 的概率更可能是 $0$ 。

但是在概率生成模型中，当我们做了一些假设后，模型就会脑补一些额外的信息，使得新样本 $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 在 $C_2$ 中出现的概率不再是 $0$ 。下面以朴素贝叶斯为例，判别新样本 $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 属于哪一类。朴素贝叶斯假设样本的每一维特征都是相互独立的，所以有：

P (x | C_{l}) = P (x_{1} | C_{l}) P (x_{2} | C_{l})

$P(x|C_l) = P(x_1|C_l) P(x_2|C_l)$ 其中，

C_{l}

$C_l$ 为第

l

$l$ 个类别，

x_{1}

$x_1$ 、

x_{2}

$x_2$ 分别为样本

x

$x$ 的两维特征。

这里因为特征取值要么是 $0$ ，要么是 $1$ ，而不像之前pokemon的生命值、攻击力、防御力、速度等可以是任意数值，所以我们不再假设条件概率 $P(x|C_l)$ 服从多维高斯分布，而是假设服从伯努利分布。

根据训练集，统计并计算各个概率：

将各个概率值代入如下贝叶斯公式，计算出后验概率 $P(C_1|x)$ 是小于 $0.5$ 的。说明基于这个训练集所建立的朴素贝叶斯模型认为新样本 $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 属于 $C_2$ 。

其中：

P (x | C_{1}) = P (x_{1} = 1 | C_{1}) \cdot P (x_{2} = 1 | C_{1})

$P(x|C_1) = P(x_1 = 1|C_1) \cdot P(x_2 = 1|C_1)$

P (x | C_{2}) = P (x_{1} = 1 | C_{2}) \cdot P (x_{2} = 1 | C_{2})

$P(x|C_2) = P(x_1 = 1|C_2) \cdot P(x_2 = 1|C_2)$

为什么朴素贝叶斯生成模型会把看似属于第一类的样本，判别为第二类？

这是因为朴素贝叶斯假设第一维特征 $x_1$ 与第二维特征 $x_2$ 的出现是相互独立的。所以，在第二个类别中，样本有一定的概率出现第一维特征为 $1$ ： $\left[ \begin{matrix} 1 \\ / \\ \end{matrix} \right]$ ，也有一定的概率出现第二维特征为 $1$ ： $\left[ \begin{matrix} / \\ 1 \\ \end{matrix} \right]$ 。那么这两个特征同时为 $1$ 的情况： $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 也是有可能的，哪怕我们没有在训练集的第二个类别里发现有 $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 这种样本。在朴素贝叶斯的眼里：

样本 $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 来自 $C_2$ 的概率并不是 $0$
第二个类别样本数在总样本中的比重很大， $P(C_2) = \frac{12}{13}$

综合考量这两个因素后，朴素贝叶斯生成模型反而认为新样本 $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 更有可能是来自 $C_2$ 。而判别模型和我们直观的判断结果都认为新样本 $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 更有可能是来自 $C_1$ 。

尽管朴素贝叶斯模型的结果看起来不太正确，但其中不乏一定的道理：如果现有的测试集数量不够，导致模型见过的样本太少，其分类结果就不准确。而朴素贝叶斯这样的生成模型，会基于种种假设，脑补一些没有发生过的情况或没有出现过的样本，并认为这些情况/样本也是以一定概率可能发生/出现的，这样就使得模型具有“对未接触过的样本进行分类”的能力。

我们通常认为判别模型比生成模型的效果更好，但并不代表判别模型就绝对优于生成模型。事实上，生成模型有时也会占有优势，它具有如下优点：

对概率分布做了假设
- 当训练数据很少时，往往需要靠概率模型脑补一些在训练集中无法观察到的情况。由于生成模型具有脑补特性，所以很适用于训练数据少的情况
- 当训练数据中有噪声、实际观察情况出现错误的时候，例如上例的训练集中，样本 $\left[ \begin{matrix} 1 \\ 1 \\ \end{matrix} \right]$ 可能并不属于 $C_1$ ，它恰好是一个错误的训练数据，会误导判别模型的分类结果
  而生成模型则多了一些假设，虽然这些假设有时候与实际状况并不相符，但是在训练数据本身就有误（噪声）的情况下，这些假设反而是正确的，能减少噪声带来的干扰
后验概率被拆为两项：先验 $P(C_l)$ 、条件概率 $P(x|C_l)$ ，这两项可以基于不同的原始资料，分别计算。
例如做语音识别，把不同的词汇视为不同的类别 $C_l$ ， $x$ 是不同的声音讯号样本。我们要计算的是，给定一段声音讯号 $x$ ，它属于某一个词汇的概率是多大 $P(C_l|x)$ ，找到概率最大的那个词汇，我们就认为它是声音讯号所反映的内容。而：
$P (C_{l} | x) \propto P (x | C_{l}) P (C_{l})$ $P(C_l|x) \propto P(x|C_l) P(C_l)$ 其中，先验 $P(C_l)$ 是指一个词汇出现的概率，可以通过爬取大量文本信息统计得到；条件概率 $P(x|C_l)$ 是指给定一个词汇的情况下，生成一段语音的概率，这个概率需要收集很多语音样本计算得到。显然，从样本获取和概率计算的角度看，前者比后者更简单，所以先验概率 $P(C_l)$ 可以获得更为准确的估测。
总之，在某些应用场景下，这两个概率如果能够基于不同的样本资料计算获得，就可以最大程度地降低因为同一个训练集所带来的误差。

多元分类

回顾二分类问题： $C_1$ 、 $C_2$ 。我们要计算一个样本分别来自这两个类别的概率：
$P(C_1|x) = \sigma(z_1) = \sigma((w^1)^T x + b_1)$ ，模型取决于参数 $w^1$ 、 $b_1$
$P(C_2|x) = \sigma(z_2) = \sigma((w^2)^T x + b_2)$ ，模型取决于参数 $w^2$ 、 $b_2$
由于 $P(C_1|x) + P(C_2|x) = \sigma(z_1) + \sigma(z_2) = 1$ ，所以只需要考察其中一个模型，如 $P(C_1|x)$ ，从而只需考察一组参数 $(w^1, b^1)$ ，可以用Logistic回归。

对于多分类问题，以三元分类为例：

1. 模型/函数集

考虑三元分类： $C_1$ 、 $C_2$ 、 $C_3$ 。我们要计算一个样本分别来自这三个类别的概率：
$P(C_1|x) = \sigma(z_1) = \sigma((w^1)^T x + b_1)$ ，模型取决于参数 $w^1$ 、 $b_1$
$P(C_2|x) = \sigma(z_2) = \sigma((w^2)^T x + b_2)$ ，模型取决于参数 $w^2$ 、 $b_2$
$P(C_3|x) = \sigma(z_3) = \sigma((w^3)^T x + b_3)$ ，模型取决于参数 $w^3$ 、 $b_3$
需要考察的一组参数为 $(w^1...w^3；b_1...b_3)$ 。

2. 判断函数优劣——交叉熵损失函数

我们需要衡量某一组参数 $(w^1...w^3；b_1...b_3)$ ，它对训练集数据的预测效果如何。

假设对于训练集中的第 $n$ 个样本 $x^n$ ，随机选取一组参数 $(w^1...w^3；b_1...b_3)$ 。则这组参数代表着一个分类模型，分别计算：

z_{1}^{n} = (w^{1})^{T} x^{n} + b_{1}

$z_1^n = (w^1)^T x^n + b_1$

z_{2}^{n} = (w^{2})^{T} x^{n} + b_{2}

$z_2^n = (w^2)^T x^n + b_2$

z_{3}^{n} = (w^{3})^{T} x^{n} + b_{3}

$z_3^n = (w^3)^T x^n + b_3$ 其中，

w^{1}

$w^1$ 、

w^{2}

$w^2$ 、

w^{3}

$w^3$ 、

x^{n}

$x^n$ 是

K

$K$ 维列向量，

b_{1}

$b_1$ 、

b_{2}

$b_2$ 、

b_{3}

$b_3$ 是常数，

z_{1}^{n}

$z_1^n$ 、

z_{2}^{n}

$z_2^n$ 、

z_{3}^{n}

$z_3^n$ 是实数。

利用Softmax函数把实数向量 $(z_1^n,z_2^n,z_3^n)^T$ 做归一化：

分别取指数： $e^{z_{1}^{n}} ； e^{z_{2}^{n}} ； e^{z_{3}^{n}}$ $e^{z_1^n}；e^{z_2^n}；e^{z_3^n}$
加总求和： $e^{z^{n}} = \sum_{j = 1}^{3} e^{z_{j}^{n}} = e^{z_{1}^{n}} + e^{z_{2}^{n}} + e^{z_{3}^{n}}$ $e^{z^n} = \sum_{j=1}^3 e^{z_j^n} = e^{z_1^n} + e^{z_2^n} + e^{z_3^n}$
分别求各指数的权重： $y_{1}^{n} = \frac{e^{z_{1}^{n}}}{e^{z^{n}}} ； y_{2}^{n} = \frac{e^{z_{2}^{n}}}{e^{z^{n}}} ； y_{3}^{n} = \frac{e^{z_{3}^{n}}}{e^{z^{n}}}$ $y_1^n = \frac{e^{z_1^n}}{e^{z^n}}；y_2^n = \frac{e^{z_2^n}}{e^{z^n}}；y_3^n = \frac{e^{z_3^n}}{e^{z^n}}$

Softmax函数又称归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的多维向量压缩成另一个多维实向量，使得该向量中的每一个元素取值范围都在 $(0,1)$ 之间，并且所有元素的和为 $1$ 。

这里假设三维向量 $z^n = \left[ \begin{matrix} z_1^n = 3 \\ z_2^n = 1 \\ z_3^n = -3 \\ \end{matrix} \right]$ ，经过Softmax函数，将其压缩为另一个三维向量 $y^n = \left[ \begin{matrix} y_1^n = 0.88 \\ y_2^n = 0.12 \\ y_3^n \approx 0 \\ \end{matrix} \right]$ ，且 $y_1^n + y_2^n + y_3^n = 1$ 。

因此， $y_1^n$ 、 $y_2^n$ 、 $y_3^n$ 可以视为是概率值，分别代表样本 $x^n$ 属于 $C_1$ 、 $C_2$ 、 $C_3$ 的概率。从而通过比较 $y_l^n(l=1,2,3)$ 的大小就能确定样本 $x^n$ 的类别。

为什么 $y_l^n$ 能够等价于 $P(C_l|x^n)$ ，对第 $n$ 个样本 $x^n$ 进行分类？ $(l=1,2,3)$

在三分类问题中，若假设 $P(x|C_1)$ 、 $P(x|C_2)$ 、 $P(x|C_3)$ 分别服从多维高斯分布： $f_{\mu^1, \Sigma} (x)$ 、 $f_{\mu^2, \Sigma} (x)$ 、 $f_{\mu^3, \Sigma} (x)$ ，且它们共用一个协方差矩阵 $\Sigma$ 。则经过推导化简后，会发现 $P(C_l|x)(l=1,2,3)$ 就是经Softmax函数归一化的结果。如果把Softmax函数应用在两个类别的情况下，得到的结果就是Logistic回归的结果，此时Softmax函数简化为Sigmoid函数。

在多（ $L$ ）分类问题中，真实类别标签 $\hat y$ 可以看作是一个分布，对某个样本 $x$ 属于哪个类别可以用One-hot编码方式，用一个 $L$ 维的向量表示。

例如，当第 $n$ 个样本 $x^n$ 的真实类别是属于第 $l$ 类时，那么 $L$ 维向量中的第 $l$ 个元素为 $1$ ，其他元素全部为 $0$ 。

以三元分类为例，样本 $x^n$ 的真实类别 $\hat y^n$ 的分布为：

$\hat y^n= \left \{ \begin{aligned} \left[ \begin{matrix} 1 \\ 0 \\ 0 \\ \end{matrix} \right]，x^n \in C_1 \\ \left[ \begin{matrix} 0 \\ 1 \\ 0 \\ \end{matrix} \right]，x^n \in C_2 \\ \left[ \begin{matrix} 0 \\ 0 \\ 1 \\ \end{matrix} \right]，x^n \in C_3 \end{aligned} \right.$

了解真实类别 $\hat y^n$ 的目的是，为了将分类模型的预测结果与真实类别做比较，看看它们的相近程度。如果相近，说明分类模型效果好，接近实际的分类情况，亦即前面的参数 $(w^1...w^3；b_1...b_3)$ 选得好。

在上例中，我们抽取了训练集的第 $n$ 个样本 $x^n$ ，并将它放进由参数 $(w^1...w^3；b_1...b_3)$ 所构成的分类模型中，经过Softmax函数的转换，得到分类结果：

$y^n = \left[ \begin{matrix} y_1^n \\ y_2^n \\ y_3^n \\ \end{matrix} \right] = \left[ \begin{matrix} 0.88 \\ 0.12 \\ 0 \\ \end{matrix} \right]$ 其中，

$y_1^n$ 、

$y_2^n$ 、

$y_3^n$ 分别代表样本

$x^n$ 属于

$C_1$ 、

$C_2$ 、

$C_3$ 的预测概率，这里，模型结果认为

$x^n$ 属于第一类。

可见，一个样本的分类结果就是一个概率分布，现在需要衡量预测分布 $y^n$ 与真实分布 $\hat y^n$ 之间的相似程度，用交叉熵来表示：

$H(\hat y^n, y^n) = - \sum_{l = 1}^3 \hat y_l^n \log y_l^n = - \hat y_1^n \log y_1^n - \hat y_2^n \log y_2^n - \hat y_3^n \log y_3^n$ 它表示，对于训练集的第

$n$ 个样本

$x^n$ ：

如果 $x^n$ 的真实类别是 $C_1$ ，则 $\hat y^n = \left[ \begin{matrix} \hat y_1^n \\ \hat y_2^n \\ \hat y_3^n \\ \end{matrix} \right] = \left[ \begin{matrix} 1 \\ 0 \\ 0 \\ \end{matrix} \right]$ ，交叉熵 $H(\hat y^n, y^n) = - \log y_1^n$
如果 $x^n$ 的真实类别是 $C_2$ ，则 $\hat y^n = \left[ \begin{matrix} \hat y_1^n \\ \hat y_2^n \\ \hat y_3^n \\ \end{matrix} \right] = \left[ \begin{matrix} 0 \\ 1 \\ 0 \\ \end{matrix} \right]$ ，交叉熵 $H(\hat y^n, y^n) = - \log y_2^n$
如果 $x^n$ 的真实类别是 $C_3$ ，则 $\hat y^n = \left[ \begin{matrix} \hat y_1^n \\ \hat y_2^n \\ \hat y_3^n \\ \end{matrix} \right] = \left[ \begin{matrix} 0 \\ 0 \\ 1 \\ \end{matrix} \right]$ ，交叉熵 $H(\hat y^n, y^n) = - \log y_3^n$

最终，三元分类问题的损失函数是训练集中共 $N$ 个样本的交叉熵的加和：

$\sum_{n=1}^N H(\hat y^n, y^n) = - \sum_{n=1}^N \sum_{l=1}^3 \hat y_l^n \log y_l^n$

同理， $L$ 元分类问题的损失函数表示为：

$\sum_{n=1}^N H(\hat y^n, y^n) = - \sum_{n=1}^N \sum_{l=1}^L \hat y_l^n \log y_l^n$

寻找最佳参数时，使交叉熵最小的过程也是使似然函数最大化的过程。

总结比较

假设第 $n$ 个样本 $x^n$ 有 $K$ 维特征：

1. 二分类问题

只需要寻找 $1$ 个 $w$ 、 $1$ 个 $b$ （ $w$ 是 $K$ 维列向量， $b$ 为实数）
每一组参数 $(w,b)$ 构成一个分类模型，用训练集的第 $n$ 个样本 $x^n$ 计算： $z^n = w^T x^n + b$
用Sigmoid函数将实数 $z^n$ 转换为一个概率值 $\sigma(z^n) = f (x^n)$ ，这个值代表将样本 $x^n$ 判为第一个类别的预测概率
第 $n$ 个样本 $x^n$ 的交叉熵： $H(\hat y^n, f (x^n)) = - \hat y^n \log f (x^n) - (1 - \hat y^n) \log (1- f (x^n))$
损失函数： $\sum_{n=1}^N H(\hat y^n, f (x^n)) = - \sum_{n=1}^N [ \hat y^n \log f (x^n) + (1 - \hat y^n) \log (1- f (x^n))]$

2. $L$ 个分类的问题

需要寻找 $L$ 个 $w$ ： $w^1...w^L$ ； $L$ 个 $b$ ： $b_1...b_L$ （ $w^1...w^L$ 为 $K$ 维列向量， $b_1...b_L$ 为实数）
每一组参数 $(w^1...w^L;b_1...b_L)$ 构成一个分类模型，用训练集的第 $n$ 个样本 $x^n$ 分别计算： $z_1^n = (w^1)^T x^n + b_1$ $...$ $z_L^n = (w^L)^T x^n + b_L$
用Softmax函数将实数向量 $(z_1^n,...,z_L^n)^T$ 转换为一个 $L$ 维的概率向量 $\sigma(z^n) = y^n$ ，这个向量中的各个元素分别代表第 $n$ 个样本 $x^n$ 被判为各个类别的预测概率
第 $n$ 个样本 $x^n$ 的交叉熵： $H(\hat y^n, y^n) = - \sum_{l = 1}^L \hat y_l^n \log y_l^n$
损失函数： $\sum_{n=1}^N H(\hat y^n, y^n) = - \sum_{n=1}^N \sum_{l=1}^L \hat y_l^n \log y_l^n$

参考资料：
生成模型与判别模型
 维基百科：Softmax函数
 Softmax函数与交叉熵