ML Lecture 4: Classification——Probabilistic Generative Model（下）

ML Lecture 4: Classification——Probabilistic Generative Model

改进分类问题的概率生成模型：共用协方差矩阵

上一节提到，通过建立概率生成模型对pokemon进行分类。概率生成模型中包括两个部分：

各类别的先验分布 $P(C_1)$ 、 $P(C_2)$
每一个类别自身的抽样分布 $P(x|C_1)$ 、 $P(x|C_2)$ （假设是高斯分布），有多少个类别就有多少个（高斯）分布

虽然充分利用了样本 $7$ 个特征的信息，准确率仍然只有 $54$ %。事实上，上节对两个类别分别计算了各自的高斯参数：

水 系 的 多 维 高 斯 分 布 ： μ^{1} = [\begin{matrix} 75.0 \\ 71.3 \end{matrix}] ， Σ^{1} = [\begin{matrix} 874 & 327 \\ 327 & 929 \end{matrix}]

$水系的多维高斯分布：\mu^1 = \left[ \begin{matrix} 75.0 \\ 71.3 \\ \end{matrix} \right]，\Sigma^1 = \left[ \begin{matrix} 874 & 327 \\ 327 & 929 \\ \end{matrix} \right]$

一 般 系 的 多 维 高 斯 分 布 ： μ^{2} = [\begin{matrix} 55.6 \\ 59.8 \end{matrix}] ， Σ^{2} = [\begin{matrix} 847 & 422 \\ 422 & 685 \end{matrix}]

$一般系的多维高斯分布：\mu^2 = \left[ \begin{matrix} 55.6 \\ 59.8 \\ \end{matrix} \right]，\Sigma^2 = \left[ \begin{matrix} 847 & 422 \\ 422 & 685 \\ \end{matrix} \right]$ 可以看到，水系样本原始分布的参数是

(μ^{1}, Σ^{1})

$(\mu^1, \Sigma^1)$ ，一般系样本原始分布的参数是

(μ^{2}, Σ^{2})

$(\mu^2, \Sigma^2)$ 。像这样给不同类别赋予不同的

μ

$\mu$ 、

Σ

$\Sigma$ ，在概率生成模型中并不常用。比较常见的做法是，两个类别的高斯分布共用一个协方差矩阵，即令

Σ^{1} = Σ^{2} = Σ

$\Sigma^1 = \Sigma^2 = \Sigma$ 。

这样做的原因是，协方差矩阵里的元素个数与特征维度的平方是成正比的，例如使用 $7$ 个特征时，协方差矩阵就有 $49$ 个元素。随着特征的增多，协方差矩阵内的元素个数增长是十分快的。在这种情况下，如果两个类别分别使用不同的协方差矩阵 $\Sigma^1$ 、 $\Sigma^2$ ，模型的参数就会太多，方差（Variance）就会随之增大，容易造成过拟合。所以为了有效减少参数，可以让水系、一般系的高斯分布共用一个协方差矩阵 $\Sigma$ 。

如何找到共用的协方差矩阵 $\Sigma$ ？

第一类有 $79$ 只水系样本，第二类有 $61$ 只一般系样本。当两个类别的高斯分布共用一个协方差矩阵时，不再是“每个类别各自对应一个似然函数”，而是“由一个总的似然函数描述所有样本被抽样的可能性”：

L (μ^{1}, μ^{2}, Σ) = f_{μ^{1}, Σ} (x^{1}) . . . f_{μ^{1}, Σ} (x^{79}) \times f_{μ^{2}, Σ} (x^{80}) . . . f_{μ^{2}, Σ} (x^{140})

$L(\mu^1, \mu^2, \Sigma) = f_{\mu^1,\Sigma} (x^1)...f_{\mu^1,\Sigma} (x^{79}) \times f_{\mu^2,\Sigma} (x^{80})...f_{\mu^2,\Sigma} (x^{140})$ 其中，

f_{μ^{1}, Σ} (x)

$f_{\mu^1,\Sigma} (x)$ 为第一个高斯分布，

f_{μ^{2}, Σ} (x)

$f_{\mu^2,\Sigma} (x)$ 为第二个高斯分布。

在这种情况下， $\mu^1$ 、 $\mu^2$ 的值与上一节的计算结果完全相同。唯一不同的是，共用的协方差矩阵 $\Sigma$ ，它是不共用情况下求得 $\Sigma^1$ 、 $\Sigma^2$ 的加权平均：

μ^{1} = \frac{1}{79} \sum_{n = 1}^{79} x^{n}

$\mu^1 = \frac{1}{79} \sum_{n= 1}^{79} x^n$

μ^{2} = \frac{1}{61} \sum_{n = 80}^{140} x^{n}

$\mu^2 = \frac{1}{61} \sum_{n= 80}^{140} x^n$

Σ = \frac{79}{140} Σ^{1} + \frac{61}{140} Σ^{2}

$\Sigma = \frac{79}{140} \Sigma^1 + \frac{61}{140} \Sigma^2$ 其中，

Σ^{1} = \frac{1}{79} \sum_{n = 1}^{79} (x^{n} - μ^{1}) (x^{n} - μ^{1})^{T}

$\Sigma^1 = \frac{1}{79} \sum_{n= 1}^{79} (x^n - \mu^1) (x^n - \mu^1)^T$ ，

Σ^{2} = \frac{1}{61} \sum_{n = 80}^{140} (x^{n} - μ^{2}) (x^{n} - μ^{2})^{T}

$\Sigma^2 = \frac{1}{61} \sum_{n= 80}^{140} (x^n - \mu^2) (x^n - \mu^2)^T$ 。

当使用防御力、特殊防御力两个特征：

没有共用协方差矩阵的情况下（下左图），分类界线（Boundary）是 $P(C_1|x) = 0.5$ 的曲线（这种情况下不是线性模型）
共用协方差矩阵 $\Sigma$ 后（下右图），分类界线（Boundary）变成了一条直线。正是由于高斯分布下的分类界线是线性的，所以这样的模型又称为线性模型

共用协方差矩阵后，考虑所有的 $7$ 个特征，拟合高斯分布，准确率从 $54$ %上升到 $73$ %。为什么会出现这么明显的提升呢？这是在高（七）维空间中发生的变化，我们很难直观地认识到分类界线是怎么做切分的（它的形状是怎么样的），所以很难描述准确率提升的原因。但这就是机器学习迷人的地方，虽然人类无法知道怎么做，但机器可以帮助我们做出来。假如只有二维特征，人类可以在二维坐标图上直观地划分类别，也就没有必要使用机器学习。

机器学习三步骤

用概率生成模型解决分类任务，也是分为三个步骤，以二分类问题为例：

第一步，寻找一个模型/函数集 $P(C_1|x)$ ，模型中每个函数都包含：第一个类别的先验概率 $P(C_1)$ 、第二个类别的先验概率 $P(C_2)$ 、第一个类别的抽样概率分布 $P(x|C_1)$ 、第二个类别的抽样概率分布 $P(x|C_2)$ 。
这些先验概率、概率分布相当于模型的参数，选择不同的概率分布（例如伯努利分布、高斯分布等），就产生不同的参数（伯努利分布的参数 $p$ 、高斯分布的参数 $\mu$ 、 $\Sigma$ ），进而得到不同的函数。这些概率分布不同的函数就构成一个模型/函数集。

分类的判断依据是：若 $P(C_1|x) > 0.5$ ， $x$ 就属于第一类；若 $P(C_1|x) < 0.5$ ， $x$ 就属于第二类。以上是模型的基本形式。
第二步，评价模型中每一个函数的优劣。假设抽样的概率分布是多维高斯分布，那么就是对不同的参数 $\mu$ 、 $\Sigma$ 做评价。评价参数/函数优劣的依据是：假如一组参数能够使得产生训练样本的概率最大/似然函数最大，那么这组参数/这个函数就是最佳参数/最佳函数。
根据第2步定义的似然函数，找出使似然函数最大的参数 $(\mu^*,\Sigma^*)$ ，从而得到最佳函数 $f_{\mu^*,\Sigma^*} (x)$ 。

对抽样概率分布的假设

在前面的分析中，抽样概率的分布始终是以多维高斯分布为例，即假设不同类别做抽样时的概率分布服从多维高斯分布。实际上，这个概率分布也可以是其他任何可能的分布，是凭人类自己的经验决定哪一个概率模型比较合适，而不是由人工智慧决定的。选择比较简单的概率模型，参数较少，可能出现偏置较大、误差较小的情况；选择比较复杂的概率模型，参数较多，可能出现偏置较小、误差较大的情况。

1. 朴素贝叶斯分类器：对 $P(x|C_1)$ 的特征独立假设

我们知道，样本 $x$ 是一个向量，它由一组特征值描述，有几个特征， $x$ 就是几维的。例如在pokemon分类问题中，由 $7$ 个特征构成一只独一无二的pokemon，那么这只pokemon就是一个 $7$ 维的向量。

有一种常见的假设：假设每一维特征从概率模型中产生的概率，都是相互独立的。那么一个样本被抽到的概率，就等于它的各个特征被单独抽到的概率的乘积。

例如在pokemon分类问题中，从第一个类别里抽到一只生命值 $150$ 、防御力 $65$ 、特殊防御力 $45$ 的pokemon的概率，就等于从第一个类别里抽到生命值为 $150$ 的pokemon的概率，乘以从第一个类别里抽到防御力为 $65$ 的pokemon的概率，再乘以从第一个类别里抽到特殊防御力为 $45$ 的pokemon的概率，是三个概率的乘积。即：

P (x = [\begin{matrix} x_{1} = 150 \\ x_{2} = 65 \\ x_{3} = 45 \end{matrix}] | C_{1}) = P (x_{1} = 150 | C_{1}) \cdot P (x_{2} = 65 | C_{1}) \cdot P (x_{3} = 45 | C_{1})

$P(x = \left[ \begin{matrix} x_1 = 150 \\ x_2 =65 \\ x_3 = 45 \\ \end{matrix} \right] |C_1) = P(x_1 = 150|C_1) \cdot P(x_2 = 65|C_1) \cdot P(x_3 = 45|C_1)$

推广到多维特征的情况，若样本 $x = \left[ \begin{matrix}x_1 \\ ... \\ x_k \\ ... \\ x_K \\ \end{matrix} \right]$ ，概率分布可以表示为：

P (x | C_{1}) = P (x_{1} | C_{1}) . . . P (x_{k} | C_{1}) . . . P (x_{K} | C_{1})

$P(x|C_1) = P(x_1|C_1)...P(x_k|C_1)...P(x_K|C_1)$ 若假设这些抽样概率分布是高斯分布，那么

P (x_{1} | C_{1})

$P(x_1|C_1)$ 、…、

P (x_{k} | C_{1})

$P(x_k|C_1)$ 、…、

P (x_{K} | C_{1})

$P(x_K|C_1)$ 都是一维高斯分布，因为每一个概率分布只含有一个（维）特征。在这个假设下，多维高斯分布

P (x | C_{1})

$P(x|C_1)$ ，其协方差矩阵变成一个 对角矩阵（Diagonal Matrix），非对角位置的元素全部为

0

$0$ ，所以能有效减少参数量，获得更简单的模型。

【注】： $P(x_1|C_1)$ 、…、 $P(x_k|C_1)$ 、…、 $P(x_K|C_1)$ 不一定必须是高斯分布，当特征 $x_k(k=1,2,...,K)$ 是诸如战斗力、生命力、抵抗力等连续变量时，可以假设是高斯分布。但当特征 $x_k(k=1,2,...,K)$ 是二分类的离散变量，例如pokemon是/不是神兽，很明显这个不是高斯分布，而更有可能是伯努利分布。

基于以上特征/维度独立假设（不考虑特征/维度之间的协方差）的概率生成模型称为朴素贝叶斯分类器（Naive Bayes Classifier）。之所以称之为朴素（Naive）的贝叶斯，就是因为其简化了很多条件，进行了最直接暴力的假设，如果“假设各个特征/维度相互独立”这件事是符合实际的，那么朴素贝叶斯分类器可以带来很好的分类效果。

但也由于模型过于简单，忽略了许多内在关系，当假设不成立时，分类结果的误差很大。例如在pokemon的分类问题上，分类结果就十分不理想。因为它假设一只pokemon的各个特征之间是相互独立的，就像假设一个人的身高与体重之间没有关系一样，都是不合理的。

2. 后验概率与Sigmoid函数： $P(C_1|x) = \sigma(z) = \frac{1}{1 + e^{-z}}$

接下来我们需要分析后验概率：

P (C_{1} | x) = \frac{P (x | C_{1}) P (C_{1})}{P (x | C_{1}) P (C_{1}) + P (x | C_{2}) P (C_{2})} = \frac{1}{1 + \frac{P (x | C_{2}) P (C_{2})}{P (x | C_{1}) P (C_{1})}}

$P(C_1|x) = \frac{P(x|C_1) P(C_1)}{P(x|C_1) P(C_1) + P(x|C_2) P(C_2)} = \frac{1}{1 + \frac{P(x|C_2) P(C_2)}{P(x|C_1) P(C_1)}}$
令

z = \ln \frac{P (x | C_{1}) P (C_{1})}{P (x | C_{2}) P (C_{2})}

$z = \ln \frac{P(x|C_1) P(C_1)}{P(x|C_2) P(C_2)}$ ，则后验概率可以表示为：

P (C_{1} | x) = \frac{1}{1 + e^{- z}} = σ (z)

$P(C_1|x) = \frac{1}{1 + e^{-z}} = \sigma(z)$

σ (z)

$\sigma(z)$ 又称为 Sigmoid函数。当

z \to + \infty

$z \to +\infty$ 时，

σ (z) \to 1

$\sigma(z) \to 1$ ；当

z \to - \infty

$z \to -\infty$ 时，

σ (z) \to 0

$\sigma(z) \to 0$ 。它的形状如下：

【Warning of Math】

$\sigma(z)$ 是一个关于 $z$ 的函数，而 $z$ 取决于 $P(x|C_1)$ 、 $P(x|C_2)$ 的概率分布。
假设 $P(x|C_1)$ 、 $P(x|C_2)$ 都是多维高斯分布，那么 $z$ 的表达式是怎样的？

已知：

z = \ln \frac{P (x | C_{1}) P (C_{1})}{P (x | C_{2}) P (C_{2})} = \ln \frac{P (x | C_{1})}{P (x | C_{2})} + \ln \frac{P (C_{1})}{P (C_{2})}

$z = \ln \frac{P(x|C_1) P(C_1)}{P(x|C_2) P(C_2)} = \ln \frac{P(x|C_1)}{P(x|C_2)} + \ln \frac{P(C_1)}{P(C_2)}$
其中，

\frac{P (C_{1})}{P (C_{2})} = \frac{\frac{N_{1}}{N_{1} + N_{2}}}{\frac{N_{2}}{N_{1} + N_{2}}} = \frac{N_{1}}{N_{2}}

$\frac{P(C_1)}{P(C_2)} = \frac{\frac{N_1}{N_1+ N_2}}{\frac{N_2}{N_1 + N_2}} = \frac{N_1}{N_2}$ 。

N_{1}

$N_1$ 是第一个类别的样本数量，

N_{2}

$N_2$ 是第二个类别的样本数量。

假设 $P(x|C_1)$ 、 $P(x|C_2)$ 服从 $K$ 维高斯分布，则：

P (x | C_{1}) = \frac{1}{(2 π)^{\frac{K}{2}}} \cdot \frac{1}{| Σ^{1} |^{\frac{1}{2}}} \cdot e^{- \frac{1}{2} (x - μ^{1})^{T} (Σ^{1})^{- 1} (x - μ^{1})}

$P(x|C_1) = \frac{1}{(2 \pi)^{\frac{K}{2}}} \cdot \frac{1}{ |\Sigma^1|^{\frac{1}{2}}} \cdot e^{- \frac{1}{2} (x-\mu^1)^T (\Sigma^1)^{-1} (x-\mu^1)}$

P (x | C_{2}) = \frac{1}{(2 π)^{\frac{K}{2}}} \cdot \frac{1}{| Σ^{2} |^{\frac{1}{2}}} \cdot e^{- \frac{1}{2} (x - μ^{2})^{T} (Σ^{2})^{- 1} (x - μ^{2})}

$P(x|C_2) = \frac{1}{(2 \pi)^{\frac{K}{2}}} \cdot \frac{1}{ |\Sigma^2|^{\frac{1}{2}}} \cdot e^{- \frac{1}{2} (x-\mu^2)^T (\Sigma^2)^{-1} (x-\mu^2)}$

\frac{P (x | C_{1})}{P (x | C_{2})} = \frac{| Σ^{2} |^{\frac{1}{2}}}{| Σ^{1} |^{\frac{1}{2}}} \cdot e^{- \frac{1}{2} [(x - μ^{1})^{T} (Σ^{1})^{- 1} (x - μ^{1}) - (x - μ^{2})^{T} (Σ^{2})^{- 1} (x - μ^{2})]}

$\frac{P(x|C_1)}{P(x|C_2)} = \frac{ | \Sigma^2 |^{\frac{1}{2}} }{| \Sigma^1 |^{\frac{1}{2}}} \cdot e^{-\frac{1}{2} [ (x-\mu^1)^T (\Sigma^1)^{-1} (x-\mu^1) - (x-\mu^2)^T (\Sigma^2)^{-1} (x-\mu^2) ]}$

所以有：

\ln \frac{P (x | C_{1})}{P (x | C_{2})} = \ln \frac{| Σ^{2} |^{\frac{1}{2}}}{| Σ^{1} |^{\frac{1}{2}}} - \frac{1}{2} [(x - μ^{1})^{T} (Σ^{1})^{- 1} (x - μ^{1}) - (x - μ^{2})^{T} (Σ^{2})^{- 1} (x - μ^{2})]

$\ln \frac{P(x|C_1)}{P(x|C_2)} = \ln \frac{ | \Sigma^2 |^{\frac{1}{2}} }{| \Sigma^1 |^{\frac{1}{2}}} - \frac{1}{2} [ (x-\mu^1)^T (\Sigma^1)^{-1} (x-\mu^1) - (x-\mu^2)^T (\Sigma^2)^{-1} (x-\mu^2) ]$

其中：

(x - μ^{1})^{T} (Σ^{1})^{- 1} (x - μ^{1}) = x^{T} (Σ^{1})^{- 1} x - 2 (μ^{1})^{T} (Σ^{1})^{- 1} x + (μ^{1})^{T} (Σ^{1})^{- 1} μ^{1}

$(x-\mu^1)^T (\Sigma^1)^{-1} (x-\mu^1) = x^T(\Sigma^1)^{-1}x - 2(\mu^1)^T(\Sigma^1)^{-1}x + (\mu^1)^T(\Sigma^1)^{-1}\mu^1$

(x - μ^{2})^{T} (Σ^{2})^{- 1} (x - μ^{2}) = x^{T} (Σ^{2})^{- 1} x - 2 (μ^{2})^{T} (Σ^{2})^{- 1} x + (μ^{2})^{T} (Σ^{2})^{- 1} μ^{2}

$(x-\mu^2)^T (\Sigma^2)^{-1} (x-\mu^2) = x^T(\Sigma^2)^{-1}x - 2(\mu^2)^T(\Sigma^2)^{-1}x + (\mu^2)^T(\Sigma^2)^{-1}\mu^2$

将 $\ln \frac{P(x|C_1)}{P(x|C_2)}$ 、 $\ln \frac{P(C_1)}{P(C_2)}$ 代入 $z$ 中整理得：

z = \ln \frac{| Σ^{2} |^{\frac{1}{2}}}{| Σ^{1} |^{\frac{1}{2}}} - \frac{1}{2} x^{T} (Σ^{1})^{- 1} x + (μ^{1})^{T} (Σ^{1})^{- 1} x - \frac{1}{2} (μ^{1})^{T} (Σ^{1})^{- 1} μ^{1} + \frac{1}{2} x^{T} (Σ^{2})^{- 1} x - (μ^{2})^{T} (Σ^{2})^{- 1} x + \frac{1}{2} (μ^{2})^{T} (Σ^{2})^{- 1} μ^{2} + \ln \frac{N_{1}}{N_{2}}

$z = \ln \frac{ | \Sigma^2 |^{\frac{1}{2}} }{| \Sigma^1 |^{\frac{1}{2}}} - \frac{1}{2} x^T(\Sigma^1)^{-1}x + (\mu^1)^T(\Sigma^1)^{-1}x - \frac{1}{2} (\mu^1)^T(\Sigma^1)^{-1}\mu^1 + \frac{1}{2} x^T(\Sigma^2)^{-1}x - (\mu^2)^T(\Sigma^2)^{-1}x + \frac{1}{2} (\mu^2)^T(\Sigma^2)^{-1}\mu^2 + \ln \frac{N_1}{N_2}$

在共用协方差矩阵的情况下， $\Sigma^1 = \Sigma^2 = \Sigma$ 。则 $z$ 的表达式简化为：

z = (μ^{1} - μ^{2})^{T} Σ^{- 1} x - \frac{1}{2} (μ^{1})^{T} Σ^{- 1} μ^{1} + \frac{1}{2} (μ^{2})^{T} Σ^{- 1} μ^{2} + \ln \frac{N_{1}}{N_{2}}

$z = (\mu^1 - \mu^2)^T \Sigma^{-1} x - \frac{1}{2} (\mu^1)^T \Sigma^{-1}\mu^1+ \frac{1}{2} (\mu^2)^T \Sigma^{-1}\mu^2 + \ln \frac{N_1}{N_2}$

记 $w^T = (\mu^1 - \mu^2)^T \Sigma^{-1}$ ，则 $w$ 是一个 $K \times 1$ 的列向量， $w^Tx$ 是一个数值；记 $b = - \frac{1}{2} (\mu^1)^T \Sigma^{-1}\mu^1+ \frac{1}{2} (\mu^2)^T \Sigma^{-1}\mu^2 + \ln \frac{N_1}{N_2}$ ， $b$ 是一个数值。则 $z$ 又可写为线性形式：

z = w^{T} x + b

$z = w^T x + b$

综上，后验概率表示为： $P(C_1|x) = \frac{1}{1+ e^{-z}} = \sigma(z) = \sigma(w^T x + b)$ 。注意到，结果之所以能表达为线性形式，就是因为假设两个类别的高斯分布共用一个协方差矩阵 $\Sigma$ 。这也解释了为什么在高斯分布（共用协方差矩阵）的假设下，分类界线（Boundary）是一条线性的直线。

Logistic回归：直接寻找二分类模型的参数 $w$ 和 $b$

按照前面的分类思想，二分类问题中，后验概率 $P(C_1|x)$ 有两种计算思路：

假定 $P(x|C_1)$ 、 $P(x|C_2)$ 分别服从 $K$ 维高斯分布 $N_K(\mu^1, \Sigma)$ 和 $N_K(\mu^2, \Sigma)$ ，它们共用一个协方差矩阵 $\Sigma$ 。
已知： $P(C_1|x) = \frac{P(x|C_1) P(C_1)}{P(x|C_1) P(C_1) + P(x|C_2) P(C_2)}$
则可以通过极大似然估计求解参数： $\mu^1$ （ $K \times 1$ ）、 $\mu^2$ （ $K \times 1$ ）、 $\Sigma$ （ $K \times K$ ）
进而计算：
$向量 w^{T} = (μ^{1} - μ^{2})^{T} Σ^{- 1}$ $向量w^T = (\mu^1 - \mu^2)^T \Sigma^{-1}$ $常数 b = - \frac{1}{2} (μ^{1})^{T} Σ^{- 1} μ^{1} + \frac{1}{2} (μ^{2})^{T} Σ^{- 1} μ^{2} + \ln \frac{N_{1}}{N_{2}}$ $常数b = - \frac{1}{2} (\mu^1)^T \Sigma^{-1}\mu^1+ \frac{1}{2} (\mu^2)^T \Sigma^{-1}\mu^2 + \ln \frac{N_1}{N_2}$
这种方法建立的模型称为概率生成模型，因为我们求出了每一个分布的参数，从而能够计算新样本出现的概率。
由于 $P(C_1|x) = \sigma(w^T x + b)$ ，而我们的目标只需要求出一个向量 $w$ 和一个常数 $b$ ，那么另一种思路就是，不去求 $\mu^1$ 、 $\mu^2$ 、 $\Sigma$ ，而是通过梯度下降法直接求解参数 $w$ 、 $b$ 。
这种方法建立的模型称为判别模型。

下面探讨用第二种方法：分类问题中的判别模型——Logistic回归，梯度下降法求出参数 $w$ 和 $b$ 。

参考资料：
维基百科：多元正态分布