Preface
Generative Learning Algorithms
- 生成学习算法GLA与判别学习算法DLA:
Gaussian Discriminant Analysis
Naive Bayes
Laplace Smoothing
- 分子为零情况
- Laplace Smoothing
参考文献

Preface

主要内容：
Generative Learning Algorithms（GLA，生成学习算法）
Gaussian Discriminant Analysis（GDA，高斯判别分析）
Naive Bayes（朴素贝叶斯）
Laplace Smoothing（拉普拉斯平滑）

Generative Learning Algorithms

生成学习算法GLA与判别学习算法DLA:

判别学习算法DLA：我们在前面几篇文章中所讲述的算法模型大都属于判别学习算法DLA（Discriminative Learning Algorithm），它是通过对于已有的数据集直接学习其不同类别的特征得到 $p(y|x;\theta)$ 或者假设预测函数 $h(\theta)$ 直接输出0或1。
生成学习算法GLA：对 $p(x|y)$ （在给定所属的类别的情况下，对特征出现的概率建模）或者 $p(y)$ ，其中 $x$ 表示某一个样本的特征， $y$ 表示类别标签。
例子：
现在假设有 $y=0$ 表示类别一， $y=1$ 表示类别二， $x$ 表示某一个样本的特征。
根据贝叶斯公式有：
$p(y=1|x) = \frac {p(x|y=1)p(x)}{p(x)}$
or
$p(y=0|x) = \frac {p(x|y=0)p(x)}{p(x)}$
根据全概率公式有：
$p(x) = p(x|y = 1)p(y = 1) + p(x|y = 0)p(y = 0)$

常见的生成模型有：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。

Gaussian Discriminant Analysis

Multivariate Gaussian Distribution（多元高斯分布）

现，假设 $x \sim N(\vec{\mu},\sum)$ ， $X \in \mathbb R^n$ 且连续，其中 $\vec{\mu} \in \mathbb R^n$ 为均值向量， $\sum \in \mathbb R^{n*n}$ 为协方差矩阵（关于协方差矩阵可以查看这篇博文https://www.cnblogs.com/terencezhou/p/6235974.html）。所以 $z$ 的概率密度函数为：

\begin{aligned} (1) & P (x; μ, \sum) = \frac{1}{(2 π)^{\frac{n}{2}} (| \sum |)^{\frac{1}{2}}} e^{- \frac{1}{2} (x - μ)^{T} \sum^{- 1} (x - μ)} \end{aligned}

$\begin{align} P(x;\mu,\sum)= \frac1{(2\pi)^\frac{n}{2}(|\sum|)^{\frac12}} e^{-\frac12(x-\mu)^T\sum^{-1}(x-\mu)} \tag{1} \end{align}$

\begin{aligned} (2) & μ = E [X] \end{aligned}

$\begin{align} \mu=E[X] \tag{2} \end{align}$

\begin{aligned} (3) & C o v (X) = E [(x - μ) (x - μ)^{T}] = \sum \end{aligned}

$\begin{align} Cov(X)=E[(x-\mu)(x-\mu)^T]=\sum \tag{3} \end{align}$
协方差矩阵：

Σ = E [(X - E [X]) (X - E [X])^{T}]

$\Sigma=\operatorname{E}\big[(\textbf X-\operatorname{E}[\textbf X]\big)(\textbf X-\operatorname{E}[\textbf X])^T]$

= [\begin{matrix} cov (X_{1}, X_{1}) & cov (X_{1}, X_{2}) & \dots & cov (X_{1}, X_{n}) \\ cov (X_{2}, X_{1}) & cov (X_{2}, X_{2}) & \dots & cov (X_{2}, X_{n}) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ cov (X_{n}, X_{1}) & cov (X_{n}, X_{2}) & \dots & cov (X_{n}, X_{n}) \end{matrix}]

$=\begin{bmatrix} \operatorname{cov}(X_1, X_1) & \operatorname{cov}(X_1, X_2) & \cdots & \operatorname{cov}(X_1, X_n) \\ \operatorname{cov}(X_2, X_1) & \operatorname{cov}(X_2, X_2) & \cdots & \operatorname{cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{cov}(X_n, X_1) & \operatorname{cov}(X_n, X_2) & \cdots & \operatorname{cov}(X_n, X_n) \end{bmatrix}$

= [\begin{matrix} E [(X_{1} - E [X_{1}]) (X_{1} - E [X_{1}])] & E [(X_{1} - E [X_{1}]) (X_{2} - E [X_{2}])] & \dots & E [(X_{1} - E [X_{1}]) (X_{n} - E [X_{n}])] \\ E [(X_{2} - E [X_{2}]) (X_{1} - E [X_{1}])] & E [(X_{2} - E [X_{2}]) (X_{2} - E [X_{2}])] & \dots & E [(X_{2} - E [X_{2}]) (X_{n} - E [X_{n}])] \\ ⋮ & ⋮ & ⋱ & ⋮ \\ E [(X_{n} - E [X_{n}]) (X_{1} - E [X_{1}])] & E [(X_{n} - E [X_{n}]) (X_{2} - E [X_{2}])] & \dots & E [(X_{n} - E [X_{n}]) (X_{n} - E [X_{n}])] \end{matrix}]

$=\begin{bmatrix} \operatorname{E}\big[(X_1-\operatorname{E}[X_1])(X_1-\operatorname{E}[X_1])\big] & \operatorname{E}\big[(X_1-\operatorname{E}[X_1])(X_2-\operatorname{E}[X_2])\big] & \cdots & \operatorname{E}\big[(X_1-\operatorname{E}[X_1])(X_n-\operatorname{E}[X_n])\big] \\ \operatorname{E}\big[(X_2-\operatorname{E}[X_2])(X_1-\operatorname{E}[X_1])\big] & \operatorname{E}\big[(X_2-\operatorname{E}[X_2])(X_2-\operatorname{E}[X_2])\big] & \cdots & \operatorname{E}\big[(X_2-\operatorname{E}[X_2])(X_n-\operatorname{E}[X_n])\big] \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{E}\big[(X_n-\operatorname{E}[X_n])(X_1-\operatorname{E}[X_1])\big] & \operatorname{E}\big[(X_n-\operatorname{E}[X_n])(X_2-\operatorname{E}[X_2])\big] & \cdots & \operatorname{E}\big[(X_n-\operatorname{E}[X_n])(X_n-\operatorname{E}[X_n])\big] & \end{bmatrix}$
多元高斯分布的参数分布效果：
1.观察

\sum

$\sum$ 对于高斯曲面的影响。
这里写图片描述

我们可以得出结论（将

μ = 0, \sum = I

$\mu=0,\sum=I$ 当做标准形态）：
- 当增加矩阵的当减小主对角线的值时，高斯曲面变陡峭；
- 当增加矩阵的当增大主对角线的值时，高斯曲面变扁平；
- 当矩阵的副对角线向正无穷增大时，高斯曲面沿

y = x

$y=x$ 为对称轴变扁，变高；
- 当矩阵的副对角线向负无穷增大时，高斯曲面沿

y = - x

$y=-x$ 为对称轴变扁，变高；

我们可以通过等高线更形式化的观察：

这里写图片描述

2.观察 $\mu$ 对于高斯曲面的影响(中心偏移)（ $\sum=I$ ）。
这里写图片描述

Gaussian Discriminant Analysis model

现在，如果我们在遇到对于 $0-1$ 问题的分类问题，我们就可以使用高斯判别分析模型直接对于 $P(x|y)$ 建模来划分我们的类别。
例如下图：
这里写图片描述
在图中我们假设：
$y\in \{0,1\}:y \sim Bernoulli(\phi)$ ，
$x|y=0 \sim N(\mu_0,\sum)$ ，
$x|y=1 \sim N(\mu_1,\sum)$ 。
所以概率密度函数为：

\begin{aligned} (4) & P (y, ϕ) & = ϕ^{y} (1 - ϕ)^{(1 - y)} \end{aligned}

$\begin{align} P(y,\phi) & = \phi^y (1 - \phi)^{(1-y)} \tag{4} \end{align}$

\begin{aligned} (5) & P (x | y = 0) = \frac{1}{(2 π)^{\frac{n}{2}} (| \sum |)^{\frac{1}{2}}} e^{- \frac{1}{2} (x - μ_{0})^{T} \sum^{- 1} (x - μ_{0})} \end{aligned}

$\begin{align} P(x|y=0)= \frac1{(2\pi)^\frac{n}{2}(|\sum|)^{\frac12}} e^{-\frac12(x-\mu_0)^T\sum^{-1}(x-\mu_0)} \tag{5} \end{align}$

\begin{aligned} (6) & P (x | y = 1) = \frac{1}{(2 π)^{\frac{n}{2}} (| \sum |)^{\frac{1}{2}}} e^{- \frac{1}{2} (x - μ_{1})^{T} \sum^{- 1} (x - μ_{1})} \end{aligned}

$\begin{align} P(x|y=1)= \frac1{(2\pi)^\frac{n}{2}(|\sum|)^{\frac12}} e^{-\frac12(x-\mu_1)^T\sum^{-1}(x-\mu_1)} \tag{6} \end{align}$
即，似然函数（这里，它有来一个新名字joint liklihood）为：
这里写图片描述

最后根据极大似然估计的结果：
这里写图片描述

其中，

ϕ

$\phi$ 是贝努利分布中

y = 1

$y=1$ 的训练集中标签为1的样本所占的比例，

μ_{0}

$\mu_0$ 表示为

\frac{训 练 集 中 标 签 为 0 的 x 的 和}{训 练 集 中 标 签 为 0 的 样 本 数 量}

$\frac{训练集中标签为 0 的 x 的和}{训练集中标签为 0 的样本数量}$ ，即训练集中标签为 0 的样本的x的均值。

μ_{1}

$\mu_1$ 表示为

\frac{训 练 集 中 标 签 为 1 的 x 的 和}{训 练 集 中 标 签 为 1 的 样 本 数 量}

$\frac{训练集中标签为 1 的 x 的和}{训练集中标签为 1 的样本数量}$ ，即训练集中标签为 1 的样本的x的均值。

最后根据下述公式进行预测：
这里写图片描述

Gaussian Discriminant Analysis与Logistic Regression

这里写图片描述
在上面的课程截图中我们看到如果我们对于样本中x与o分别假设其满足高斯分布，然后通过刚刚讲述的GDA模型，我们可以训练出 $\phi,\mu_1,\mu_2,\sum$ 参数，以及概率函数 $p(x|y = 0),p(x|y = 1)$ 。
继而，我们现在去求在特征 $x$ 下 $y=1$ 的概率 $p(x|y = 1;\phi,\sum,\mu_1,\mu_2)$ 。
既有，
这里写图片描述
找到了后验分布。（满足Logistic Regression）对于柏松分布（以及指数分布族）也有如上的性质。
总结：
所需要的数据更少，有着更好的健壮性。

高斯判别分析和逻辑回归最大的区别就是，高斯判别做了更强的假设，而逻辑回归没有。如果一个输入xx服从的是泊松分布，而你假设成了高斯分布，那么计算的结果就没有逻辑回归得到的好。但是如果你的输入就是严格服从高斯，或者近似服从高斯，相比于逻辑回归你只需要更少的训练就可以得到很好的效果。在实际中这就要求我们根据具体情况进行权衡。