统计模式识别学习笔记（五）

首先，在本篇博客开始前，我要感谢各位读者。两周前，我决定在CSDN账号上记录自己的学习经历，截止到今天，已经有了超过500的阅读量。对我而言，这是一个不小的胜利。希望能和各位朋友们一同进步，一同交流。我是翡翠的风吟，谢谢你们。

前言回顾

在前几篇文章中，统计模式识别的任务和方法，并介绍了最小错误和最小风险贝叶斯决策方法。贝叶斯最小错误决策可表示为：
$p(\varpi_j|x)=p(\varpi_j)\frac{p(x|\varpi_j)}{p(x)}$
然而在很多时候，我们并不能做到完全知晓概率密度函数 $p(x|\varpi_i)$ 的全部信息。参数法假设已知类条件概率密度函数的形式而未知其参数 $\theta_j$ ，这个类条件概率密度可表示为 $p(x|\theta_j)$ 。
$p(\varpi_j|x)=p(\varpi_j)\frac{p(x|\hat{\theta}_j)}{p(x)}$
参数法有两种方法，一种是估计法，另外一种方法是贝叶斯法。

密度估计的贝叶斯法

估计法：
对于 $\varpi_j$ 类，参数 $\hat{\theta}_j$ 用源于本类的样本观测值 $D_j=\lbrace x^j_1,...,x^j_{n_j} \rbrace (x_i^j\in R^d)$ 进行估计，所使用的方法是极大似然法。但是，这种方法不考虑因采样结果的多变性而造成的参数估值 $\hat{\theta}_j$ 可能的变化。
贝叶斯法（预测法）：
贝叶斯法能够兼顾估计 $\theta_j$ 时的这种采样结果的多变性。和估计法一样的地方在于， $D_j$ 上 $x$ 点的密度归属是通过为密度所假设的模型参数 $\theta_j$ 来反映的；和估计法不同的地方在于，贝叶斯法假设这些参数的真实值未知，并把 $\theta$ 作为一个未知的随机变量，表示为兼顾参数的先验信息，以及数据采集信息的后验概率分布。

公式往往是最直观的，接下来我们来看一下如何用预测性贝叶斯单一估计出 $p(x|\hat{\theta}_j)$ ：

其中， $p(\theta_j|D_j)$ 是 $\theta_j$ 的贝叶斯后验概率密度函数。由贝叶斯定理， $\theta_j$ 的后验概率密度又可表示为：

$p(\theta_j|D_j)=\frac{p(D_j|\theta_j)p(\theta_j)}{p(D_j)}=\frac{p(D_j|\theta_j)p(\theta_j)}{\int p(D_j|\theta'_j)p(\theta'_j)d\theta'_j}$

$p(\theta_j)$ 的是参数为 $\theta_j$ 的先验密度。
$p(D_j|\theta_j)$ 是似然函数，是以 $\theta_j$ 为参数的数据样本 $D_j$ 的概率密度。

基本原理

贝叶斯统计关注的是根据观测数据更新未知参数的先验置信度的问题。先验置信度用参数的先验分布表示，给定观测数据下的参数分布是似然分布，更新的参数置信度被视为后验分布，它与贝叶斯定理的先验分布和似然分布相关。

设数据 $D$ 的概率密度函数 $p(D|\theta)$ 取决于参数向量 $\theta$ 。这个密度函数称为似然函数，是 $\theta$ 的函数。参数 $\theta$ 确定但未知，我们希望确定 $\theta$ 的估计值。贝叶斯认为， $\theta$ 是随机变量的一个实现，具有表示 $\theta$ 的先验知识的先验概率密度函数 $p(\theta)$ 。观测到数据 $D$ 后， $\theta$ 的置信度由 $\theta$ 的后验概率密度表示。

由贝叶斯定理可得：

$p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int_{\theta'} p(D|\theta')p(\theta')d\theta'}$

在离散情况下，

$p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\sum_{\theta'} p(D|\theta')p(\theta')d\theta'}$

$\theta$ 的后验密度表示的是从观测数据 $D$ 所获得信息对 $\theta$ 分布的修正。后验分布可以提供欲知的有关 $\theta$ 的一切信息，并能用来进行综合统计计算。通常，函数 $h(\theta)$ 的后验期望由下式计算：

$E[h(\theta)|D]=\frac{\int h(\theta)p(D|\theta)p(\theta)d\theta}{\int p(D|\theta)p(\theta)d\theta}$

递归计算

设数据 $D$ 由 $n$ 个测量向量组成，即 $D=\lbrace x_1,...,x_n \rbrace$ ，如果其中的 $x_i$ 能够连续地获得并且是条件独立的， $p(\theta|D)$ 可改写成：

$p(\theta|x_1,...,x_n)=\frac{p(x_n|\theta)p(\theta|x_1,...,x_{n-1})}{\int p(x_n|\theta')p(\theta'|x_1,...,x_{n-1}))d\theta'}$

依此类推，步骤重复 $n$ 次，即可获得后验概率。

比例性

概率密度函数的标准化约束：

$\int p(\theta|D)d\theta=1$

可以将后验密度函数表示为：

$p(\theta|D)=\frac{g(\theta,D)}{\int g(\theta',D)d\theta'}$

有了比例性之后，我们可以简化贝叶斯的求解过程。

结语

在后面的文章中，我们会介绍贝叶斯法的解析法和数值法。并将介绍马尔科夫链蒙特卡罗方法、变分贝叶斯近似等方法。

在这里还是感谢一路走来对我默默支持的朋友们，你们的鼓励是我成文的最大动力。谢谢大家，如果各位读者有任何想法，欢迎在评论区里留言，谢谢大家。