统计模式识别学习笔记（七）

贝叶斯采样方法

对于无法解析求标准的积分、在高维空间的数值积分又行不通的问题，下文介绍一些计算方法。所期待的计算技术致力于从后验分布中将样本采集出来，所有的推断均可通过这些样本的使用而得出。

1. 后验期望

设从后验分布 $p(\theta|D)$ 中采集到样本 $\lbrace \theta^1,...,\theta^{N_s} \rbrace$ ，然后函数 $h(\theta)$ 的后验期望分布用如下样本均值来近似：
$E[h(\theta)|D]\approx \frac{1}{N_S}\sum_{t=1}^{N_S}h(\theta^t)$

很多量例如概率值都可以根据函数的后验期望给予表述。设 $\theta$ 的后验密度函数为 $p(\theta|D)$ 。对于某一区域 $A$ ，令 $h(\theta)=I(\theta\in A)$ ，其中 $I$ 是指示函数
$E[I(\theta\in A)|D]=\int_{\theta}I(\theta\in A)p(\theta|D)d\theta\\=\int_{\theta\in A}p(\theta|D)d\theta$
即 $E[I(\theta\in A)|D]$ 是 $\theta$ 位于区域 $A$ 中的后验概率。对这一概率的近似采样是
$E[I(\theta\in A)|D]\approx \frac{1}{N_S}\sum_{t=1}^{N_S}I(\theta^t\in A)$

2. 贝叶斯分类器的采样类型

$p(x|\omega_j,D_j)=\int p(x|\theta_j)p(\theta_j|D_j)d\theta_j\\=E_{\theta_j|D_j}[p(x|\theta_j)]\\\approx \frac{1}{N_S}\sum_{t=1}^{N_S}p(x|\theta_j^t)$
贝叶斯分类器就是当 $g_i>g_j,j=1,...,C,j\ne i$ 时，将 $x$ 归入 $\omega_i$ 类，其中
$g_i=(\sum_{t=1}^{N_S}p(x|\theta_i^t))p(\omega_i)$

3. 拒绝采样

有一种简单的采样方法是对一般的分布拒绝采样，尽管这样做常常很低效。

拒绝采样算法
1. 指定一个密度函数 $s(\theta)$ ，该密度函数与 $f(\theta)=g(\theta)/\int g(\theta')d\theta'$ 具有相同的支集，且 $g(\theta)/s(\theta)$ 有界。
2. 设 $g(\theta)/s(\theta)$ 的上界是 $A$ 。
3. 重复一下过程直到一个 $\theta$ 被接受：
  - 从已知分布 $s(\theta)$ 中采一个点 $\theta$ 。
  - 从位于 $[0, 1]$ 上的均匀分布中采得 $u$ 。
  - 如果 $Au\leqslant g(\theta)/s(\theta)$ ，则接受 $\theta$ 。

4. 均匀比方法

均匀比方法可以用于从单变量分布中获取样本。假定需要从概率密度函数 $f(\theta)=g(\theta)/\int g(\theta')d\theta'$ 的分布中抽取样本，令 $D$ 表示区域 $R^2$ ，满足
$D=\lbrace (u,v);0\leqslant u\leqslant \sqrt{g(v/u)} \rbrace$
然后，从 $D$ 中均匀采一个点，并取 $\theta=v/u$ ，即为从与 $g(\theta)$ 成比例关系的密度分布 $f(\theta)$ 中给出一个样本。

5. 重要性采样

重要性采样提供出一种方法，该方法用这些样本在于 $f(\theta)$ 成比例的密度函数的又一个分布上论断。如果两个分布的支集相同，重要性采样的结果是：当 $\theta$ 服从 $f(\theta)$ 分布时，函数 $h(\theta)$ 的期望可近似为
$E_f[h(\theta)]\approx\frac{1}{\sum_{t=1}^{N_S}w^t}\sum_{t=1}^{N_S}w^th(\theta^t)$
其中， $w^t$ 是一组非归一化的重要性权值，定义如下：
$w^t=f(\theta^t)/q(\theta^t),t=1,...,N_S$
分布 $q(\theta)$ 称为重要性采样建议分布。

从先验分布中采集后验分布

考虑这样一种特例：由 $f(\theta)$ 所定义的分布是后验分布，产生于似然函数 $p(x|\theta)$ 和先验分布 $p(\theta)$ ，先验分布 $p(\theta)$ 由 $q(\theta)$ 定义。

$w^t=\frac{p(x|\theta^t)p(\theta^t)}{p(\theta^t)}=p(x|\theta^t)$

因此，我们找到了从先验分布中采集样本，用似然函数权衡样本，进而推断出后验分布的一种方法。

如果，很容易从由 $q(\theta)$ 所定义的分布中采集到样本，则算法的效果会有所提升，但直接从由 $f(\theta)$ 所定义的分布中采集样本并非易事。在样本集规模一定时， $q(\theta)$ 越接近 $f(\theta)$ ，估计的准确性越高。重要性采样的权值出现很大波动时，所做的估计可能不可靠，因为如果权值过大就会出现退化问题，这将导致所做的估计仅仅依据最大权值的那些样本。

用于贝叶斯分类器

就分类问题，对 $\omega_j$ 类的预测密度表示为
$p(x|\omega_j,D_j)=E_{\theta_j|D_j}[p(x|\theta_j)]$

在近似重要性采样情况下，如果 $f_i(\theta_j)$ 与后验密度函数 $p(\theta_j|D_j)$ 成比例，样本 $\lbrace \theta_j^1,...,\theta_j^{N_S} \rbrace$ 源于与 $q_j(\theta_j)$ 成比例的概率密度函数的分布，则
$p(x|\omega_j,D_j)\approx\frac{1}{\sum_{t=1}^{N_S}w_j^t}\sum_{t=1}^{N_S}w_j^tp(x|\theta_j^t)$
$w_j^t=f_j(\theta_j^t)/q_j(\theta_j^t)=\frac{p(D_j|\theta_j^t)p(\theta_j^t)}{q_j(\theta_j^t)},t=1,...,N_S$
此时的贝叶斯分类器为：
$g_i=(\frac{1}{\sum_{t=1}^{N_S}w_j^t}\sum_{t=1}^{N_S}w_j^tp(x|\theta_j^t))p(\omega_i)$
分类标准同前所述。

实际上，此类的计算方法理解起来并不困难。就像试验一样，通过实验结果的均值来判断试验概率。

统计模式识别学习笔记（七）

贝叶斯采样方法

猜你喜欢