半朴素贝叶斯分类器

半朴素贝叶斯分类器的基本思想： 适当考虑一部分属性间的相互依赖信息。

独依赖估计（One-Dependent Estimator，简称ODE） 是半朴素贝叶斯分类器最常用的一种策略。

$P(c|x)\propto P(c)\prod\limits_{i=1}^d P(x_i|c,pa_{i})$

其中 $pa_{i}$ 为属性 $x_{i}$ 所依赖的属性，称为 $x_{i}$ 的父属性。

SPODE

假设所有属性都依赖于同一个属性，称为“超父”（super-parent），然后通过交叉验证等模型选择方法来确定超父属性。

SPODE

其中， $x_{i}$ 为超父属性。

TAN

基于最大带权生成树算法：
1. 计算任意两个属性之间的条件互信息
  $I (x i, x j | y) = \sum x i, x j; c \in y P (x i, x j | c) l o g P ( x i , x j | c ) P ( x i | c ) P ( x j | c );$ $I(x_{i},x_{j}|y)=\sum\limits_{x_{i},x_{j};c\in y}P(x_{i},x_{j}|c)log\frac{P(x_{i},x_{j}|c)}{P(x_{i}|c)P(x_{j}|c)};$
2. 以属性为结点构建完全图，任意两个结点之间边的权重设为 $I(x_{i},x_{j}|y)$ ；
3. 构建此完全图的最大带权生成树，挑选根变量，将边置为有向；
4. 加入类别结点y，增加从y到每个属性的有向边。
AODE

尝试将每个属性作为超父来构建SPODE，将具有足够训练数据支撑的SPODE集成起来作为最终结果。

P(c|x)∝∑i=1|Dxi|≥m′P(c,xi)∏j=1dP(xj|c,xi)

其中 $D_{x_{i}}$ 是在第i个属性上取值为 $x_{i}$ 的样本的集合， $m'$ 为阈值常数（其值默认为30）。

$P(c,x_{i})$ 和 $P(x_{j}|c,x_{i})$ 的计算公式为：
- $\hat{P}(c,x_{i})=\frac{|D_{c,x_{i}}+1|}{|D|+N*N_{i}}$
- $\hat{P}(x_{j}|c,x_{i})=\frac{|D_{c,x_{i},x_{j}}+1|}{|Dc,x_{i}|+N_{j}}$
其中N是D中可能的类别数， $N_{i}$ 是第i个属性可能的取值数， $D_{c,x_{i}}$ 是类别为c且在第i个属性上取值为 $x_{i}$ 的样本集合， $D_{c,x_{i},x_{j}}$ 是类别为c且在第i和第j个属性上取值分别为 $x_{i}$ 和 $x_{j}$ 的样本集合。

贝叶斯网

贝叶斯网： 借助有向无环图来刻画属性之间的依赖关系，并使用条件概率表（Conditional Probability Table）来描述属性的联合概率分布。

一个贝叶斯网B由结构G和参数Θ两部分构成，即 $B=<G，Θ>$ 。

网络结构G： 一个有向无环图，其每一个结点对应于一个属性，若两个属性有直接依赖关系，则它们由一条边连接起来。

参数Θ： 描述属性间的直接依赖关系，假设属性 $x_{i}$ 在G中的父节点集为 $π_{i}$ ，则Θ包含了每个属性的条件概率表 $θ_{x_{i}|π_{i}}=P_{B}(x_{i}|π_{i})$ 。

结构

给定父节点集，贝叶斯网假设每个属性与它的非后裔属性独立，则B= $<G, Θ>$ 将属性 $x_{1}, x_{2},\dots,x_{d}$ 的联合概率分布定义为

P b (x 1, x 2, \dots, x d) = \prod i = 1 d P B (x i | π i) = \prod i = 1 d θ x i | π i

$P_{b}(x_{1},x_{2},\dots ,x_{d})=\prod\limits_{i=1}^dP_{B}(x_{i}|\pi_{i})=\prod\limits_{i=1}^d\theta_{x_{i}|\pi_{i}}$

贝叶斯网中三个变量之间的典型依赖关系：

贝叶斯网中三个变量之间的典型依赖关系

同父结构： $x_{1}$ 已知，则 $x_{3}⊥x_{4}|x_{1}$ ； $x_{1}$ 未知，则 $x_{3}╨x_{4}$ 不成立。
V型结构： $x_{4}$ 已知，则 $x_{1}⊥x_{2}|x_{4}$ 不成立； $x_{4}$ 未知，则 $x_{1}╨x_{2}$ 成立。
顺序结构：x已知，则y⊥z|x成立，但y╨z不成立。

其中，以V型结构为例，边际独立性的验证如下：

P (x 1, x 2) = \sum x 4 P (x 1, x 2, x 4) = \sum x 4 P (x 4 | x 1, x 2) P (x 1) P (x 2) = P (x 1) P (x 2)

$\begin{align} P(x_{1},x_{2}) &= \sum\limits_{x_{4}} P(x_{1},x_{2},x_{4})\\&=\sum\limits_{x_{4}}P(x_{4}|x_{1},x_{2})P(x_{1})P(x_{2})\\&=P(x_{1})P(x_{2}) \end{align}$

学习

贝叶斯网学习的首要任务就是根据训练数据集找出结构最“恰当”的贝叶斯网。“评分搜索”是求解这一问题的常用办法：

定义一个评分函数用于评估贝叶斯网与训练数据的契合程度；
基于评分函数寻找结构最优的贝叶斯网。

常用评分函数通常基于信息论准则，其将学习问题看作一个数据压缩任务，学习的目标是找到一个能以最短编码长度描述训练数据的模型，其中编码的长度包括描述模型自身所需的字节长度和使用该模型描述数据所需的字节长度。

对于贝叶斯网学习而言，模型就为一个贝叶斯网，每个贝叶斯网描述了一个在训练数据上的概率分布，其自由一套编码机制。因此，我们只需选择综合编码长度最短的贝叶斯网。这就是“最小描述长度”准则。

给定训练集D={ $x_{1},x_{2}, \dots,x_{m}$ }，贝叶斯网B= $<G, Θ>$ 在D上的评分函数为：

$s(B|D)=f(θ)|B|-L(B|D)$

其中，|B|是贝叶斯网的参数个数；f(θ)表示描述每个参数θ所需的字节数； $L(B|D)=\prod\limits_{i=1}^mP_{B}(x_{i})$ 表示贝叶斯网B的对然。

$f(θ) = 1$ ，AIC（Akaike Information Criterion）评分函数： $AIC(B|D) = |B| - L(B|D)$
$f(θ) = \frac{1}{2}logm$ ，BIC（Bayesian Information Criterion）评分函数： $BIC(B|D) = \frac{logm}{2}|B| - L(B|D)$

若贝叶斯网的网络结构G固定，则评分函数第一项的值为固定值。此时，最小化评分函数就是对 $L(B|D)$ 进行极大似然估计。

L (B | D) = \prod i = 1 m P B (x i) = \prod i = 1 m P D (x i | π i) P B (x 1, x 2, \dots, x m) = \prod i = 1 m P B (x 1 | π i) = \prod i = 1 m Θ x i | π i ⎫ ⎭ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \Rightarrow θ x i | π i = P^D (x i | π i)

$\begin{equation}\left.\begin{aligned} L(B|D)=\prod\limits_{i=1}^mP_{B}(x_{i})=\prod\limits_{i=1}^mP_{D}(x_{i}|\pi_{i})\\P_{B}(x_{1},x_{2},\dots,x_{m})=\prod\limits_{i=1}^mP_{B}(x_{1}|\pi_{i})=\prod\limits_{i=1}^m\Theta_{x_{i}|\pi_{i}}\end{aligned}\right\}\end{equation}\Rightarrow\theta_{x_{i}|\pi_{i}}=\hat{P}_{D}(x_{i}|\pi_{i})$

其中 $\hat{p}(·)$ 是D上的经验分布。

经验分布函数——设 $x_{1},x_{2},\dots,x_{n}$ 是总体X的一组容量为n的样本观测值，将它们从小到大的顺序重新排列为 $x_{1}^*,x_{2}^*,\dots,x_{n}^*$ ，对于任意实数 $x$ ，定义函数

F n (x) = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 0, x < x * 1 k n, x * k \leq x < x * k + 1, k = 1, 2, \dots, n - 1 1, x * n \leq x

$\begin{equation}F_{n}(x)=\left\{\begin{aligned} &0,x<x_{1}^*\\&\frac {k}{n},x_{k}^*\le x<x_{k+1}^*,k=1,2,\dots,n-1\\&1,x_{n}^*\le x\end{aligned}\right.\end{equation}$

从所有可能的网络结构空间搜索最优贝叶斯网结构是一个NP难问题。有两种常用的策略能在有限时间内求得近似解：

贪心法，例如从某个网络结构出发，每次调整一条边，直到评分函数值不再降低为止；
通过给网络结构施加约束来削减搜索空间，例如将网络结构限定为树形结构等。

推断

通过已知变量观测值来推测待查询变量的过程称为“推断”，其中已知变量观测值称为“证据”。在现实应用中，贝叶斯网的近似推断常使用吉布斯采样（Gibbs sampling）来完成。

令 $Q=\lbrace Q_{1},Q_{2}, \dots,Q_{n}\rbrace$ 表示带查询变量， $E=\lbrace E_{1}, E_{2},\dots,E_{k}\rbrace$ 为证据变量，已知取值为 $e=\lbrace e_{1},e_{2},\dots,e_{k}\rbrace$ 。目标是计算后验概率 $P(Q=q|E=e)$ ，其中 $q=\lbrace q_{1},q_{2},\dots,q_{n}\rbrace$ 是待查询变量的一组取值。

吉布斯采样算法：

输入： 贝叶斯网 $B=<G, \Theta>$ ;

　　　采样次数 $T$ ;

　　　证据变量 $E$ 及其取值 $e$ ；

　　　待查询变量 $Q$ 及其取值 $q$ .

过程：

$n_{q}=0$
$q^0=$ 对 $Q$ 随机赋初值
for $t=1,2,\dots,T$ do
for $Q_{i}\in Q$ do
$Z=E\cup Q$ \ $\lbrace Q_{i}\rbrace$ ;
$z=e\cup q^{t-1}$ \ $\lbrace q_{i}^{t-1}\rbrace$ ;
根据B计算分布 $P_{B}(Q_{i}|Z=z)$ ;
$q_{i}^t=$ 根据 $P_{B}(Q_{i}|Z=z)$ 采样所获 $Q_{i}$ 取值;
$q^t=$ 将 $q_{i}^{t-1}$ 中的 $q_{i}^t$ 替换
end for
if $q^t$ = $q$ then
$n_{q}=n_{q}+1$
end if
end for

输出： $P(Q=q|E=e)\simeq \frac {n_{q}}{T}$

实质上，吉布斯采样是在贝叶斯网所有变量的联合状态与证据 $E=e$ 一致的子空间中进行“随机漫步”。每一步仅依赖于前一步的状态，这是一个“马尔科夫链”（Markov chain）。在一定条件下，无论从什么初始状态开始，马尔科夫链第 $t$ 步的状态分布在 $t\to \infty$ 时必收敛于一个平稳分布；对于吉布斯采样而言，这个分布恰好为 $P(Q|E=e)$ 。但马尔科夫链通常需要很长时间才能趋于平稳分布，因此，吉布斯采样算法的收敛速度较慢。

注：若贝叶斯网中存在极端概率“0”或“1”，则不能保证马尔科夫链存在平稳分布，此时吉布斯采样会给出错误的估计结果。

半朴素贝叶斯分类器及贝叶斯网知识点（摘自西瓜书）

半朴素贝叶斯分类器

贝叶斯网

结构

学习

推断

猜你喜欢