机器学习（五）-概率图

给定样本 x,可通过直接建模 $P\left ( c \right |x)$ 来预测类别 c，这样得到的是“判别式模型”；
也可先对概率分布 $P\left ( c ,x)$ （联合概率）建模，然后再由此获得 $P\left ( c \right |x)$ ，这样得到的是“生成式模型”；
LR,LDA,SVN,DT，条件随机场（CRF）等都是判别式模型，生成式模型有隐马尔可夫模型（HMM）,Navie Bayes，马尔科夫随机场，knn等；

独立同分布：

在概率统计理论中，指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布。

一文搞懂HMM 通俗易懂

马尔可夫随机场 MRF

条件随机场CRF - 表示

条件随机场（CRF）

隐马尔科夫模型：

1、成对、局部、全局马尔科夫性

2、概率无向图模型：

　　设有联合概率分布P(Y)，由无向图G=（V，E）表示，在图G中，结点表示随机变量，边表示随机变量之间的依赖关系。

如果联合概率分布P（Y）满足成对、局部或全局马尔可夫性，就称此联合概率分布为概率无向图模型或马尔可夫随机场。
　　尽管在给定每个节点的条件下，分配给该节点一个条件概率是可能的，无向图的无向性导致我们不能用条件概率参数化表示联合概率，而要从一组条件独立的原则中找出一系列局部函数的乘积来表示联合概率。
　　最简单的局部函数是定义在图结构中的团上的势函数，并且是严格正实值的函数形式。

3、团与最大团

　　无向图G中任何两个结点均有边连接的结点子集称为团，若C是无向图G的一个团，并且不能再加进任何一个G的结点使其称为一个更大的团，则称此C为最大团。

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，成为概率无向图模型的因子分解。

4、HMM解决的三个问题

HMM解决的三个问题：
1：评估问题，已知模型参数 λ= (A, B, π),计算某个观测序列发生的概率，即求P(O|λ)
用前向算法或者后向算法求解此类问题，以前向算法为例
前向算法给出了一个重要的变量---前向变量αt(i)表示在t时刻HMM输出给定观测序列O1O2...Ot，并且状态为Si的概率
2：解码问题，给出观测序列O和模型μ，怎样选择一个状态序列S(s1,s2,...st+1),能最好的解释观测序列O
此问题采用了维特比算法
3：学习问题，如何调整模型参数 λ=(π, A, B), 使得P(O|λ)较大？
此问题面向不同的语料库有不同的方式
a.对于观测序列和状态序列都有的立项预料库，直接用较大似然估计即可获得参数λ
b.对于只知道观测序列的，应用EM算法的实现前向后向算法求解

5、三种问题的概率计算方法

（1）概率计算问题（前向-后向算法）：

求P(O|λ)；为了方便起见，像隐马尔可夫模型一样，引进前向-后向向量，递归地计算以上概率及期望值，这样的算法称为前向-后向算法；

即：前向概率为，给定模型参数 $\lambda$ ，在 t 时刻的状态与部分观测序列（ t 时刻及之前的观测序列）的联合概率；

从第一个时刻的前向概率开始，往后递推求和求下一个时刻的前向概率；第一个时刻的前向概率 $\alpha _{i}\left ( 1 \right )$ ：第一个时刻状态为第 i 号状态的概率是 $\pi _{i}$ ，在第 i 号状态时得到 $y_{i}$ 这个观测的概率是 $B_{iy1}$ ，则前向概率为： $\alpha _{i}\left ( 1 \right )$ = $\pi _{i}B_{iy1}$ ；

t+1时刻的前向概率：由于状态的不可观测性，我们需要考虑 t 时刻所有可能的状态；先求t时刻的状态转移到t+1时刻状态的总概率： t 时刻的可能状态（q1,q2,...qn）转移到 t+1 时刻且 t+1时刻的状态为 $q_{i }$ 的所有概率求和，然后再乘以由 t+1 时刻的状态 i 得到观测的概率 $b_{i}\left ( O_{i+1} \right )$ ；

即：t+1 时刻的前向概率为： t 时刻的前向概率对所有可能状态求和 * t+1 时刻的状态得到观测的概率；

P(O|λ)为前向概率之和，P(O|λ) = α1(T) +α2(T) + ... + αn(T)，即给定模型参数 $\lambda$ 和观测序列 O下，观测序列 O 出现的概率P(O|λ)了；具体如下：

前向概率的递推公式：

后向算法是反过来的；

第t时刻有第i个状态的概率 = t时刻的前向概率 * t时刻的后向概率

参考链接：隐马尔可夫(HMM)、前/后向算法、Viterbi算法再次总结

（2）学习算法（Baum-Welch）：

已知观测序列 O，估计模型参数 $\lambda$ ，使在该模型下观测序列 $P\left ( O \right|\lambda )$ 最大；用极大似然估计的方法估计参数；这里用了EM算法的思想，对完全数据取对数似然，然后极大化似然函数 $Q\left ( \lambda ,\bar{\lambda } \right )=\sum log\pi _{i}P\left ( O,I \right|\bar{\lambda } )$ 求模型参数； $\bar{\lambda }$ 为模型当前的估计值, $\lambda$ 为要极大化的隐马尔可夫模型参数；(例如：O 为观测随机变量的数据， $I$ 为隐随机变量的数据（状态序列），O和 $I$ 连在一起称完全数据；O称为不完全数据；)