机器学习(14) -- 概率图模型

14.1 隐马尔可夫模型

机器学习最重要的任务,是根据一些已观察到的证据(如训练样本)来对感兴趣的未知变量(如类别标记)进行估计和推测。概率模型提供了一种描述框架,将学习任务归结于计算变量的概率分布。在概率模型中,利用已知变量推测未知变量的分布称为“推断”,其核心是如何基于可观测变量推测出未知变量的条件分布。

Y:所关心的变量集合

O:可观测变量集合

R:其他变量集合

“生成式”模型考虑 P(Y,R,O),生成式模型是直接对联合分布进行建模

“判别式”模型考虑P(Y,R|O),判别式模型是对条件分布进行建模

推断即是由P(Y,R,O)或P(Y,R|O)得到条件概率P(Y|O)

 

概率图模型:用图来表达变量相关关系的概率模型,结点表示随机变量,边表示概率相关关系,即变量关系图

根据边的性质不同,概率图模型大致分两类:使用有向无环图表示变量间的依赖关系,称之为有向图模型或贝叶斯网;使用无向图表示变量间的相关关系,称之为无向图模型或马尔可夫网。

 

隐马尔可夫模型(HMM)是结构最简答的动态贝叶斯网,是有向图模型,主要用于时序数据建模

状态变量,表示第i时刻系统状态,取值范围

观测变量,取值范围

决定, 决定,也就是决定了

接下来确定如何决定了

状态转移概率矩阵 A,(如何决定)各个状态之间如何转换:

输出观测概率B,(如何决定了):

初始状态概率

于是,马尔可夫模型:

λ=[A,B,π]

14.2 马尔可夫随机场MRF

无向图模型

团:结点子集中任意两结点间都有边连接,该结点子集就是一个“团”,如{x5,x6}是团,{x1,x2,x3,x5}不是团

极大团:一个团中加入另外任何一个结点都不再形成团,该团是“极大团”,如{x5,x6}是团,{x2,x5,x6}是极大团;每个结点至少出现在一个极大团中

对于n个变量,所有团构成的集合为C,Q是团,Q∈C,则Q对应的变量集合记为

联合概率P(x)定义为,其中

为团Q对应的势函数,作用是定量刻画变量集中变量之间的相关关系,非负

Z是规范化因子,以确保p(x)是被正确定义的概率

若Q不是极大团,则必被一个极大团所包含,假设极大团集合为C*,则P(x)可定义:

 

全局马尔可夫性:给定两个变量子集的分离集,则这两个变量子集条件独立

即:

 

局部马尔可夫性:给定某变量的邻接变量,则该变量条件独立于其他变量

v:给定结点

n(v):v的邻接结点

n*(v)=n(v)∪{v}

 

成对马尔可夫性:给定所有其他变量,两个非邻接变量条件独立

 

指数函数常被用于定义势函数,即

H(Q)常见的形式为:

第二项仅考虑单结点,第一项则考虑每一对结点的关系

14.3 条件随机场CRF

条件随机场试图对多个变量在给定观测值后的条件概率进行建模。

G=<V,E>表示点与标记变量y中元素一一对应的无向图。若G中每个变量 都满足马尔可夫性,即

则(y,x)构成一个条件随机场

条件概率定义为:

条件随机场和马尔可夫随机场均使用团上的势函数定义概率,两者在形式上没有显著区别;但条件随机场处理的是条件概率,而马尔可夫随机场处理的是联合概率。

14.4 学习与推断(精确推断方法)

变量消去法:会造成大量冗余计算

信念传播:若图结构中没有环,则信念传播算法经过两个步骤即可完成所有消息传递

指定一个根结点, 从所有叶结点开始向根结点传递消息,直到根节点收到所有 邻接结点的消息;

从根节点开始向叶结点传递消息,直到所有叶结点均收到消息

14.5 近似推断

两大类:第一类是采样,通过使用随机化方法完成近似;第二类是使用确定性近似完成近似推断,典型代表为变分推断。

MCMC方法先设法构造一条马尔科夫链,使其收敛至平稳分布恰为待估计参数的后验分布,然后通过这条马尔科夫链来产生符合后验分布的样本,并基于这些样本来进行估计。

MH方法是MCMC的重要代表

接受概率设置为:

变分推断

14.6 话题模型

是一族生成式的有向图模型,主要用于处理离散型的数据。

发布了27 篇原创文章 · 获赞 2 · 访问量 203

猜你喜欢

转载自blog.csdn.net/weixin_43575791/article/details/105453026
今日推荐