14.1 隐马尔可夫模型
机器学习最重要的任务,是根据一些已观察到的证据(如训练样本)来对感兴趣的未知变量(如类别标记)进行估计和推测。概率模型提供了一种描述框架,将学习任务归结于计算变量的概率分布。在概率模型中,利用已知变量推测未知变量的分布称为“推断”,其核心是如何基于可观测变量推测出未知变量的条件分布。
Y:所关心的变量集合
O:可观测变量集合
R:其他变量集合
“生成式”模型考虑 P(Y,R,O),生成式模型是直接对联合分布进行建模
“判别式”模型考虑P(Y,R|O),判别式模型是对条件分布进行建模
推断即是由P(Y,R,O)或P(Y,R|O)得到条件概率P(Y|O)
概率图模型:用图来表达变量相关关系的概率模型,结点表示随机变量,边表示概率相关关系,即变量关系图
根据边的性质不同,概率图模型大致分两类:使用有向无环图表示变量间的依赖关系,称之为有向图模型或贝叶斯网;使用无向图表示变量间的相关关系,称之为无向图模型或马尔可夫网。
隐马尔可夫模型(HMM)是结构最简答的动态贝叶斯网,是有向图模型,主要用于时序数据建模
状态变量,表示第i时刻系统状态,取值范围
观测变量,取值范围
由决定, 由决定,也就是决定了和
接下来确定如何决定了和
状态转移概率矩阵 A,(如何决定)各个状态之间如何转换:
输出观测概率B,(如何决定了):
初始状态概率,
于是,马尔可夫模型:
λ=[A,B,π]
14.2 马尔可夫随机场MRF
无向图模型
团:结点子集中任意两结点间都有边连接,该结点子集就是一个“团”,如{x5,x6}是团,{x1,x2,x3,x5}不是团
极大团:一个团中加入另外任何一个结点都不再形成团,该团是“极大团”,如{x5,x6}是团,{x2,x5,x6}是极大团;每个结点至少出现在一个极大团中
对于n个变量,所有团构成的集合为C,Q是团,Q∈C,则Q对应的变量集合记为
联合概率P(x)定义为,其中
为团Q对应的势函数,作用是定量刻画变量集中变量之间的相关关系,非负
Z是规范化因子,以确保p(x)是被正确定义的概率
若Q不是极大团,则必被一个极大团所包含,假设极大团集合为C*,则P(x)可定义:
全局马尔可夫性:给定两个变量子集的分离集,则这两个变量子集条件独立
即:
局部马尔可夫性:给定某变量的邻接变量,则该变量条件独立于其他变量
v:给定结点
n(v):v的邻接结点
n*(v)=n(v)∪{v}
有
成对马尔可夫性:给定所有其他变量,两个非邻接变量条件独立
指数函数常被用于定义势函数,即
H(Q)常见的形式为:
第二项仅考虑单结点,第一项则考虑每一对结点的关系
14.3 条件随机场CRF
条件随机场试图对多个变量在给定观测值后的条件概率进行建模。
G=<V,E>表示点与标记变量y中元素一一对应的无向图。若G中每个变量 都满足马尔可夫性,即
则(y,x)构成一个条件随机场
条件概率定义为:
条件随机场和马尔可夫随机场均使用团上的势函数定义概率,两者在形式上没有显著区别;但条件随机场处理的是条件概率,而马尔可夫随机场处理的是联合概率。
14.4 学习与推断(精确推断方法)
变量消去法:会造成大量冗余计算
信念传播:若图结构中没有环,则信念传播算法经过两个步骤即可完成所有消息传递
指定一个根结点, 从所有叶结点开始向根结点传递消息,直到根节点收到所有 邻接结点的消息;
从根节点开始向叶结点传递消息,直到所有叶结点均收到消息
14.5 近似推断
两大类:第一类是采样,通过使用随机化方法完成近似;第二类是使用确定性近似完成近似推断,典型代表为变分推断。
MCMC方法先设法构造一条马尔科夫链,使其收敛至平稳分布恰为待估计参数的后验分布,然后通过这条马尔科夫链来产生符合后验分布的样本,并基于这些样本来进行估计。
MH方法是MCMC的重要代表
接受概率设置为:
变分推断
14.6 话题模型
是一族生成式的有向图模型,主要用于处理离散型的数据。