本文重点

一个HMM模型是否可以处理任意长度的序列?
HMM训练如何支持多序列?

为什么要有隐马尔科夫模型?

有了马尔科夫模型,为什么还要有隐马尔科夫模型? 二者都可以用三元组表示
$(\pi, S, T)$
其中 $S$ 是状态集合, $\pi$ 是状态初始概率分布, $T$ 是状态转移矩阵. 应用马尔科夫模型时,需要先构造出上述三个元素(一般不是通过ML,而是利用经验知识人为构造); 而隐马尔科夫模型涉及”观测”这个新的概念,状态是隐藏的,未知的.比如在语音翻译中, 每个音节可以看作观测值,一个语句包含很多音节,作为一次观测, 而音节对应的含义(文字)作为隐含状态,是未知的,HMM希望通过学习获知音节序列和文字序列的对应关系,达成语音翻译的目标. 实际应用中会赋予HMM隐含状态真实的物理意义.

HMM示意图

常见的HMM示意图有两个,个人觉得两个图的解释各有侧重点,都列举如下
这里写图片描述

图中是3个隐状态的HMM, $S$ 是初始状态, $E$ 是结束状态, 他们是两个虚构的状态,用来对齐.
第一个图更常见, 但它容易让人产生一个疑问:HMM是不是要求序列长度固定? 入上图的HMM是不是只能处理长度为2的序列? 回答是否定的. 上面第二幅图描述的同一个HMM, 其实HMM模型参数中是没有T的概念,自然可以处理任意长度序列. 第一幅图之所以如此流行,是因为用它描述HMM相关的算法更加直观,比如”前向,后向”的概念.

# 关于HMM的三个问题
介绍HMM的资料必定涉及”HMM三问题”,不过在介绍他们之前,需要先了解以下HMM和马尔科夫模型的一个区别:发射概率.
HMM引入”状态-观测”这组概念,发射概率就是描述某个状态下得到某个观测值的概率 $P(观测|状态)$ .
上面第一幅图适合公式推导,考虑给定一个观测序列 $O={o_0, o_1, ..., o_T}$ 时,MHM模型参数 $\lambda=(\pi,S,T)$ 已知,则在时刻t处于状态 $S_t$ 的概率.
$P_t(S_i) = P_t(o_t|S)\sum_{j=1}^N{P_{t-1}(S_j)P(S_i|S_j)}$
其含义时 $t-1$ 时刻处于状态 $S_j$ ,后以概率 $P(S_i|S_j)$ 转移到状态 $S_i$ ,而且 $S_i$ 以概率 $P(O_{t}|S_i)$ 发射出观测值 ${o_t}$
这是一个递推公式,其初始状态为
$P_0{(S_i)} = \pi_i$

这个 $P_t(S_i)$ 很重要,HMM三个问题中,这个概率可以处理2.5个.

评估问题: HMM模型所有参数 $\lambda$ 已知,求一个已知序列O的期望概率E
$E (O | λ) = \sum_{i = 1}^{N} P_{T} (S_{i})$ $E(O|\lambda) = \sum_{i=1}^N{P_T(S_i)}$
即最终时刻T,所有状态概率和
解码问题: HMM模型所有参数 $\lambda$ 已知,求一个已知观测O所经历的各个隐含状态序列和评估问题类似,不过这里不是求和,而是从 $t=0$ 到 $t=T$ 找到一个隐状态序列,使得 $P_T(S_i)= \max_j{P_T(S_j)}$ ,从 $t=T$ 逆向搜索到 $t=0$ 即可,这个过程称为Viterbi算法.
学习问题:已知一组序列 $O_s$ ,求出HMM的参数 $\lambda$
假设我们已经通过经验确定了隐含状态的个数N, 观测序列O有S个,每一个观测序列的长度可以不一致.前面的 $P_t(S_i)$ 定义为前向概率 $\alpha_t(i)$ , 然后我们考虑什么是后向概率
$β_{t} (i) = P (o_{t + 1}, o_{t + 2}, . . ., o_{T} | λ, S (t) = S_{i})$ $\beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|\lambda,S(t)=S_i)$
后向概率的含义是: t时刻处于状态i,t时刻后观测和输入序列O一致 (ps:这个定义中状态和观测不是同一个时刻!!). 计算后向概率只是为了后面计算状态转移参数T
显然,已知 $\lambda$ 时,前向概率 $\alpha_t(i)$ 和 $\beta_t(i)$ 可以用递推方式求解,下面我们看看通过前向/后向概率,有没有办法求解 $\lambda$ .
初始概率
$π_{i} = \sum_{t = 1}^{T} α_{t} (i)$ $\pi_i = \sum_{t=1}^T{\alpha_t(i)}$
发射概率
$P (o_{k} | S_{i}) = \frac{\sum_{t + 1}^{T} 1 (o_{t} = o_{k}) α_{t} (i)}{π_{i}}$ $P(o_k|S_i) = \frac{ \sum_{t+1}^T1(o_t = o_k)\alpha_t(i)}{\pi_i}$
其中 $1(o_t=o_k)$ 是只序列O在时刻t的取值 $o_t = o_k$
转移概率
$P (S_{i} | S_{j}) = \frac{α_{t} (j) β_{t + 1} (i)}{π_{j}}$ $P(S_i|S_j) = \frac{\alpha_t(j)\beta_{t+1}(i)}{\pi_j}$
这是一个”先有鸡还是先有蛋的问题”,EM很适合这种场景.
以上考虑的是只有一个观测序列O, 如果观测序列有多个呢? EM算法中间,每个序列计算出一组 $\lambda$ ,然后取平均,此处取平均有两个可能的途径
第s个序列,得到 $\lambda_s$ ,则 $\lambda=\frac{1}{S}\sum_{s=1}^S{\lambda_s}$
依然是平均,不过稍微复杂一些
多序列初始概率
$π_{i} = \frac{1}{S} \sum_{s = 1}^{S} \sum_{t = 1}^{T} α_{t}^{s} (i)$ $\pi_i = \frac{1}{S}\sum_{s=1}^S\sum_{t=1}^T{\alpha^s_t(i)}$
多序列发射概率
$P (o_{k} | S_{i}) = \frac{\sum_{s = 1}^{S} \sum_{t + 1}^{T} 1 (o_{t} = o_{k}) α_{t}^{s} (i)}{S π_{i}}$ $P(o_k|S_i) = \frac{ \sum_{s=1}^S \sum_{t+1}^T1(o_t = o_k)\alpha^s_t(i)}{S\pi_i}$
多序列转移概率
$P (S_{i} | S_{j}) = \frac{\sum_{s = 1}^{S} α_{t}^{s} (j) β_{t + 1}^{s} (i)}{S π_{j}}$ $P(S_i|S_j) = \frac{\sum_{s=1}^S\alpha^s_t(j)\beta^s_{t+1}(i)}{S\pi_j}$

实验

to be continue…

对隐马尔科夫模型HMM的一点理解

本文重点

为什么要有隐马尔科夫模型?

HMM示意图

实验

猜你喜欢