序言

…..
本系列对算法的讲解都会从两篇部分予以呈现：

a. 湿货部分要浅入浅出，形象生动，读得明白。
b. 干货部分要一文以蔽之，公式罗列，看得通透；

下面是（一）的 b 部分内容

Unigram

Unigram模型认为序列中的每一项都是独立发生的，所以很自然，假设我们有N个序列，每个序列长度是 $M_n$ ，那么整个序列的联合概率分布就是：

P (X) = \prod i N \prod j M i p (X j i)

$P(X) = \prod_i^N\prod_j^{M_i}p\left(X_i^j\right)$
如果

xji $x_i^j$ 的取值是有限的，属于集合

V $V$ ,上式可以转化为

P (X) = \prod v p (x = v) c o u n t (v)

$P(X) = \prod_vp(x=v)^{count(v)}$
其中

count(v) $count(v)$ 表示

v $v$ 在序列中的出现次数，上式就是Unigram模型的似然函数，并且它的对数似然函数为：

L = l n P (X) = \sum v c o u n t (v) * l n p (x = v) 并 且 \sum v p (v) = 1

$L = lnP(X) = \sum_vcount(v)*ln^{p(x=v)}\\ 并且 \sum_vp\left(v\right) = 1$
我们将限制条件通过 拉格朗日算子加到对数似然函数里并分别对参数求导：

L' = l n P (X) \partial L ' \partial p ( v ) \partial L ' \partial λ = \sum v c o u n t (v) * l n p (v) + λ (1 - \sum v p (v)) = c o u n t ( v ) p ( v ) - λ = 1 - \sum v p (v)

$\begin{align} L' = lnP(X) &= \sum_vcount(v)*ln^{p(v)} + \lambda(1-\sum_vp\left(v\right))\\ \frac{\partial L'}{\partial p(v)} &= \frac{count(v)}{p(v)}-\lambda\\ \frac{\partial L'}{\partial \lambda} &= 1-\sum_vp\left(v\right) \end{align}$
令两个偏导为0，我们先有

p (v) = c o u n t ( v ) λ 并 且 \sum v p (v) = \sum v c o u n t ( v ) λ = 1 所 以 λ = c o u n t (*)

$p(v)=\frac{count(v)}{\lambda} 并且\\ \sum_vp\left(v\right) = \sum_v\frac{count(v)}{\lambda} =1\\ 所以\lambda = count(*)$
所以Unigram模型的最大似然估计就是

p (v) = c o u n t ( v ) c o u n t ( * )

$p(v) = \frac{count(v)}{count(*)}$
这是一个非常符合直觉的公式，一个term出现的概率就是它在训练数据里的频率，所以甚至有人会觉得这就是常识，但实际上背后是有数学推导支撑的。

马尔可夫模型

按照上面类似的逻辑，一阶马尔可夫的最大似然估计就是

p (x t = v i, x t + 1 = v j) = c o u n t ( v i , v j ) c o u n t ( v i , * )

$p(x^{t}=v_i,x^{t+1}=v_j) = \frac{count(v_i,v_j)}{count(v_i,*)}$
这里不作推导了,有兴趣可以自己推导一下。（多说一句，很多书上上面这两个公式都是直接给出来的，但你自己从头推导过一次后会感觉概率论这东西还是靠谱的……233）

隐马尔可夫模型HMM

根据我们a部分的描述，隐马尔可夫链其实是有两条序列的，我们分别用 $H$ 和 $O$ 来表示，以一阶隐马尔可夫链为例：
【图1】
那么对于某个训练样本 $\{o,h\}$ 它的联合概率应该如何表示呢

P (o, h | θ) = p (h 1 | θ) \prod t = 2 T p (h t | h t - 1, θ) \prod t = 1 T p (o t | h t, θ)

$P(o,h|\theta) = p(h_1|\theta)\prod_{t=2}^Tp(h_t|h_{t-1},\theta)\prod_{t=1}^Tp(o_t|h_t,\theta)$
主要是三个部分：1)第一个隐藏层的初始状态。2)隐藏层的 转移概率。3)从隐藏层到表示层的 表现概率，我们分别用特殊的符号来标记对应的参数：

π q i A q i, q j B q j, s k = p (h 1 = q i), q \in Q, Q 是 所 有 可 能 的 隐 藏 层 状 态 = p (h t = q j | h t - 1 = q i) = p (o t = s k | h t = q j), s k \in S, S 是 所 有 可 能 的 表 现 层 状 态

$\begin{align} \pi_{q_i} &= p(h_1=q_i),q \in Q,Q是所有可能的隐藏层状态\\ A_{q_i,q_j} &= p(h_t=q_j|h_{t-1}=q_i)\\ B_{q_j,s_k} &= p(o_t=s_k|h_t = q_j),s_k \in S,S是所有可能的表现层状态 \end{align}$
所以上面的联合概率公式可以表示为：

P (o, h | θ) = π h 1 \prod t = 2 T A h t - 1 h t \prod t = 1 T B h t o t

$P(o,h|\theta) = \pi_{h_1}\prod_{t=2}^TA_{h_{t-1}h_t}\prod_{t=1}^TB_{h_to_t}$
如果我们同时知道

{o,h} $\{o,h\}$ ，想要求得

θ $\theta$ ，那其实问题很简单，无非就是类似Unigram和Bigram统计一下各个term和pair出现的次数，并计算出概率。

但问题的关键来了：在实际中我们多半是不知道隐藏层状态是什么样的，否则它们就不叫「隐藏层」了，所以我们只能期望表现序列 $o$ 的概率最大：

p (o | θ) = \sum h p (o, h | θ)

$p(o|\theta) = \sum_hp(o,h|\theta)$
记住h可是一个序列，在任何一个位置的取值都有

|Q| $|Q|$ 种，所以对于一个长度为N的序列，我们需要加和的隐藏层候选集大小为

|Q|T $|Q|^T$ （T是序列长度），这是一个极其庞大的数字。而且当

h $h$ 的状态不同时，从

h $h$ 表现为

o $o$ 的概率也不一样。所以我们想直接去最大化这个联合分布（最大似然）是不现实的。

Baum-Welch算法（EM算法）

所以在这里只能通过EM算法，去一步步迭代计算求得 $\theta$ ，EM算法首先假设参数是知道的，然后最大化Q函数来更新参数值（Baum-Welch是EM算法在HMM中的具体实现）
EM算法作为十大数据挖掘算法之一，后面我们可以单独开一篇博客学习，我自己现在也没有理解得很深入，但在这里你只需要知道它有两步，Q&M，Q步骤中计算Q函数，M步骤中最大化Q函数。
在HMM问题中， $\theta^{old}是已知的，\theta是我们需要去求解的$ ，第一个公式里可以认为是Q函数的定义：

Q (θ, θ o l d) p (o | θ o l d) 和 θ 无 关 ， 所 以 ： 带 入 前 面 的 p (o, h | θ) ： = \sum h p (o, h | θ o l d) l n p (o, h | θ) = \sum h p (h | o, θ o l d) p (o | θ o l d) l n p (o, h | θ) \propto \sum h p (h | o, θ o l d) l n p (o, h | θ) = \sum h p (h | o, θ o l d) * l n π h 1 + \sum h p (h | o, θ o l d) \sum t = 2 l n A h t - 1, h t + \sum h p (h | o, θ o l d) \sum t = 1 l n B h t, o t

$\begin{align} Q(\theta,\theta^{old}) &= \sum_hp(o,h|\theta^{old})ln\ p(o,h|\theta)\\ &= \sum_h{p(h|o,\theta^{old})}{p(o|\theta^{old})}ln\ p(o,h|\theta)\\ p(o|\theta^{old})和\theta无关，所以：\\ &\propto \sum_hp(h|o,\theta^{old})ln\ p(o,h|\theta)\\ 带入前面的p(o,h|\theta)：\\ & = \sum_h p(h|o,\theta^{old})*ln\ \pi_{h_1} \\&\ \ \ \ + \sum_h p(h|o,\theta^{old})\sum_{t=2}ln\ A_{h_{t-1},h_t}\\&\ \ \ \ +\sum_h p(h|o,\theta^{old})\sum_{t=1}ln\ B_{h_t,o_t} \end{align}$
公式复杂度似乎有些不可控了，我们单把上式的 第一部分拎出来：

F = \sum h p (h | o, θ o l d) * l n π h 1

$F = \sum_h p(h|o,\theta^{old})*ln\ \pi_{h_1}$
假设我们指定

h1=q $h_1=q$
则F中和

h1=q $h_1=q$ 相关的部分就是

\sum h \in H' q p (h | o, θ o l d) * l n π q

$\sum_{h \in H'_q} p(h|o,\theta^{old})*ln\ \pi_{q}$

H′q $H'_q$ 是

H $H$ 中

h1=q $h_1=q$ 的所有可能的

h $h$ 序列构成的集合，此时

∑h∈H′p(h|o,θold) $\sum_{h \in H'} p(h|o,\theta^{old})$ 发生了微妙的变化：

\sum h \in H' p (h | o, θ o l d) = p (h 1 = q | o, θ o l d)

$\sum_{h \in H'} p(h|o,\theta^{old}) = p(h_1=q|o,\theta^{old})$
所以原式F：

F = \sum q p (h 1 = q | o, θ o l d) l n π q

$F = \sum_qp(h_1=q|o,\theta^{old})ln\ \pi_q$
类似的方法我们可以吧

Q(θ,θold) $Q(\theta,\theta^{old})$ 变成下式：

Q (θ, θ o l d) = \sum q p (h 1 = q | o, θ o l d) l n π q + \sum t = 2 \sum q 1 \in Q \sum q 2 \in Q p (h t - 1 = q 1, h t = q 2 | o, θ o l d) * l n A q 1, q 2 + \sum t \sum q p (h t = q | o, θ o l d) l n B q, o t

$\begin{align} Q(\theta,\theta^{old}) =& \sum_qp(h_1=q|o,\theta^{old})ln\ \pi_q \\ &+ \sum_{t=2}\sum_{q_1 \in Q}\sum_{q_2 \in Q}p(h_{t-1}=q_1,h_{t}=q_2|o,\theta^{old})*lnA_{q_1,q_2} \\ &+ \sum_{t}\sum_qp(h_t=q|o,\theta^{old})ln\ B_{q,o_t} \end{align}$
为了方便后续计算表示，我们用：

γ t γ t (q) ξ t ξ t (q 1, q 2) = p (h t | o, θ o l d) = p (h t = q | o, θ o l d) = p (h t - 1, h t | o, θ o l d) = p (h t - 1 = q 1, h t = q 2 | o, θ o l d)

$\begin{align} \gamma_t &= p(h_t|o,\theta^{old})\\ \gamma_t(q) &= p(h_t=q|o,\theta^{old})\\ \xi_t &= p(h_{t-1},h_t|o,\theta^{old})\\ \xi_t(q_1,q_2) &= p(h_{t-1}=q_1,h_t=q_2|o,\theta^{old}) \end{align}$
所以：

Q (θ, θ o l d) = \sum q γ 1 (q) l n π q + \sum t = 2 \sum q 1 \in Q \sum q 2 \in Q ξ t (q 1, q 2) * l n A q 1, q 2 + \sum t \sum q γ t (q) l n B q, o t

$Q(\theta,\theta^{old}) = \sum_q\gamma_1(q)ln\ \pi_q + \sum_{t=2}\sum_{q_1 \in Q}\sum_{q_2 \in Q}\xi_t(q_1,q_2)*lnA_{q_1,q_2} + \sum_{t}\sum_q\gamma_t(q)ln\ B_{q,o_t}$
然后我们最大化Q，分别对每个参数进行求导，将限定（主要是各种概率和为1）以拉格朗日乘子的方式加入，比如对

πq $\pi_q$ 求导：

\partial Q \partial π q π q \sum q π q 所 以 ： π q （ 因 为 γ 1 本 身 = γ 1 ( q ) π q - λ 。 使 它 = 0 ， 得 到 = γ 1 ( q ) λ = \sum q γ 1 ( q ) λ = 1 = γ 1 ( q ) \sum q ' γ 1 ( q ' ) = γ 1 (q) ， 也 是 一 个 概 率 分 布 ， 所 以 其 和 也 为 1 ）

$\begin{align} \frac{\partial Q}{\partial \pi_q} &= \frac{\gamma_1(q)}{\pi_q} - \lambda。使它=0，得到\\ \pi_q &= \frac{\gamma_1(q)}{\lambda}\\ \sum_q\pi_q &=\frac{\sum_q\gamma_1(q)}{\lambda}=1\\ 所以：\pi_q &= \frac{\gamma_1(q)}{\sum_{q'}\gamma_1(q')}=\gamma_1(q)，\\（因为\gamma_1本身&也是一个概率分布，所以其和也为1） \end{align}$
类似的方式可以分别求得：

A q 1, q 2 B q, s = \sum t = 2 ξ t ( q 1 , q 2 ) \sum t = 2 \sum q ξ t ( q , q 2 ) = \sum t = 2 ξ t ( q 1 , q 2 ) \sum t = 2 γ t ( q 2 ) = \sum t \in T ' γ t ( q ) \sum t γ t ( q ), T' 是 所 有 o t = s 的 集 合

$\begin{align} A_{q_1,q_2} &= \frac{\sum_{t=2}\xi_t(q_1,q_2)}{\sum_{t=2}\sum_q\xi_t(q,q_2)}=\frac{\sum_{t=2}\xi_t(q_1,q_2)}{\sum_{t=2}\gamma_t(q_2)}\\ B_{q,s} &= \frac{\sum_{t \in T'}\gamma_t(q)}{\sum_{t}\gamma_t(q)},T'是所有o_t=s的集合 \end{align}$
上面三个公式就是我们在EM算法的M步骤中更新参数值的公式。
但在这里， 我们遗留了一个很重要的问题，

γ和ξ $\gamma和\xi$ 应该如何计算呢，我们只是为了简化公式引入的这两个符号，它们背后还是概率公式啊。

前向后向算法（forward-backward）

所以接下来我们就要解决这个问题，就是如何计算 $\gamma$ 和 $\xi$ ,也就是在知道了表现序列 $o$ 和相关参数 $\theta^{old}$ 后，想要知道和 $h$ 相关的一些概率。
【图2】
上面是一个示意图， $|Q|=3$ ，每个隐藏状态的取值都有3种情况，所以下面就变成了那样一个全连接的网络，看起来有点像一个NN了。
有（下面公式省略 $\theta^{old}$ ）：

γ t = p (h t | o) . (来 自 上 面 的 定 义) = p ( o | h t ) p ( h t ) p ( o ) = p ( o 1 , o 2 . . . , o t | h t ) p ( o t + 1 . . o T | h t ) p ( h t ) p ( o ) = p ( o 1 , o 2 . . . , o t , h t ) p ( o t + 1 . . o T | h t ) p ( o )

$\begin{align} \gamma_t &= p(h_t|o).\small(来自上面的定义)\\ &= \frac{p(o|h_t)p(h_t)}{p(o)}\\ &=\frac{p(o_1,o_2...,o_t|h_t)p(o_{t+1}..o_{T}|h_t)p(h_t)}{p(o)}\\ &=\frac{p(o_1,o_2...,o_t,h_t)p(o_{t+1}..o_{T}|h_t)}{p(o)} \end{align}$
上式分母中的部分其实跟

θold $\theta^{old}$ 没啥关系， 我们把分子的两部分分别定义为 $\alpha$ 和 $\beta$ :

α (h t) β (h t) = p (o 1, o 2 . . ., o t, h t) = p (o t + 1 . . o T | h t)

$\begin{align} \alpha(h_t) &= p(o_1,o_2...,o_t,h_t)\\ \beta(h_t) &= p(o_{t+1}..o_{T}|h_t) \end{align}$
其中

α (h t) q 在 这 里 h t 只 和 = p (o 1, o 2 . . ., o t, h t = q) = p (o 1... t | h t = q) p (h t = q) = p (o t | h t = q) p (o 1... (t - 1) | h t = q) p (h t = q) = p (o t | h t = q) p (o 1... (t - 1), h t = q) = p (o t | h t = q) \sum q' p (o 1... (t - 1), h t - 1 = q', h t = q) h t - 1 有 关 系 ： = p (o t | h t = q) \sum q' p (o 1... (t - 1), h t - 1 = q') p (h t = q | h t - 1 = q') = p (o t | h t = q) \sum q' α (h t - 1) q' p (h t = q | h t - 1 = q')

$\begin{align} \alpha(h_t)^q &= p(o_1,o_2...,o_t,h_t=q)\\ &= p(o_{1...t}|h_t=q)p(h_t=q)\\ &= p(o_t|h_t=q)p(o_{1...(t-1)}|h_t=q)p(h_t=q)\\ &= p(o_t|h_t=q)p(o_{1...(t-1)},h_t=q)\\ &= p(o_t|h_t=q)\sum_{q'}p(o_{1...(t-1)},h_{t-1}=q',h_t=q)\\ 在这里h_t只和&h_{t-1}有关系：\\ &=p(o_t|h_t=q)\sum_{q'}p(o_{1...(t-1)},h_{t-1}=q')p(h_t=q|h_{t-1}=q')\\ &=p(o_t|h_t=q)\sum_{q'}\alpha(h_{t-1})^{q'}p(h_t=q|h_{t-1}=q') \end{align}$
上面推导过程用到的性质无非是 马尔可夫假设和 条件概率的概念而已，此时我们已经发现

α $\alpha$ 是可以迭代进行计算的了，整个计算过程是 从前往后的，所以是 前向算法，其实也很好理解，比如下图的a中标红的节点

h3=q2 $h_3=q_2$ ，其实只能从

h2 $h_2$ 几个状态转移过来，箭头的参数值就是

p(h3=q2|h2=q) $p(h_3=q_2|h_{2}=q)$ ,也就是A可以指示的。
对于序列的第一个隐藏状态，它的初始值就是

α (h 1) q = π q * p (o 1 | q)

$\alpha(h_1)^q = \pi_q*p(o_1|q)$
类似的方法我们可以推导得到

β $\beta$ ,这是 后向算法的部分,示意图如下面图(b)所示：

β (h t) q = p (o t + 1 . . o T | h t = q) = \sum q' β (h t + 1) q' p (o t + 1 | h t + 1 = q') p (h t + 1 = q' | h t = q)

$\begin{align} \beta(h_t)^q &= p(o_{t+1}..o_{T}|h_t=q)\\ &=\sum_{q'}\beta(h_{t+1})^{q'}p(o_{t+1}|h_{t+1}=q')p(h_{t+1}=q'|h_t=q) \end{align}$
【图ab】

现在回头去看就有

γ t (q) 其 中 : p (o) = α ( h t ) q β ( h t ) q p ( o ) = \sum q' α (h t) q' β (h t) q' . (因 为 γ t 是 概 率 分 布 ）

$\begin{align} \gamma_t(q) &=\frac{\alpha(h_t)^q\beta(h_t)^q}{p(o)}\\ 其中:p(o) &= \sum_q' \alpha(h_t)^{q'}\beta(h_t)^{q'}.\small(因为\gamma_t是概率分布） \end{align}$
而

ξ t (q 1, q 2) 其 中 p (o) = p (h t - 1 = q 1, h t = q 2 | o) = p ( o | h t - 1 = q 1 , h t = q 2 ) p ( h t - 1 = q 1 , h t = q 2 ) p ( o ) = p ( o 1... t - 1 | h t - 1 = q 1 ) p ( o t | h t = q 2 ) p ( o t + 1... T | h t = q 2 ) p ( h t - 1 = q 1 | h t = q 2 ) p ( h t = q 2 ) p ( o ) 第 一 项 和 最 后 一 项 组 合 成 α, 第 三 项 是 β = α ( h t - 1 ) q 1 p ( o t | h t = q 2 ) β ( h t ) q 2 p ( h t - 1 = q 1 | h t = q 2 ) p ( o ) = α ( h t - 1 ) q 1 B q 2 , o t β ( h t ) q 2 A q 1 , q 2 p ( o ) = \sum q \sum q' α (h t - 1) q B q', o t β (h t) q' A q, q' . 因 为 ξ 也 是 概 率 分 布 。

$\begin{align} \xi_t(q_1,q_2) &= p(h_{t-1}=q_1,h_t=q_2|o) \\ &=\frac{p(o|h_{t-1}=q_1,h_t=q_2)p(h_{t-1}=q_1,h_t=q_2)}{p(o)}\\ &=\frac{p(o_{1...t-1}|h_{t-1}=q_1)p(o_t|h_t=q_2)p(o_{t+1...T}|h_t=q_2)p(h_{t-1}=q_1|h_t=q_2)p(h_t=q_2)}{p(o)} \\ &\small{第一项和最后一项组合成\alpha,第三项是\beta} \\ &=\frac{\alpha(h_{t-1})^{q_1}p(o_t|h_t=q_2)\beta(h_t)^{q_2}p(h_{t-1}=q_1|h_t=q_2)}{p(o)}\\ &=\frac{\alpha(h_{t-1})^{q_1}B_{q_2,o_t}\beta(h_t)^{q_2}A_{q_1,q_2}}{p(o)}\\ 其中p(o) &= \sum_{q}\sum_{q'}\alpha(h_{t-1})^{q}B_{q',o_t}\beta(h_t)^{q'}A_{q,q'}.因为\xi也是概率分布。 \end{align}$
可以看到， 前向后向算法我们一开始的意图已经达到了，而实际上前向后向算法也可以用来计算出当所有参数给定时，o的概率，这在实际应用中我们判断一个序列出现的概率时非常有用:

p (o) 或 者 p (o) = \sum q' α (h t) q' β (h t) q' = \sum q \sum q' α (h t - 1) q B q', o t β (h t) q' A q, q'

$\begin{align} p(o) &= \sum_q' \alpha(h_t)^{q'}\beta(h_t)^{q'}\\ \small 或者\\ p(o) &= \sum_{q}\sum_{q'}\alpha(h_{t-1})^{q}B_{q',o_t}\beta(h_t)^{q'}A_{q,q'} \end{align}$
至此，我们已经得到

γ $\gamma$ 和

ξ $\xi$ 了，所以完全可以带回到EM算法去迭代地学习到模型中的参数集合

θ={A,B,π} $\theta=\{A,B,\pi\}$ 了。但在实际的应用中，我们通常希望给出一个观测序列

o $o$ ，可以知道对应概率最大的

h $h$ 是什么，因为

h $h$ 有可能是一些有意义的状态比如单词词性、语音词之类的东西，在湿货部分的例子里就是我们希望通过表现 外在行为去猜测其最大可能的 内在意愿，这也是 我们人在日常生活中潜意识会干的事情。

Viterbi算法

如何解决上一节提到的问题呢，最简单的方法，我们不是知道 $\gamma_t(q)$ 是t时刻隐状态为q的概率吗，对于每一个时刻我们找一个最大的q不就好了。也就是

q * t = arg max q i [γ t (q i)]

$q_t^* = \mathop{\arg\max}_{q_i}[\gamma_t(q_i)]$
这样的做法被称为 「近似算法」，但我们知道，所有可能的序列有

|Q|T $|Q|^T$ 种，近似算法不能保证求得的解是整体序列概率最大的那一个。说白了，我们希望找到的是下面概率图（c）（注意此时的连线已经不是转移概率了）中的一个 最优路径（概率累乘最大）
【图cd】

一提到最优路径，做过OI/ACM题目的同学可能都会想到 动态规划，没错，这里我们就要通过动态规划来求解，在序列算法中被称为 Viterbi算法。
首先我们定义一个概率计算函数

ft(q) $f_t(q)$ 表示 在 $h_t=q$ 的前提下从1到t所有序列中最大概率值：

f t (q) = max h 1... t - 1 p (h t = q, o 1... t)

$f_t(q) = \mathop{\max}_{h_{1...t-1}}p(h_t=q,o_{1...t})$
在上面那个图(d)中，我们想求到

f3(q1) $f_3(q_1)$ ,你会发现它 只能从前一个隐藏状态的三种可能性转移过来，我们只需要看哪个

q′ $q'$ 的

ft−1(q′)∗Aq′,q $f_{t-1}(q')*A_{q',q}$ 更大就好了，至于

ft−1(q′) $f_{t-1}(q')$ 怎么求解我并不关心，交给递归就好了，这就是递归算法 无后效性的体现。

f t (q) = (max q' f t - 1 (q') * A q', q) * B q, o t

$f_t(q) = \left(\mathop{\max}_q'f_{t-1}(q')*A_{q',q}\right)*B_{q,o_t}$
对于第一个状态，初始值为

f 1 (q) = π q * B q, o 1

$f_1(q) = \pi_q*B_{q,o_1}$
这样直到最后，我们从

fT(q) $f_T(q)$ 中 找一个概率最大的就是我们求解最优路径的值了。
等等，我们是想找到 最优路径本身，你算一个最大概率值算怎么回事啊？其实要得到最优路径也很简单，我们只需要在计算

ft(q) $f_t(q)$ 顺带记录一下最大的概率是从之前哪个状态转移过来的就好了，令：

g t (q) = arg max q' f t - 1 (q') * A q', q

$g_t(q) = \mathop{\arg\max}_{q'}f_{t-1}(q')*A_{q',q}$

gt(q) $g_t(q)$ 表示 当t时刻隐藏状态确认是q的情况下，它的上一时刻状态应该是什么，我们最后在

fT(q) $f_T(q)$ 找到一个概率最大的q，只需要要根据这个q一步步回溯回去就可以找到对应的序列了,如图e所示，我们在最后一步挑选了q1。
【图e】

尾巴

隐马尔可夫模型在语音识别、NLP等领域有着非常广泛的应用，序列算法里未来还有其它跟「隐变量」打交道的东西，隐马尔可夫应该算经典之一。

之前在不同的书上都看过多次隐马尔可夫模型，但记忆不深刻，时间稍微一长就忘掉了，所以借着这个机会从头到尾梳理一次，按照概率表示)->(EM算法)->(前向后向算法)->(Viterbi)这个顺序理解相当酣畅，都是有需求才进入下一步的介绍，承上启下，相信这次要记得久一点了。

在过程中参考了《PRML》和《统计学习方法》，发现书上并不一定按照这个思路来讲，不是很好串起来，而且一些概率公式之间跳的太快（估计是我数学比较渣）或者压根没有，这次从头搞一次，我感觉应该是比较丰实了。

序列的算法（一·b）隐马尔可夫模型

序言