数学之美-隐含马尔可夫模型-笔记

《数学之美》吴军著第二版 ——读书笔记

原理

通信模型：

…
几乎所有的自然语言处理问题等可以等价成通信的编码问题。

在通信中，如何根据接收端的观测信号 $o_1,o_2,...$ 来推测信号源发送的信息 $s_1,s_2,...$ 呢？只需要从所有的源信息中找到最可能产生出观测信息的那一个信息。即求
$P(s_1,s_2,...|o_1,o_2,...)$ 达到最大值的那个信息串s1,s2,…
利用贝叶斯变换成：

\frac{P (o_{1}, o_{2}, . . . | s_{1}, s_{2}, . . .) \cdot P (s_{1}, s_{2}, . . .)}{P (o_{1}, o_{2}, . . .)}

$\frac{P(o_1,o_2,...|s_1,s_2,...)·P(s_1,s_2,...)}{P(o_1,o_2,...)}$

因为一旦信息 $o_1,o_2,...$ 产生， $P(o_1,o_2,...)$ 就是一个可以忽略的常数。因此上面公式等价为

P (o_{1}, o_{2}, . . . | s_{1}, s_{2}, . . .) \cdot P (s_{1}, s_{2}, . . .) . . .1

$P(o_1,o_2,...|s_1,s_2,...)·P(s_1,s_2,...) \space\space\space\space ...1$
这个公式可以由隐含马尔科夫模型来估计。

隐含马尔科夫模型（Hidden Markov Model）其实并不是19世纪俄罗斯数学家马尔科夫发明的，而是美国数学家鲍姆等人六七十年代发表的一系列论文中提出的。

马尔科夫链。到了19世纪，概率论的发展从对随机变量的研究发展到对随机变量的时间序列 $s_1,s_2,...$ ,即随机过程的研究。举一个例子，我们可以把 $s_1,s_2,...,s_t,...$ 看成北京每天的最高气温，这里面每个状态st都是随机的。第二，任一状态st的取值都可能和周围其它状态相关。这样随机过程就有了两个维度的不确定性。马尔科夫为了简化问题，提出了一种简化的假设，即随机过程中各个状态 $s_t$ 的概率分布，只与它的前一个状态 $s_{t-1}$ 有关，
即

P (s_{t} | s_{1}, s_{2}, . . ., s_{t - 1}) = P (s_{t} | s_{t - 1}) .

$P(s_t|s_1,s_2,...,s_{t-1}) = P(s_t|s_{t-1}).$
这个假设后来被命名为马尔科夫假设，而符合这个假设的随机过程称为马尔科夫过程，也称马尔科夫链。

马尔科夫链：

隐含马尔科夫模型是上述马尔科夫链的一个扩展：任一时刻t的状态 $s_t$ 是不可见的。
隐含马尔科夫模型在每个时刻t会输出一个符号 $o_t$ ，而且 $o_t$ 跟 $s_t$ 相关且仅跟 $s_t$ 相关。这个被称为独立输出假设。
隐含马尔科夫模型(y代表s,x代表o)：

基于马尔科夫假设和独立输出假设，我们可以计算出某个特定的状态序列 $s_1,s_2,...$ 产生出输出符号 $o_1,o_2,...$ 的概率。

P (s_{1}, s_{2}, . . ., o_{1}, o_{2}, . . .) = \prod_{t} P (s_{t} | s_{t - 1}) \cdot P (o_{t} | s_{t}) . . .2

$P(s_1,s_2,...,o_1,o_2,...) = \prod_{t}P(s_t|s_{t-1})·P(o_t|s_t)\space\space\space\space\space...2$

公式2与公式1形态上相似，它是由下面两个公式带入公式1得到：

P (o_{1}, o_{2}, . . . | s_{1}, s_{2}, . . .) = \prod_{t} P (o_{t} | s_{t}) P (s_{1}, s_{2}, . . .) = \prod_{t} P (s_{t} | s_{t - 1})

$P(o_1,o_2,...|s_1,s_2,...) = \prod_{t}P(o_t|s_t)\\ P(s_1,s_2,...) = \prod_{t}P(s_t|s_{t-1})$

应用

语音识别机器翻译图像处理基因序列分析拼写纠错等

其它资源

知乎理解-如何用简单易懂的例子解释隐马尔可夫模型
 CSDN-马尔科夫模型学习
 【NLP】揭秘马尔可夫模型神秘面纱系列文章（一）

数学之美-隐含马尔可夫模型-笔记

原理

应用

其它资源

猜你喜欢