视频列表:
38 markov模型(一)
39 markov模型(二)
40 markov模型(三)
41 markov模型(四)
42 markov模型(五)
38 markov模型(一)
第六章 Markov模型
Markov模型概况
- Markov模型是一种统计模型,广泛地应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理的应用领域。
- Markov(1856~1922),苏联数学家。切比雪夫的学生。在概率论、数论、函数逼近论和微分方程等方面卓有成就。
- 经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具。
- 语音识别、音字转换、分词、词性标注、命名实体识别、句法分析、……
Markov假设
设 是随机变量序列,其中每个随机变量的取值在有限集 ,称为状态空间,Markov特征是:
- 有限历史假设(Limited History (Horizon,Context)):
- 时间不变性假设(Time Invariant)(马尔可夫过程的稳定性假设):这种条件依赖,不随时间的改变而改变
如果X具有这些特征,那么这个随机变量序列称为一个马尔可夫过程(链)
Markov模型的形式化表示
一个马尔可夫模型是一个三元组 ,其中 是状态的集合, 是初始状态的概率, 是状态间的转移概率
Markov模型的图形表示
- 状态集合
- 概率分布
- 由状态
到状态
之间的转移弧上有条件转移概率:
={*,t,e,a,o}
=(1,0,0,0,0)
A=
隐Markov模型
- 各个状态(或者状态转移弧)都有一个输出,但是状态是不可见的
- 最简单的情形:不同的状态只能有不同的输出
- 增加一点灵活性:不同的状态,可以输出相同的输出
- 再增加一点灵活性:输出在状态转移中进行
- 最大的灵活性:在状态转移中以特定的概率分布输出
39 markov模型(二)
HMM的形式化定义
HMM是一个五元组
,其中
是状态的集合,
是输出字符的集合,
是初始状态的概率,
是状态转移的概率。
是状态转移时输出字符的概率。
马尔可夫过程程序
隐马尔科夫模型的三个基本问题
- 问题1:给定一个模型 ,如何高效地计算某一输出字符序列的概率
- 问题2:给定一个输出字符序列O,和一个模型 ,如何确定产生这一序列概率最大的状态序列
- 问题3:给定一个输出字符的序列O,如何调整模型的参数使得产生这一序列的概率最大
网格(Trellis)
问题1:评价(Evaluation)
算法复杂度太高,需要
40 markov模型(三)
向后过程
问题2 解码(decoding)
- Viterbi algorithm
问题3 参数估计
41 markov模型(四)
基于HMM的词性标注
词性标注(Part-of-Speech tagging)
回顾:
作用:句法分析的前期步骤
难点:兼类词
基于规则的词性标注
基于转换的错误驱动的词性标注
基于HMM的词性标注
42 markov模型(五)
#### 基于HMM的词性标注 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190111093543614.PNG)
音字转换
规则与统计相结合
我们需要的音字转换结果是:
“一枝美丽的小花”
采用规则的方法
- 短语结合规则:
A+NP->NP
A+“的”+NP->NP
M+“枝”+NP->NP - 短语匹配算法
- 从词网格到元素网格
- 其他问题
系统挂接问题
万能挂接
Windows支持
Mac OS, Linux, Windows CE, Symbian OS,……
致谢
关毅老师,现为哈工大计算机学院语言技术中心教授,博士生导师。通过认真学习了《自然语言处理(哈工大 关毅 64集视频)》1(来自互联网)的课程,受益良多,在此感谢关毅老师的辛勤工作!为进一步深入理解课程内容,对部分内容进行了延伸学习2 3 456,在此分享,期待对大家有所帮助,欢迎加我微信(验证:NLP),一起学习讨论,不足之处,欢迎指正。
参考文献
《自然语言处理(哈工大 关毅 64集视频)》(来自互联网) ↩︎
王晓龙、关毅 《计算机自然语言处理》 清华大学出版社 2005年 ↩︎
哈工大语言技术平台云官网:http://ltp.ai/ ↩︎
Steven Bird,Natural Language Processing with Python,2015 ↩︎
Claude E. Shannon. “Prediction and Entropy of Printed English”, Bell System Technical Journal 30:50-64. 195 ↩︎
An Empirical Study of Smoothing Techniques for Language Modeling, Stanley F. Chen ↩︎