计算机语言学笔记(七)有限状态技术和形态分析

7 有限状态技术和形态分析

7.1 形态分析简介

形态学研究屈折语中词的构成规则。
英语、德语等时屈折语。
汉语是孤立语。
日语是黏着语。
词通常是语素组成,语素是语言中最小的意义单位。

英语中的语素
语素可以分成两大类:词干(提供词的主要意义)和词缀(提供词的附加意义,修改词干义或改变词的语法功能)
语素构成词的方法:
1.屈折变化:词干+词缀形成的词通常与原词干同属一类,常用来使词具备数、时态等功能。
2.派生词:词干+词缀形成的词通常与原词干不属一类,词义通常与原词干有联系(有时难以预料)

屈折变化:名词单复数,名词所有格,形容词副词比较级,最高级,动词时态。
派生词:动词形容词名词化,从名词动词派生出形容词。
形态分析研究如何利用计算机把屈折语中的词分解成语素。

7.2 形态分析基本技术

有限状态技术
有限状态自动机(FSA)
有限状态自动机的确定性(DFSA/NFSA)
有限状态自动机和语言
有限状态自动机和正规文法(等价)
有限状态自动机和正则表达式(等价)
有限状态自动机作为正则语言的识别装置和生成装置。

DFSA和NFSA
NFSA的不确定性:同一状态,输入同一个字母可转移到多个状态。
NFSA可以转换成DFSA,所以NFSA不比DFSA能力强。
NFSA可先转换成DFSA后再进行句子的识别和生成,也可以直接用NFSA进行句子的识别和生成,但要处理因此带来的非确定性问题。
有时候使用NFSA更自然,有时从NFSA得到的DFSA太复杂(状态多)。
针对不确定性的处理策略:引入回溯机制,引入展望符号,引入并行机制。

有限状态转换机FST:如果把FSA中弧上的字母换成两个字母,一个称为输出字母、一个称为输入字母,这样得到FSA就是一个有限状态转换机(Finite State Transducer)。
FST作为识别装置(recognizer):给定一对字符串,FST拒绝或接受。
FST作为生成装置(generator): 生成一对字符串
FST作为翻译装置(translator):给定一个字符串,生成另一个字符串

构建形态分析器所需要的资源
1.词典:词干和词缀,词干和词缀的基本信息(如词干的类别)。
2.形态知识:语素间的顺序关系,那一类语素可以和哪一类语素组合。
3.正字规则:两个语素组合时应进行怎样的变化。

猜你喜欢

转载自blog.csdn.net/tianyouououou/article/details/95854331