计算机语言学笔记(二)现代汉语切分研究

2 现代汉语词语切分研究

汉语自动切分:把字串自动转换为词串。
英语中的切分更容易。

2.1 为什么要进行汉语切分

TTS或语音合成中,只有正确切词才能知道正确的发音,只有正确的切词,才能正确变音,只有正确切词,才能解决轻声问题。
信息检索中,切分有助于提高信息检索的准确率。
词语的计量分析中,可以进行词频统计。
等等等等…
汉语切词也是深层汉语分析的基础。

2.2 基本方法

最大匹配法:正向最大匹配法(从左向右匹配词典)和逆向最大匹配法(从右向左匹配词典)。
算法非常简单,长词优先。

2.3 自动切分的评价

准确率:正确分词数/所有分词数*100%
召回率:
F-评价:综合准确率和召回率的评价指标。

2.4 关键问题

切分歧义(消解):一个字串有不止一种切分结果。(交集型歧义)(组合型歧义)(混合型歧义)
未登录词识别:专有名词,新词。
真歧义:在不同的语境中确实有多重切分形式。
伪歧义:看起来有歧义,但是在所有真实语境中仅有一种切分形式可接受。
事实上,真实文本中伪歧义现象远远多于真歧义现象。

2.5 歧义的发现

歧义的发现:歧义消解的前提是发现歧义,检测到歧义切分现象。
MM和RMM均没有检测歧义的能力,只能给出一种切分结果。
最短路径法:选择次数最少的切分结果,没有歧义检测能力。

双向最大匹配:(MM+RMM):同时采用MM法和RMM法,若给出同样的结果,则认为没有歧义,反之,认为发生了歧义。但是双向最大匹配法不能发现所有的歧义。
MM+逆向最小匹配法。
全切分算法:依据词表给出输入文本的所有可能的切分结果。

2.6 歧义消解

基于记忆的歧义消解:鉴于伪歧义的消解与上下文无关,可以将正确的切分形式记录在一张表中,其歧义消解通过直接查表即可实现。
基于规则的歧义消解。
基于统计的歧义消解:在词图上寻找统计意义上的最佳路径。

2.7 未登录词识别

未登录词识别困难,没有明确边界,许多构成单元本身可以独立成词。
每一类未登录词都要构造专门的识别算法。
识别依据:内部构成规律和外部环境。
对于中国人名地名识别叫成熟,对于商标字号机构名识别困难,对于专业术语和缩略语以及新词语识别很困难。

猜你喜欢

转载自blog.csdn.net/tianyouououou/article/details/95360448