2 现代汉语词语切分研究

汉语自动切分：把字串自动转换为词串。
英语中的切分更容易。

2.1 为什么要进行汉语切分

TTS或语音合成中，只有正确切词才能知道正确的发音，只有正确的切词，才能正确变音，只有正确切词，才能解决轻声问题。
信息检索中，切分有助于提高信息检索的准确率。
词语的计量分析中，可以进行词频统计。
等等等等…
汉语切词也是深层汉语分析的基础。

最大匹配法：正向最大匹配法（从左向右匹配词典）和逆向最大匹配法（从右向左匹配词典）。
算法非常简单，长词优先。

准确率：正确分词数/所有分词数*100%
召回率:
F-评价：综合准确率和召回率的评价指标。

切分歧义（消解）：一个字串有不止一种切分结果。（交集型歧义）（组合型歧义）（混合型歧义）
未登录词识别：专有名词，新词。
真歧义：在不同的语境中确实有多重切分形式。
伪歧义：看起来有歧义，但是在所有真实语境中仅有一种切分形式可接受。
事实上，真实文本中伪歧义现象远远多于真歧义现象。

歧义的发现：歧义消解的前提是发现歧义，检测到歧义切分现象。
MM和RMM均没有检测歧义的能力，只能给出一种切分结果。
最短路径法：选择次数最少的切分结果，没有歧义检测能力。

双向最大匹配：（MM+RMM）：同时采用MM法和RMM法，若给出同样的结果，则认为没有歧义，反之，认为发生了歧义。但是双向最大匹配法不能发现所有的歧义。
MM+逆向最小匹配法。
全切分算法：依据词表给出输入文本的所有可能的切分结果。

基于记忆的歧义消解：鉴于伪歧义的消解与上下文无关，可以将正确的切分形式记录在一张表中，其歧义消解通过直接查表即可实现。
基于规则的歧义消解。
基于统计的歧义消解：在词图上寻找统计意义上的最佳路径。

未登录词识别困难，没有明确边界，许多构成单元本身可以独立成词。
每一类未登录词都要构造专门的识别算法。
识别依据：内部构成规律和外部环境。
对于中国人名地名识别叫成熟，对于商标字号机构名识别困难，对于专业术语和缩略语以及新词语识别很困难。