[笔记] 中文分词

汉语分词的难点

汉语分词是自然语言处理中一个重要的基础研究任务，其主要难点包括分词规范、歧义切分、未登录词识别等。

分词规范：词这个概念一直是汉语语言学界纠缠不清又挥之不去的问题，也就是说，对于词的抽象定义(词是什么)和词的具体界定(什么是词)迄今拿不出一个公认的、具有权威性的词表来。

歧义切分：切分歧义是汉语分词研究中一个大问题，因为歧义字段在汉语文本中大量存在。处理这类问题可能需要进行复杂的上下文语义分析，甚至韵律分析(语气、重音、停顿等)。

未登录词识别：未登录词又叫生词，一般有二种解释：第一种指的是已有的词表中没有收录的词；第二种指的是已有的训练语料中未曾出现过的词。在第二种解释下，又称之为集外词(out of vocabulary，OOV)。

最大匹配算法正向、逆向及代码实现
算法思想：

正向最大匹配算法：从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词。但这里有一个问题：要做到最大匹配，并不是第一次匹配到就可以切分的。我们来举个例子：

待分词文本： sentence[]={“计”，“算”，“语”，“言”，“学”，“课”，“程”，“有”，“意”，“思”}

词表： dict[]={“计算”, “计算语言学”, “课程”, “有”, “意思”} （真实的词表中会有成千上万个已经平时我们使用的分好的词语）

(1) 从sentence[1]开始，当扫描到sentence[2]的时候，发现"计算"已经在词表dict[]中了。但还不能切分出来，因为我们不知道后面的词语能不能组成更长的词(最大匹配)。

(2) 继续扫描content[3]，发现"计算语"并不是dict[]中的词。但是我们还不能确定是否前面找到的"计算语"已经是最大的词了。因为"计算语"是dict[2]的前缀。

(3) 扫描content[4]，发现"计算语言"并不是dict[]中的词。但是是dict[2]的前缀。继续扫描：

(3) 扫描content[5]，发现"计算语言学"是dict[]中的词。继续扫描下去：

(4) 当扫描content[6]的时候，发现"计算语言学课"并不是词表中的词，也不是词的前缀。因此可以切分出前面最大的词——“计算语言学”。

由此可见，最大匹配出的词必须保证下一个扫描不是词表中的词或词的前缀才可以结束。