新词发现：中文新词识别技术简介

一、前言

新词识别，也可称为未登录词识别，严格来说，新词是指随时代发展而新出现或旧词新用的词，如：给力、山寨等；而未登录词是在词典中未存在的词，但实际使用中，两者并没有严格的区分，下文均以新词指代。
在之前的博文中提到，中文分词中存在两个问题，未登录词识别和歧义切分，具体在《统计自然语言处理》中提到，中文分词有98%的错误来自未登录词，相比之下未登录词识别比歧义切分更需要关注。

二、概述

1、新词

参照前人的研究，新词主要可以分为以下三类：
（1）时间词和数量词
（2）命名实体
（3）普通新词
时间词和数量词也可以包含在命名实体中，在之前的博文中介绍过相关内容，这里主要介绍普通新词。
普通新词存在许多构词方式，参照《现代汉语新词资讯电子词典》的分类方法，主要分为以下类别：
这里写图片描述
崔【1】通过对大量的语料分析，得到如下新词构词模式：

可以看到新词主要由2~4个汉字组成，共11种构词模式，其中“1+1”、“1+1+1”、“1+1+1+1”单语素模式占新词总数的61.4%，“2+1”、“3+1”模式占新词总数的31.2%。

2、新词识别方法

新词识别主要包括以下两项任务：
（1）候选新词的提取
由于中文是由单个语素无间隔的组合形成，理论上来说，任意语素之间都有结合形成一个词或单语素成词的可能，因此词语边界的确定就成为一个问题，当然这也是需要中文分词的原因。
（2）候选新词的过滤
对于候选新词，用什么标准判断这是一个符合条件的词，即是候选字符串必须是“新”的且能称为一个“词”

三、识别技术

1、基于规则的新词识别

基于规则的方法一般通过语言专家根据构词学原理、配合语义信息或词性信息来构造模板，然后匹配新词，这种方法准确率高，针对性强，但规则一般都是领域相关的，而且手工编写和维护规则复杂性相对较高，
目前不常直接使用规则，更多的是作为一个附加模块与其他方法相结合，如在候选词过滤中，作为垃圾串的过滤模块使用。

2、基于统计的新词识别

1）监督方法

监督方法利用标注语料，将新词识别问题看作分类或者序列标注问题，如：
（1）基于候选字符串的的某些统计量，以此作为特征训练二分类模型
（2）基于序列信息进行序列标注直接得到新词，或得到候选词后再进行新词判定
一般常用方法有HMM、CRF、SVM等等。
但是在实际应用中，高质量的标注语料很难得到，手动标记语料费时费力；同时新词就像薛定谔的猫，如果手动标注出来了，直接加到词典中就能满足需求，又何必再建模呢。

2）无监督方法

无监督方法没有大规模标注语料，一般利用候选字符串的统计信息，设定阈值进行判别。
这种情况下的候选字符串都是在无监督的方式下得到的，因为需要进行大量的过滤操作，得到相对纯净的候选新词。
（1）候选字符串抽取
目前比较成熟的方法有n元递增方法，基于后缀数据的重复串抽取等，这块的工作更多的是提高候选字符串的生产效率，与新词发现的准确率关系不大。
（2）过滤规则
对于n元方法抽取的候选字符串，大部分字符串低频重复串和无意义的垃圾串，低频重复串不大可能是新词，常用词也不是新词的目标，同时还有许多停用词组成无意义串，主要的过滤规则有：频数/最长字串频数、停用字、词典等。
（3）统计量的确定
由于是否确定候选字符串是否为新词与统计量的值直接相关，所以统计量的确定相当重要。
常见的内部统计量有互信息（MI）、对称条件概率（SCP）等，外部统计量有邻接熵（BE）、邻接类别（AV）等。
目前来说，基于互信息和邻接熵相结合的信息量或改进信息量效果相对稳定。

四、参考

【1】崔世起，中文新词检测与分析
【2】张海军，中文新词识别技术综述
【3】夭荣朋，基于改进互信息和邻接熵的微博新词发现方法
【4】罗智勇，基于多特征的自适应新词识别
【5】苏其龙，微博新词发现研究
【6】汪龙庆，基于未登录词识别的微博评价短语抽取方法
【7】王帅，双字低频未登录词识别研究