新词发现:中文新词识别技术简介

一、前言

新词识别,也可称为未登录词识别,严格来说,新词是指随时代发展而新出现或旧词新用的词,如:给力、山寨等;而未登录词是在词典中未存在的词,但实际使用中,两者并没有严格的区分,下文均以新词指代。
在之前的博文中提到,中文分词中存在两个问题,未登录词识别和歧义切分,具体在《统计自然语言处理》中提到,中文分词有98%的错误来自未登录词,相比之下未登录词识别比歧义切分更需要关注。

二、概述

1、新词

参照前人的研究,新词主要可以分为以下三类:
(1)时间词和数量词
(2)命名实体
(3)普通新词
时间词和数量词也可以包含在命名实体中,在之前的博文中介绍过相关内容,这里主要介绍普通新词。
普通新词存在许多构词方式,参照《现代汉语新词资讯电子词典》的分类方法,主要分为以下类别:
这里写图片描述
崔【1】通过对大量的语料分析,得到如下新词构词模式:
这里写图片描述
可以看到新词主要由2~4个汉字组成,共11种构词模式,其中“1+1”、“1+1+1”、“1+1+1+1”单语素模式占新词总数的61.4%,“2+1”、“3+1”模式占新词总数的31.2%。

2、新词识别方法

新词识别主要包括以下两项任务:
(1)候选新词的提取
由于中文是由单个语素无间隔的组合形成,理论上来说,任意语素之间都有结合形成一个词或单语素成词的可能,因此词语边界的确定就成为一个问题,当然这也是需要中文分词的原因。
(2)候选新词的过滤
对于候选新词,用什么标准判断这是一个符合条件的词,即是候选字符串必须是“新”的且能称为一个“词”

三、识别技术

1、基于规则的新词识别

基于规则的方法一般通过语言专家根据构词学原理、配合语义信息或词性信息来构造模板,然后匹配新词,这种方法准确率高,针对性强,但规则一般都是领域相关的,而且手工编写和维护规则复杂性相对较高,
目前不常直接使用规则,更多的是作为一个附加模块与其他方法相结合,如在候选词过滤中,作为垃圾串的过滤模块使用。

2、基于统计的新词识别

1)监督方法

监督方法利用标注语料,将新词识别问题看作分类或者序列标注问题,如:
(1)基于候选字符串的的某些统计量,以此作为特征训练二分类模型
(2)基于序列信息进行序列标注直接得到新词,或得到候选词后再进行新词判定
一般常用方法有HMM、CRF、SVM等等。
但是在实际应用中,高质量的标注语料很难得到,手动标记语料费时费力;同时新词就像薛定谔的猫,如果手动标注出来了,直接加到词典中就能满足需求,又何必再建模呢。

2)无监督方法

无监督方法没有大规模标注语料,一般利用候选字符串的统计信息,设定阈值进行判别。
这种情况下的候选字符串都是在无监督的方式下得到的,因为需要进行大量的过滤操作,得到相对纯净的候选新词。
(1)候选字符串抽取
目前比较成熟的方法有n元递增方法,基于后缀数据的重复串抽取等,这块的工作更多的是提高候选字符串的生产效率,与新词发现的准确率关系不大。
(2)过滤规则
对于n元方法抽取的候选字符串,大部分字符串低频重复串和无意义的垃圾串,低频重复串不大可能是新词,常用词也不是新词的目标,同时还有许多停用词组成无意义串,主要的过滤规则有:频数/最长字串频数、停用字、词典等。
(3)统计量的确定
由于是否确定候选字符串是否为新词与统计量的值直接相关,所以统计量的确定相当重要。
常见的内部统计量有互信息(MI)、对称条件概率(SCP)等,外部统计量有邻接熵(BE)、邻接类别(AV)等。
目前来说,基于互信息和邻接熵相结合的信息量或改进信息量效果相对稳定。

四、参考

【1】崔世起,中文新词检测与分析
【2】张海军,中文新词识别技术综述
【3】夭荣朋,基于改进互信息和邻接熵的微博新词发现方法
【4】罗智勇,基于多特征的自适应新词识别
【5】苏其龙,微博新词发现研究
【6】汪龙庆,基于未登录词识别的微博评价短语抽取方法
【7】王帅,双字低频未登录词识别研究

猜你喜欢

转载自blog.csdn.net/sinat_33741547/article/details/81704798