《NLP汉语自然语言处理原理与实践》第三章 词汇与分词技术

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/love_data_scientist/article/details/77944393

中文分词的研究经历了二十多年,基本上可以分为如下三个流派。


1.机械式分词法(基于字典)。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分。基于词典的机械分词法,实现简单、实用性强,但机械分词法的最大的缺点是词典的完备性不能得到保证。


2.基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度还远远不能令人满意。目前这种分词系统还处在实验阶段。


3.基于统计的分词法。其基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此,字与字相邻共现的频率或者概率能够较好地反映它们成为词的可信度。


本章



3.1中文分词法的两种分词标准

汉语分词也可以分两个粒度。粗粒度分词:将词作为语言处理最小的基本单元进行切分。细粒度分词:不仅对词汇进行切分,也对词汇内部的语素进行切分。

        粗粒度切分主要用于自然语言处理的各种应用;而细粒度分词最常用的领域就是搜索引擎。一种常用的方案是,在索引的时候使用细粒度的分词以保证召回,在查询的时候使用粗粒度的分词以保证精度。


3.2歧义、机械分词、语言模型

定义7-1(交集型切分歧义)  汉字符串AJB称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串),则此时汉字串J称作交集串。(梁南元1987)

例如,交集型切分歧义:“结合成”

其中,A=“结”,J=“合”,B=“成”。

一种切分为:(a)结合 | 成 ;另一种切分为:(b)结 | 合成


定义7-3(组合型切分歧义) 汉字串AB称作多义组合型切分歧义,如果满足A、B、AB同时为词。

例如,多义组合型切分歧义:“起身”

定义7-3‘(多义组合型切分歧义) 汉字串AB称作多义组合型切分歧义,如果满足(1)A、B、AB同时为词;(2)文本中至少存在一个上下文语境c,在c的约束下,A、B在语法和语义上都成立。


机械分词系统都是基于最大匹配方法作为最基本的分词算法。该方法由苏联汉俄翻译学者提出,也称为MM(the Maximum Matching Method)方法。使用MM方法切分的精度并不高,很难达到实际应用的要求,随着语料的增大,误差也逐渐变大。




猜你喜欢

转载自blog.csdn.net/love_data_scientist/article/details/77944393
今日推荐