从限定词开始 - 词性识别在人工智能自然语言处理中的不足与改进

词性识别在人工智能的自然语言处理领域具有极其重要的意义,可以说是更深层次分析和处理的主要基础。

* 自然语言处理:指的是在计算机和人工智能领域中,利用电脑或人工智能神经网络来对人类语言进行理解、分析和其他进一步处理的一门科学。

一般来说,对于一篇文章、一段文字,人工智能系统对它进行分析的过程从分句、分词开始,之后就是词性分析了,这一步在英文中称作Part of Speech(简称POS),然后才能进一步做专有名词或短语分析(NER)、句子成分分析、分句从句分析、情感分析、主旨提取、关键词提取等更高级的分析处理。可想而知,如果词性分析的结果不准确,对于后面的各个步骤都会造成极大的困难。

目前主流的自然语言处理框架或系统,大都还存在着一些不足,以至于在词性分析这么基础的步骤上还不能做到很准确,并且可能是为了尽量贴近于人类对语言的一般理解,因此还存在一些理论上的硬伤,对于电脑或者神经网络来处理还存在不妥之处,我们下面将看看其中的一些问题。另外,我们也要看到,自然语言处理作为一门已经发展了很久的计算机科学,加上最近这些年来的人工智能大潮的推动,还是取得了很大的进展的,在一些方面上,比我们日常语言教学中的理论体系还是做出了一些有益的改进的,我们也将做一些讨论。

由于在语言分析中,英语适用范围较广,在自然语言处理中比较典型,相对也比较容易一些,因此我们在这里举例也将以英语为主。本文就从比较有特色的“限定词”来说起。

关于限定词(determiner)

在我国的英语教育体系中,“限定词”这个概念提的很少,而是经常与形容词的概念相混淆,而实际上这个限定词的词性划分非常重要,与形容词存在明显的不同,对于人工智能的语义分析也有很大的指导意义。

简单地理解,限定词是指给它所修饰的名词指定一个“范围”的词,这与形容词是给出名词的一些特性、特点、特征有本质上的不同,例如: red apples 指的是这些苹果的颜色是红的,红色是苹果自身的特征属性,因此 red 是形容词;而 many apples 中的 many,是指“很多”而不是一个苹果,“很多”这个概念与苹果本身无关,仅是表示它们的数量,因此 many 应该是限定词。

将限定词和形容词区分开来,在人工智能分析句法和语义时有着相当重要的意义,例如,many red apples中,是“限定词+形容词+名词”的结构,限定词一般是需要放在形容词之前的,而如果是两个形容词很多情况下是可以调换顺序的,限定词+形容词就不行,这对人工智能做一些语法和语义推断时具有指导意义。

但是我们在大多数可以接触到的词典中(包括一些主流的在线词典)中,查询 many 这个词给出来的主要还是形容词(adj.)。在大多数教材中,尤其是中小学教材中也仍然依循形容词的说法。

而某些在人工智能领域已经做了一些研究和实践的IT公司,则有所改进,例如下图中

已经给出了det.也就是限定词这个词性。限定词在自然语言处理领域一般记作“DT”或“DET”。(determiner的简写)。

指示代词与限定词

还有一些其他的典型例子,如“this”、“that”这一类在我们教育体系中称之为“指示代词”,如下图所示:

而实际上,代词(Pronoun)的概念所起的作用应该是代替名词的,也就是说是名词性的,而this这种词有时候确实是起修饰作用而非指代作用的。例如:

This is an apple.

这里的this是代替后面的apple作主语,因此应该是代词,而:

This apple is red.

这里的this显然是限定词,用来限定本句话中所说的苹果的范围(是“这个”苹果,而不是“那个”或其他苹果)。

有些说法说this这时候是形容词,如上面的截图所示,但我们之前已经说过,形容词是表示名词的一些属性、特定的该物体自有的特征,限定词才是限定名词的范围、数量等非物体自身属性的东西。

而一些人工智能引擎将第一句中的This认为是限定词,这也是不合理的,例如谷歌(Google)公司的自然语言分析引擎是这样分析的:

它把this认为是限定词(用DET来代表),而如下图所示,对于This apple is red. 这句话,它也认为this是限定词。

这种划分方法也不能说是错误,因为解决问题的方法可以不止一种。但是,限定词属于修饰名词的词,代词则是代替名词也就是名词性质的词,这两个性质在人工智能分析句子时显然处理会有所不同,因此如果像谷歌的引擎这样,把this在这两种情况下都认成限定词,会对后续的处理造成不可避免的困扰。第二句中的this是应该作为主语来看待处理的,限定词从其词义上来想,按理说是不应该做名词性的句子成分的(主语属于名词性成分,Noun Phrase)。

冠词与限定词

在我们常见的语法体系中,冠词包括不定冠词(a、an)和定冠词(the),这在自然语言处理体系中,也是划归到限定词范畴的,因为a或an是表示“一个”后面的名词,the则是表示“指定的”(即说话双方或者作者与读者之间由于上下文都知道的某个东西)后面的名词,其实都是限定范围而不是修饰物体本身,所以也都是限定词。冠词实际上可以算作限定词中的一个细分子类。

物主代词与限定词

在我们的语法体系中,物主代词也是定义的比较混乱的一类词,国内往往把my、her、your这一类词和mine、hers、yours都称做物主代词。但显然这两类词从本质上不同,前一类词是修饰性的,后面一定有名词,而后一类词则本身就是名词性的,确实是代词,称作物主代词是合理的。我们的解释也能自圆其说,说前一类词是“形容词性的物主代词”,后一类词是“名词性的物主代词”,但这种分法显然有些硬凑的感觉,在计算机处理时也会造成混乱。

实际在自然语言处理中,由于前一类词(my、her、your等)也具备限定词的定义,是指定名词范围的,因此也可以说成是限定词,但一般把它再分配一个细分的词性,就叫做代词所有格(记作PRP$),这样也算一个方法,起码比记作名词性的代词要好。

数量词与限定词

与前面相似,数词和量词也具有限定的作用,例如:

ten apples 限定了苹果的数量是10个

a lot of apples 指定了很多的苹果

some apples 则指定是“一些”苹果

所以数词是限定词中的一种,自然语言处理中一般记作“CD”(即cardinal number,基数词),量词也在英语中地位不是很突出,可以直接算入限定词这一大类中。

The second apple is green.

这一句中,second是序数词,也属于限定词。

再细说数词的话,实际上也分形容词性的数词和名词性的数词,例如ten apples中的ten是形容词性的,也就是我们所说的限定词,而如果说考试得分的时候,I got a ten. 这里的ten又是名词性的了,表示所得的分数。这里我们一般可以把前一个ten记作CDJ,表示形容词性的数词(也是限定词中的一种),后一个ten记作“CDN”,表示是名词性的数词。

疑问限定词

还有就是在疑问句中或引导从句用的一些限定词,例如:

Whose apple is red?

这里的whose就是疑问限定词,表示问的是“谁的”苹果,表示范围限定而非苹果本身的特征。疑问限定词一般记作“WDT”,其中的“W”以疑问引导词常见的开头的字母“W”而来。再如:

Which apple is yours?

这里的which也是疑问限定词。

前位、中位、后位限定词

限定词如果要细分的话,还可以分做前位、中位和后位限定词,它们的区别主要是在同时出现时的顺序排列上。例如下面这个短语:

all the two red apples

其中,all是前位限定词,the是中位限定词(也是冠词),two是数词,也是后位限定词,这几种词的顺序是不可以变的,例如不能说 the two all red apples。

另外,当然,red这个形容词更不能放在限定词前面,无论是前位、中位还是后位。

最后,要让计算机理解人类的语言,需要从最基础的地方开始把语言中的各个要素明确化、数字化、量化,需要把我们常常理解得模模糊糊的概念清晰化,分清理浊,才能让机器更好地理解与处理,后续我们还将逐步阐述其中的更多知识。

猜你喜欢

转载自blog.csdn.net/weixin_41462458/article/details/107854591
今日推荐