计算机语言学笔记(九)特征结构与合一运算

9 特征结构与合一运算

上下文无关文法
上下文无关文法为句法知识的形式化提供了一个有效的工具。
同时,对于上下文无关文法,存在像Earley算法、广义LR算法等一系列有效的算法,进行句法分析。
然而,利用上下文无关文法描写自然语言,不但可以生成自然语言中的合法句子,也可以产生大量自然语
言中不合法的句子,存在所谓的过度生成问题。
一致性问题:限定词和名词时间的单复数一致。主语和谓语在人称和数方面保持一致。
动词的次范畴化框架:动词可以根据其所要求的搭配成分形成不同的框架,这种框架被称为动词的次范畴化框架。

可以采用对句法范畴进行分类的方式解决过度生成问题。
句法范畴的数量迅速增加,导致重写规则的数量爆炸性增加。
在上下文无关文法中,只使用了单一的语法范畴标记,无法表示更加细致的语言学特征。
由于没有细致的语言学特征,成分之间是否可以组合缺乏判别依据。
解决的办法是引入更多的语言特征,并允许在成分和成分组合时进行某种测试。

语言中的特征继承
语言中成分和成分组合形成一个更大成分时,如何确定这个组合成分的特征。
语言中的很多结构属于一种向心结构,组成组合成分的不同成分地位并不相同,组合成分的特征往往从其中心组成成分(head)那里继承特征。
特征结构
将上下文无关文法中的简单句法范畴扩展为带若干特征的复杂句法范畴(特征结构)。
应用重写规则时,要首先通过特征结构的检验。
特征结构是有限个“特征-值”对的集合。特征结构形式上可写成如下形式。
特征结构也称复杂特征集(complex features set)或属性值矩阵。
为了描述成分的范畴属性、人称属性以及单复数属性,可以设定特征CAT、NUMBER以及PERSON
1.CAT的值可以是NP、VP、Verb、Noun等。
2.NUMBER的值可以是SG和PL。
3.PERSON的值可以是1、2和3。
在特征结构中,特征的值不仅可以是简单的原子值(不再可分解),也可以是一个特征结构。
例如:可以把NUMBER和PERSON两个特征放在一起,用一个新的特征AGREEMENT来描述。

在一个特征结构中,不同的特征可以共享同样的特征值。这种特征结构被称为重入式特征结构。(注意:不
同的特征取相同的特征值不属于重入式特征结构)在重入式特征结构中,共享特征值用数字索引表示。
合一运算
特征结构F1和F2是相容的,当且仅当若f∈F1且f∈F2。
若F1和F2相容,则合一成功,合一结果为F1和F2中所有特征组成的新的特征结构。若不相容,合一失败结果为空。
合一运算检查参与合一的特征结构是否相容,归并了参与合一运算的特征结构中的特征信息。

单调性(monotonic):如果某个特征结构具有某种特征,在同其他特征结构合一后,合一结果仍然具有某种特征。
顺序无关性(order independent):如果多个特征结构进行合一运算,合一结果与合一运算进行的顺序没有关系。
若将参与合一的特征结构表示为DAG,合一实际上是递归的图匹配算法。
若所有特征都匹配,合一成功
若存在特征不匹配,合一失败
目前提出的合一运算的实现多为破坏性的,合一结束后,无论成功还是失败,参与合一的特征结构遭到破坏。
为了易于实现,在实现时,对特征结构进行扩展。
(扩展略,学习时再看)

猜你喜欢

转载自blog.csdn.net/tianyouououou/article/details/95896547