计算机语言学笔记(八)基于上下文无关文法的句法分析

8 基于上下文无关文法的句法分析

句法分析导引
以词为单位的分析技术:词语切分、形态分析、词类标注。
以句为单位的分析技术:句法分析。
以篇为单位的分析技术:指代分析。
句法分析关心句子的组成规律。
句子成分分析
句子是词的线性序列,但词和词之间结合的松紧程度并不一样。
句子在构造上具有层次性,较小的成分还可以进一步组成较大的成分。
不同性质的成分可以有不同的句法功能和分布,可以区分成不同的类型。
短语
英语中的短语:名词性短语(NP),动词性短语(VP),介词短语(PP),形容词性短语。
汉语中的短语:名词性短语(np),动词小短语(vp),形容词性短语(ap),处所词性短语(sp),时间词性短语(tp),数量短语(mp),介词短语(pp)。
句法知识的形式化
上下文无关文法(CFG)是最常用的句法知识形式化工具。
为了便于计算机处理自然语言,计算语言学研究人员提出了许多形式语法系统(grammar formalism),例如:功能合一语法(FUG)、词汇功能语法(LFG)、中心词驱动的短语结构语法(HPSG)等。在这些语法形式化系统中,上下文无关文法是一个核心组成部分。
许多句法分析算法都建立在上下文无关文法的基础上。
上下文无关文法
作为生成装置生成语言中的句子。
作为识别装置判断句子是否合法。
作为分析装置产生给定句子的句法结构。
句法分析
句法分析的任务是对给定自然语言句子,分析并得到其句法结构。
句法结构通常表示为句法树。
人工语言的句法分析
人工语言的特点是无二义性。
存在快速有效的语法分析方法:LL分析法,LR分析法。
自然语言的句法分析
歧义:是指同一个句子,按照指定的文法,会产生多种分析结果。
由于句法歧义,成熟的用于分析人工语言的句法分析算法不能直接用于自然语言的句法分析。
对于存在歧义的句子,通常在具体的上下文环境中,只有一种分析结果是正确的,句法排歧指的是根据各种知识,选择正确分析结果的过程。
基于上下文无关文法的句法分析器应能产生一个句子所有可能的句法分析树。
句法分析算法
自顶向下利用规则推导。
自底向上逆向利用规则进行规约。
非确定性:回溯或并行。
可以融合自顶向下和自底向上的方法,以一种方法为主要方法,另一种方法为辅助。

Earley算法:自顶向下的分析算法,时间复杂度为N3。
一个状态包含:规则,圆点和起始位置。
圆点被用在状态语法规则的右侧,它告诉我们语法识别工作执行的进展情况,圆点左边的部分是已分析的,右边是待分析的。
基本操作包括:预测(点右侧非终结符),扫描(右侧终结符)和完成(右侧标记状态)。

标准LR算法:自底向上分析算法。只有LR文法所定义的语言可以使用LR分析算法进行分析。LR分析算法,完全消除了回溯,可以以确定性的方式进行分析。

广义LR分析法:标准LR文法不能有二义性,因此标准LR分析算法不能用来分析自然语言。
对于描述自然语言的上下文无关文法可以使用同样的方法构造LR分析表,但构造出的分析表不是确定性的分析表。也就是说,动作表的一个单元格内可能包含多个分析动作,或者说分析表具有多重入口。当分析表的单元格中出现多个动作时,标准LR分析器不知道应该执行哪个分析动作。

对于LR分析表中的多重入口,由于相应的分析动作是多重的,分析动作应同时沿着多条分析路径进行。富田胜为此引入了图结构栈技术。在分析过程中,每当分析进程遇到有多个动作同时可以进行,分析进程就分裂成相应的几个子进程。栈顶亦分裂为多个栈顶,分别依据分析表中规定的不同动作进行分析。如果两个进程处理同一状态,则栈顶合并为一个栈顶,两个进程则合并为一个进程,这样就形成一种图结构的分析栈。
子树共享
如果两棵或两棵以上的树具有共同的子树,那么这棵子树就只应该表示一次。
为了构造共享子树,分析过程不再把语法符号入栈,而是将指向共享子树的指针入栈。
当分析器移进一个词时,就用该词和相应的终结符创立叶子结点,如果恰好同一结点已经存在,那么
就将已存在结点的指针入栈,而不是另外创立一个结点。当分析器归约时,从栈中弹出指针,创建一
个新结点。
局部歧义:如果两棵或两棵以上子树的所有叶结点都相同,并且所有子树的根结点被标有同一非终结符
号,也就是说句子的某一部分能用两种或两种以上方式归约为同一非终结符,这时称句子中出现了局部歧义。
如果句子中有许多局部歧义,总的歧义数将会指数增长。为避免这种增长,可采用了局部歧义压缩技
术。这种技术是把有局部歧义的子树的顶点结合为一体。
在图结构栈中,如果两个或多个符号顶点左边具有一个共同的状态顶点,并且右边有一个共同的状态
顶点,则表示这几个符号顶点具有局部歧义。
压缩共享森林:采用了子树共享技术和局部歧义压缩技术后,得到的分析结果被称为压缩共享森林。

猜你喜欢

转载自blog.csdn.net/tianyouououou/article/details/95879617