统计自然语言处理书籍阅读心得五

图与树此处就不介绍了,相信学过数据结构的都对这块有一定的了解了,例如什么是无向图,有向图,连通图等。
形式语言:
1.一般地,描述一种语言可以有三种途径:
(1)穷举法:把语言中的所有句子都枚举出来。显然,这种方法 只适合句子数目有限的语言。
(2)文法(产生式系统)描述:语言中的每个句子用严格定义的 规则来构造,利用规则生成语言中合法的句子。
(3)自动机法:通过对输入的句子进行合法性检验,区别哪些是 语言中的句子,哪些不是语言中的句子。
文法用来精确地描述语言和其结构,自动机则是用来机械地刻画对 输入字符串的识别过程。用文法来定义语言的优点是:由文法给予语言 中的句子以结构,各成分之间的结构关系清楚、明了。但是,如果要直 接用这些规则来确定一个字符串是否属于这套规则所定义的语言似乎并 不十分明确。而由自动机来识别一个字符串是否属于该语言则相对简 单,但自动机很难描述语言的结构。所以自然语言处理中的识别和分析 算法,大多兼取两者之长。
实际上穷举法就是都列出来,文法描述就是按照一定的格式生成句子,自动机法可以理解为对一堆句子进行校验,符合条件的才属于某个语言。

2.形式语法的定义:
形式语言是用来精确地描述语言(包括人工语言和自然语言)及其 结构的手段。形式语言学也称代数语言学。

定是语法的定义为:形式语法是一个四元组G=(N,Σ,P, S),其中,N是非终结符(non-terminal symbol)的有限集合(有时也 称变量集或句法种类集);Σ是终结符号(terminal symbol)的有限集 合,N∩Σ=∅;V=N∪Σ称为总词汇表(vocabulary);P是一组重写规 则的有限集合:P={α→β},其中,α,β是由V中元素构成的串,但是, α中至少应含有一个非终结符号;S∈N称为句子符或初始符。
3句子的定义:

文法G=(N,Σ,P,S)的句子形式(句型) 通过如下递归方式定义: (1)S是一个句子形式; (2)如果γβα是一个句子形式,且β→δ是P中的产生式,那么,γδα 也是一个句子形式。对于文法G,不含非终结符的句子形式称为G生成的句子。由文法G 生成的语言(或称G识别的语言)是指G生成的所有句子的集合。
4形式语法的类型:
在乔姆斯基的语法理论中,文法被划分为4种类型:3型文法、2型 文法、1型文法和0型文法,分别称为正则文法、上下文无关文法、上下 文相关文法和无约束文法。

正则文法定义:如果文法G的规则集P中所有规则均满足如 下形式:A→Bx,或A→x,其中,A,B∈N, x∈Σ,则称该文法G为正 则文法,或称3型文法。由于规则右部的非终结符号(如果有的话)出 现在最左边,所以,这种形式的正则文法又叫左线性正则文法。类似 地,如果一正则文法所有含非终结符号的规则形式为A→xB,则该文法 称为右线性正则文法。

上下文无关文法定义:如果文法G的规则集P中所有规则均 满足如下形式:A→α,其中,A∈N,α∈(N∪Σ)*,则称文法G为上 下文无关文法(context-free grammar, CFG),或称2型文法。

上下文有关文法定义:如果文法G的规则集P中所有规则满 足如下形式:αAβ→αγβ,其中,A∈N,α,β,γ∈(N∪Σ)*,且γ至少 包含一个字符,则称文法G为上下文有关文法(context-sensitive grammar, CSG),或称1型文法。从上述定义可以看出,字符串αAβ中的A被改写成γ时需要有上文语 境α和下文语境β,这体现了上下文相关的含义。当然,α和β可以为空字 符ε,如果α和β同时为空时,1型文法变成了2型文法

猜你喜欢

转载自blog.csdn.net/Mr_wuliboy/article/details/79911997