自然语言处理笔记7-哈工大 关毅

目录

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。

句法分析技术1

基于规则+统计结合的句法分析
判定输入的词序列是否合法,短语结构树,有向无环图。
句子:{主『定语,中心』}{谓语『状,谓{动宾【动,宾语(定语,中心词)】,补语}』}
在这里插入图片描述
状语修饰,核心动作。
在这里插入图片描述
提高语法分析结果,计算机的语法分析里面不明确。
词性层级:两种句法分析的区别因子进入短语结合规则。
句法分析和短语结合分析进入区别。
语法歧义示例。
汉语句法分析,句法分析细语,形式语法体系。
匹配模式方法,“正则文法”。
短语结构文法,信息处理系统。机器翻译运用,留下此路不通的牌子。
科研有风险,不是一帆风顺,需要有挑战精神的人去做
扩充转移网络,状态转移机,树邻接语法

句法分析技术2

基于合一运算的语法,复杂描述集的语法,合一运算实现该方法,依存语法,上下文颗粒度太大,短语限定在词汇上,K+语法,依存文法,形式语法体系模式,正则匹配。
短语结构语法分析很多方法。
扩充转移网络
回顾:Chomsky文法体系
G = N , P , S G=(N,\sum,P,S) 是一个文法,
α > β P \alpha->\beta\in P
0型文法:对 α > β \alpha->\beta 不作任何限制
I型文法: α β |\alpha|\leq|\beta|
II型文法: α N 上下文无关文法,\alpha \in N
III型文法:正则文法。
一个字串的推导是一系列文化规则的应用。
起始符推导到最好。强范式:基于词的语法。
格里巴克:形式语言自动化机。
一种语言 L g L_g 是由某上下文无关文法推导出来的所有终结符号串的集合,其中的每个终结符串,称为合乎文法G,否则,称之为不合乎文法。上下文文法,扩充概率无关文法。
一个随机上下文无关语法,PCFG的三个假设。
1)位置无关2)上下文无关3)祖先无关。
推出非总结串,隐码模型,推出问题。
PCFG的三个基本问题。
一个语句 W = W i W i 1 W i 2 W n W=W_iW_{i-1}W_{i-2}W_n 的P(W|G)也就是产生语句W的概率?
在语句W的句法结构有歧义的情况下,如何快速选择最佳的语法分析(parse)?
如何从语料库中训练G的概率参数使得P(W|G)最大(类比之前的问题,评价,解码,编码问题)
节点间的递推关系,叶节点到根节点的句法树。

向内算法
在这里插入图片描述

句法分析技术3

随机上下文无关文法
任何一个语句都可以视为一种语言模型。
一个句法树中的结点词句法树开始推导,自顶向下,自下向上。
在这里插入图片描述某一部推导,对应于几个规则,开始推导,做出结果。
登上算法,尝试去做,EM算法,优化前进,无指导学习算法,PCFG的优点。
可以对句法分析的歧义,结果进行概率排序。
提高文法的容错能力。
词对结构分析,上下文对结构分析,随机上下文无关文法。
向前算法,节点值增加提前。
α i j ( A ) = P ( W i , W j A ) , i < j \alpha_{ij}(A)=P(W_i,W_j|A),i<j
= B , C , R P ( W i , W j , B , W r + 1 . . W j , C A ) =\sum_{B,C,\in R}P(W_i,W_j,B,W_{r+1}..W_j,C|A)
α i , j = P ( A > W i ) i = j \alpha_{i,j}=P(A->W_i)i=j

句法分析技术4

浅层句法分析,形式合规分析,结构分析就行。
部分分析,组块分析。
例句:
这一切已经引起世界各国的普遍关注。
S-k,r,c,p.
浅层专项研究。
基于HMM的浅层分析技术,ACL会议。他识别的目标是非递归的NLP,浅层句法分析,隐码是五元组,浅层分析状态空间如何定义。输出一对词性标记,一个组块开始。
照着看,任何阶段都可以用任何一个模型,不同的是标记的内容。
级联式有限状态分析句法。
在这里插入图片描述在这里插入图片描述# 句法分析技术5
基于规则的方法,需要大量人力,不好迁移。
总结:
概率上下文无关文法,句法分析是目前语言处理技术瓶颈之一。发现问题比解决问题更重要。
句法分析是必由之路,ACL每年关注,语法分析。
强化学习技术:免疫机制分析合适吗?
句法是形式,语义是内容。
完整合法性,没有公认的内容。
句法的强制性和语义的决定性,句法系统和语义系统是两个不同的系统,它们各自独立而又相互依存,彼此的对应关系十分复杂,统计规则之后讲应用。

猜你喜欢

转载自blog.csdn.net/lvsehaiyang1993/article/details/86410200