自然语言处理 学习笔记(五)

版权声明:文章禁止转载 https://blog.csdn.net/weixin_43477010/article/details/85251053

个人学习nlp笔记:学习材料CS124、COSC572和《Speech and Language Processing》第三版

在这里插入图片描述

1.矢量语义(Vector Semantics)

分布式假说 distributional hypothesis,若词的分布相似,则词的意思也相似。

1.1词汇语义

有两个重要的概念,词根和词义,词根lemma,也叫citation form,词sung,sang的词根就是sing,而sung这些词也称wordform
在这里插入图片描述
词义sense就更好理解了,比如mouse能表示老鼠和鼠标,这就说明mouse有多个词义
在这里插入图片描述

多个词义也带来了,诸如同义词synonyms的问题
couch/sofa
vomit/throw up
filbert/hazelnut
car/automobile
当然,我们也有反义词Antonyms
long/short
big/little
fast/slow
cold/hot dark/light

同样,我们也有很多相似的词(word similarity),比如cat和dog,显然他们不是同义词,但是他们都很相似,指代着名词和一种动物。我们很多种方法来测量这种相似度,比如很多手工标注的数据库。

同时还有词相关度Word Relatedness,比如词coffee和cup,一个指一种饮料或植物吗,而另一种指一个餐具或者形状,但是毫无疑问,他们在现实世界中会经常在同一个语义场景下出现。诸如hospitals(surgeon, scalpel, nurse, anaesthetic, hospital), restaurants (waiter, menu, plate,food, chef), or houses (door, roof, kitchen, family, bed)。语义场景又和主题模型topic models有联系。

语义框架,比如在交易的场景下,词代表着不同的事件,比如买,是由买家发出。而支付是着重于货币方面的…比如我卖了本书给B,则B就为买家,我为卖家,若机器能理解这些,会在QA系统或翻译上有很大帮助
在这里插入图片描述

分类关系Taxonomic Relations,比如把车归到交通工具,芒果归到水果,给每个详细的词一个上位词。
在这里插入图片描述

此外,词还有很多情感的含义,比如sad和terrible有不同程度的感情色彩
在这里插入图片描述

在这里插入图片描述

1.2 语义的矢量表达

人类可以从一句话中的其他信息获得对不认识的词的信息
在这里插入图片描述

矢量语义的直觉是来自分布式假说和前文的connotation中用向量表达一个词结合
在这里插入图片描述

在这里插入图片描述
矢量语义就算把一个词映射到多维的语义空间中,我们能看见,褒义的和贬义的词是明显分布在不同的地方的。同样我们在矢量化的单词中能执行很多操作,比如计算相似度和语义分析。在前文的语义分析中(贝叶斯),只能在足够多的关键词同时出现在训练和测试集中才行。而在矢量化后,我们可以用相似度高的词替代在训练集中未出现的词。总而言之,是一个很实用的非监督的方法。
在这里插入图片描述

比如前文的tf-idf和word2vec

2. 信息抽取和命名实体抽取

信息抽取的目的主要有,抽取有用的信息,把信息整合为数据框等易处理的形式
在这里插入图片描述
也可以用来抽取重要信息,比如一句话的发生地点和主要人物
在这里插入图片描述
这些信息可以用来做一些应用,比如自动建立日程等等
在这里插入图片描述

命名实体识别,也就是把一些词分为人名,地点,时间,组织等。要先find,才能classify
在这里插入图片描述

在这里插入图片描述

2.1 关系抽取

在这里插入图片描述
抽取文中的关系,能让QA系统更加智能
在这里插入图片描述
抽取的关系
在这里插入图片描述
不同的任务可能由不同的需要抽取的信息。比如在医疗场景:
在这里插入图片描述
原理维基百科上的这个条目是由关系抽取得来的啊
在这里插入图片描述

在这里插入图片描述

2.1.1 手写规则

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
准确率高,召回率低(漏掉的多)
在这里插入图片描述

2.1.2 监督式关系抽取

在这里插入图片描述

第一步,找到命名实体,第二步,判断2个命名实体是否存在关系,如果binary分类器返回存在,开始对关系进行分类。因为有二分类这一步,很多不必要的(显然没关系的)命名实体关系就不用进行分类,同时我们也可以采用两套特征来分别解决问题。
在这里插入图片描述

监督学习索要用到的特征:
命名实体的中心词,以及把两者结合。M1和M2的unigram和bigram词袋模型,M1和M2左边和右边的单词,M1和M2之间的词的unigram和bigram词袋模型
在这里插入图片描述
命名实体的类型,类型组合,实体层面(entity level,名字、名词还是代词)
在这里插入图片描述
语法特征:
在这里插入图片描述
亲属词,地名索引和上级关系,比如海南在中国
在这里插入图片描述
在这里插入图片描述
准确度高,但是泛化能力一般
在这里插入图片描述

2.1.3 非监督式和半监督式关系抽取

使用手头已有的少数数据和准确度高的模式,自动找其他模式
在这里插入图片描述
用找到的pair周围的内容再生成新的模式来找新的pair
在这里插入图片描述
键入已有的seed tuple,找到符合的内容,学习模式,再用学习来的模式去找新的tuple
在这里插入图片描述

在这里插入图片描述
snowball的方法加上了判断是否为命名实体
在这里插入图片描述

一种结合了半监督和非监督的的方法,就是用半监督的方法,把标记的数据(命名实体),放着更大的语料库(google)找到相应语句,抽取其的关系,再训练
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

非监督:使用一个小的有语法信息的数据训练一个分类器,看得到的关系或者tuple是否值得相信。放入大语料中,抽取关系,若这是个值得相信的关系或tuple,保留。最后把得到的关系根据出现频率排序
在这里插入图片描述
评估方式:抽取前1000个新关系,手动评价
在这里插入图片描述

3.问答系统QA

一种更智能的检索或者知识管理方法
在这里插入图片描述

一般问题有两种,第一种factoid question,易回答,商业系统(已使用)
在这里插入图片描述
另一种是复杂的问题,在research system中常见
在这里插入图片描述

常见的方案,第一个是信息检索的方法,直接在网上找答案;第二种是通过对问题解析,并用混合的方法构建回答,比如用部分数据库,再结合信息检索的方法,也是比较modern的方法。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.1 信息检索型问答

3.1.1 答案类型检测

第一步,理解问题问了什么
在这里插入图片描述
?x表示unknown
在这里插入图片描述
以答案类型检测为例子展开:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Jeopardy知识竞赛中的答案类型,然而最频繁的200各类型包含了50%的数据
在这里插入图片描述
答案类型检测的方法有三种
在这里插入图片描述
手写规则,在一些场景很有用
在这里插入图片描述

机器学习方法:
在这里插入图片描述
在这里插入图片描述

3.1.2 构建query

第二步,构成query,决定把什么词传输给信息检索系统

一个关键词选择的算法:
在这里插入图片描述
引号中是非停顿词,则排第一,而名词应排六(ppt应该有误),剩下的动词排七;我们可以输入前4个也可以只输入rank1的作为关键词。
在这里插入图片描述

3.1.3 章节检索

在这里插入图片描述

前两步等同前文的检索系统,不过把文档换成按段落来检索了。
在这里插入图片描述
而章节的重排序需要其他方法,比如按规则或者监督学习
在这里插入图片描述

3.1.4 答案提取

对排序得到的passage按答案类型做提取,但也有问题
在这里插入图片描述
比如人名问题中,存在多个名字,我们需要对其进行再次排序
在这里插入图片描述
在这里插入图片描述
比如IBM的Waston用了50多个变量
在这里插入图片描述

3.2 模型评估

可以对前M个得分高的答案进行对比,若有回答对的,返回 1 r a n k i \frac{1}{rank_{i}} ,则最高得分的candidate若正确就是1,若M个答案都错就是0。
在这里插入图片描述

3.4 使用知识(knowledge)的QA系统

比如whose granddaughter starred in E.T.
分解为谁在et中出演,和她又是谁的孙女

在这里插入图片描述
通过人物时间判断回答准确性
在这里插入图片描述
通过地理知识
在这里插入图片描述

在这里插入图片描述

3.5 更复杂的问题

整合答案
在这里插入图片描述
抽取专业文献的答案
在这里插入图片描述
两种主要的办法:
在这里插入图片描述
主要谈了第二种,根据不同问题
在这里插入图片描述
在这里插入图片描述
比如在回答定义的类型中,设定20个文档,并返回8句话的答案。先将其检索,发现1000余个与Hajj有关的句子,再用一个分类器判断是否这是一个下定义的句子。再将两种(定义语句和非定义语句)句子聚类和重要性排序。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43477010/article/details/85251053