知识图谱 概念与技术 第四章

知识图谱 概念与技术

肖仰华等编著 中国工信出版集团 电子工业出版社

 

第四章 关系抽取

概述

基于学习的抽取

基于模式的抽取

开放关系抽取

 

 

概述

关系抽取-> 关系实例->知识图谱的边

①人工 --> 代价大,人工仅对关系进行少量的增补和修改

②关系数据库中转换规则获取关系实例(人工定义规则相应映射规则完成自动转换)--》结构化数据规模有限,无法获取更广泛存在的结构化数据

应用: 关系抽取 上游应用 构建知识图谱,下游应用:文本理解、问答系统、聊天机器人等。

 

关系抽取方法分类:

  • 关系实例抽取:给定关系获取关系实例(主体与客体对)
  • 给定尸体堆获取相应关系:按照关系是否负和预定义的规范化描述
    • 关系分类:根据实体对的文本描述,将实体对的关系进行归类(需预定义关系类型 + 未知类)(穷举语料中提及的所有可能实体对)
    • 开放关系抽取/开放信息抽取:openIE,侧重从文本中抽取出关系的文本描述,知道的关系可以是未定义的,也可以进一步映射到已定义的关系。
  • 实际应用衍生出一些相关任务: 给定实体列表,获取实体的适用谓词(属性/关系) 例如: 对于一本书,配偶关系就不适用; 对于健在任务,逝世日期就是一个不适用的属性。 谓词列表可以通过从其所属类别继承而来,也可以从同类实体借鉴得到。  然后根据主体和谓词 从语料中抽取客体或相应取值

方法

  • 基于模式或规则的抽取方法
  • 基于序列标注的监督学习方法:给定一段文本,输出文本中每个词是否是某个关系对应的实体的标注结果
  • 基于文本分类的监督学习方法:将关系视为一个类别,输入包含实体对的句子,输出实体对的关系标签

 

数据集:

英文关系分类数据集:

  •  ACE2005(新闻和电子邮件相关599个文档和7个类型关系,每个关系700个实例)
  • semEVal2010 Task8,1万多句子
  • 远程监督 自动构造关系抽取数据集:NYT KBP

评估方法:

  • 精确率、准确率、召回、F值

 

具体方法介绍

1. 基于模式的抽取

  • 基于字符模式的抽取:正则
  • 基于语法模式的抽取: 字符+词性标签 

·

        NP、ADJP、VV分别表示名词短语、形容词短语以及动词

  • 基于语义模式的抽取: 引入知识图谱概念, 例如`国家-总统` 模式:$政治家 当选 $ 国家 总统   缺点:需要完善的知识图谱,代价仍然较大--》自动学习得到这类语义模式
  • 自动化模式抽取:自举法   根据种子实体对,找到实体对在文本中的句子集合,基于这些句子提取表达关系的模式,再抽实体对

        质量评估: 实例与模式的匹配程度, 模式本身的置信度。 

        实例与模板的匹配程度:(模糊匹配):Jaccard相似度、编辑距离、加权匹配

        模式本身置信度:实际抽取中的表现评估,抽取中的准确率

2. 基于学习的抽取

有监督、无监督、远程监督

监督学习和远程监督学习都可以用分类模型或序列标注模型。 序列标注模型更适用于实体识别与关系抽取的联合任务。

  • 基于监督学习的关系抽取

eg 关系分类, 基于核函数方法、基于LR方法、基于句法解析增强方法、基于条件随机场的方法; 特征抽取+分类器

关系抽取模型常用特征:

  • 词汇特征:两实体之间词袋信息、词性信息、实体对在句子中出现顺序、实体为中心开设的大小为k的窗口包含的词袋及词性标注信息
  • 句法特征:经句法解析所得的实体对之间的最短依赖路径
  • 语义特征:实体类型,关系两边的类型通常被作为候选实体对的匹配约束\
  • 基于弱监督学习的关系抽取
  • 远程监督学习:快速构建训练集的弱监督学习方法。将文本语料库和知识库对齐,从而获得给定关系的有噪标注样本

给定三元组<s, r, o>, 则任何包含实体对(s,o)的句子都在某种程度上描绘了该实体对之间的关系,可以将包含实体对的句子作为正例。

步骤:

  • 从知识库中为目标关系识别尽可能多的实体对
  • 对每个实体对,利用实体链接从大规模文本中抽取提及该实体对的句子集和,并为每个句子标注相应的关系
  • 句子集合和关系标签构成了训练集

去噪:对标注数据甄别和筛选。 深度学习模型框架下,常用注意力机制对标注样本进行选择。还可以通过额外的模型对样本进行质量评估;强化学习训练一个策略选择器去选择高质量样本

  • 基于深度学习的关系抽取

    RNN

    CNN

    基于注意力机制的关系抽取:为实体对的每个句子赋予一个权重,权重越大表明该句子表达目标关系的程度越高,反之则越可能是噪声。

3. 开放关系抽取 OpenIE

输入为自然语言语料,输出是由文本表示的关系主体、关系短语与关系客体的三元组。 关系不限于预定义的关系类型

OpenIE特点:①自动规划 ②语料异质性 ③效率

华盛顿大学图灵中心 OpenIE研究成果:TextRunner、ReVerb、Ollie等

  • TextRunner

自监督学习框架,三个模块:自动化语料标注与分类器学习、文本抽取、三元组平得分

  • 自动化语料标注: 数据集抽取一小部分句子作为启动数据,用依存路径分析得到可能实体的名词短语,通过依存句法树路径找到潜在的关系短语,从而找到可能的三元组。最终根据启发式规则(eg,单纯的代词不能作为实体,实体间的依存路径不能跨子句)将这些三元组标记为正例或负例。

最后根据这些自动标注样本,词性标注及名词短语划分等浅层特征,训练一个朴素贝叶斯分类器

  • 文本抽取:基于较轻量化的语法分析手段,识别出文本中关系主体和关系客体所对应的名词短语,将文本中出现在两个名词短语之间的其他短语作为可能的候选关系。随后使用再上一个模块中训练得到的分类器对三元组初筛,得到候选三元组
  • 三元组评分:合并语义相同的三元组,统计频次,根据频次打分

TextRunner 难以抽出完整的关系描述; 抽取的三元组由错误不连贯

  • ReVerb

引入基于词性的句法约束,对上述两类问题中出现的低质量关系短语进行过滤

缺点:难以处理不包含动词的关系短语

  • Ollie

基于依存解析路径的自举法学习

利用依存树的信息来定位三元组的前提条件,识别满足前提条件的三元组。基于自举法,使用ReVerb系统得到的高质量种子三元组在语料中进行迭代,找出不含动词的关系模式。

 

利用自举法从语料库中挖掘更多与ReVerb系统的种子模式同义的新模式。抽取过程中,通过使用这些学习出来的模式,对文本进行匹配,并利用上下文及依存树分析筛选。

 

小节

关系抽取,难点:自然语言本身歧义性和模糊性。 基于规则 召回低。 深度学习

  • 文本的语义表示与理解:显式的语法或语义模式, 分布式表示
  • 基于规则和深度学习融合的关系抽取
  • 大规模关系分类:关系类别较多
  • 轻量级解决方案:无监督、弱监督、远程监督
  • 关系抽取的评测问题

 

猜你喜欢

转载自blog.csdn.net/katrina1rani/article/details/108854272