知识图谱-基于规则-知识抽取简介

摘自徐阿衡,加入一些理解和注释

介绍

知识抽取涉及的“知识”通常是 清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等,从链接数据中获取知识用图映射,难点在于数据对齐,从半结构化数据中获取知识用包装器,难点在于 wrapper 的自动生成、更新和维护,这一篇主要讲从文本中获取知识,也就是我们广义上说的信息抽取。

在这里插入图片描述信息抽取三个最重要/最受关注的子任务:

实体抽取
也就是命名实体识别,包括实体的检测(find)和分类(classify)
关系抽取
通常我们说的三元组(triple) 抽取,一个谓词(predicate)带 2 个形参(argument),如 Founding-location(IBM,New York)
事件抽取
相当于一种多元关系的抽取(不做介绍)

一、实体抽取 / 命名实体识别(NER)

实体抽取或者说命名实体识别(NER)在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify,找到命名实体,并进行分类。

ex:
在这里插入图片描述主要应用:

命名实体作为索引和超链接
情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类
关系抽取(Relation Extraction)的准备步骤
QA 系统,大多数答案都是命名实体

传统机器学习方法

标准流程:
Training:

1.收集代表性的训练文档
2.为每个 token(分词后的短语,个人理解) 标记命名实体(不属于任何实体就标 Others O)
3.设计适合该文本和类别的特征提取方法
4.训练一个 序列分类器( sequence classifier) 来预测数据的 label(类别,人物,地点等)

Testing:

扫描二维码关注公众号,回复: 10243998 查看本文章

1.收集测试文档
2.运行 序列分类器 给每个 token 做标记
3.输出命名实体(NE)

gfsg
特征选择(Features for sequence labeling)
来看一个比较重要的 特征(feature)
Word substrings(子串)
Word substrings (包括前后缀)的作用是很大的,以下面的例子为例,NE(命名实体) 中间有 ‘oxa’ 的十有八九是 drug,NE 中间有 ‘:’ 的则大多都是 movie,而以 field 结尾的 NE 往往是 place。

实体链接,消歧
实体识别完成之后还需要进行归一化,比如万达集团、大连万达集团、万达集团有限公司这些实体其实是可以融合的。
在这里插入图片描述主要步骤如下:

1.实体识别
命名实体识别,词典匹配

2.候选实体生成
表层名字扩展,搜索引擎,查询实体引用表

3.候选实体消歧
图方法,概率生成模型,主题模型,深度学习

关系抽取

关系抽取 需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类:

基于模板的方法(hand-written patterns) (也称作基于规则)

  • 基于触发词/字符串(模式)
  • 基于依存句法(以动词为起点构建规则,对节点上的词性和边上的依存关系进行限定)
    在这里插入图片描述在这里插入图片描述小结
    手写规则的 优点 是:
  • 人工规则有高准确率(high-precision)
  • 可以为特定领域定制(tailor)
  • 在小规模数据集上容易实现,构建简单

缺点:

  • 低召回率(low-recall)
  • 特定领域的模板需要专家构建,要考虑周全所有可能的 pattern 很难,也很费时间精力
  • 需要为每条关系来定义 pattern
  • 难以维护
  • 可移植性差

机器学习方法在本文不作详述

监督学习(supervised machine learning)

  • 机器学习
  • 深度学习(Pipeline vs Joint Model)

监督学习-小结
如果测试集和训练集很相似,那么监督学习的准确率会很高,然而,它对不同 genre 的泛化能力有限,模型比较脆弱,也很难扩展新的关系;另一方面,获取这么大的训练集代价也是昂贵的。

半监督/无监督学习(semi-supervised and unsupervised)

  • Bootstrapping
  • Distant supervision
  • Unsupervised learning from the web
发布了8 篇原创文章 · 获赞 14 · 访问量 472

猜你喜欢

转载自blog.csdn.net/qq_39304851/article/details/103859772