KG | 知识抽取与挖掘

1 知识抽取任务定义和相关比赛

这章主要以数据来源的形式,结构化、半结构化、非结构化 的 知识抽取

这里写图片描述

这里写图片描述

关键技术与难点

  • 从结构化数据库中获取数据:D2R —-复杂表结构处理
  • 从链接数据中获取知识:图映射 —数据对齐
  • 从半结构化(网站)数据中获取知识: 使用包装器 —方便的包装器生成,包装器自动生成、更新和维护
  • 从文本中获取知识:知识抽取 –结果的准确率与覆盖率

什么是知识抽取

自动化的从文本中发现和抽取相关信息
从多个文本碎片中合并信息
通常应用在特定的领域
将非结构化转化为结构化数据(Schemas Relations Knowledge base RDF triples)

子任务

  • 命名实体识别:检测 分类
  • 术语抽取:从语料中发现多个单词组成的相关术语
  • 关系抽取:
  • 事件抽取:事件抽取就是多元关系抽取
  • 共指消解:
    这里写图片描述

相关竞赛与数据集

  • MUC
  • ACE
  • KBP(TAC Knowledge Base Population)

这里写图片描述

2 面向非结构化数据的知识抽取

3 面对半结构化数据的知识抽取

4 实践展示:基于百科数据的知识抽取

猜你喜欢

转载自blog.csdn.net/JH_Zhai/article/details/81986529
KG