王昊奋知识融合课程笔记

什么是知识融合

目标:融合各层面的知识
合并两个知识图谱(本体),需要确认的是:

  1. 等价实例
  2. 等价类或子类
  3. 等价属性或子属性

实体对齐是知识图谱融合的主要工作

例子:唐三藏(维基百科),玄奘(维基百科),金蝉子(百度百科),这三个实体是一样的

跨语言知识融合

知识在线融合

Google knowledge vault

基本问题:研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。

技术挑战:

  • 数据质量
  • 数据规模

竞赛:OAEI(Ontology Alignment Evaluation Initiative)每年一次

技术

本体对齐,实体匹配

步骤:数据预处理,分块,记录链接,结果评估,结果输出

数据预处理:

  • 语法正规:如联系电话的表示方法,家庭地址的表达方式
  • 数据正规化:如移除空格等,输入错误类,用正式名字替换昵称和缩写等

属性相似度 -> 实体相似度:

  • 聚合:加权平均、手动制定规则、分类器进行监督学习
  • 聚类:层次聚类,相关性聚类、Canopy+K-means
  • 知识表示学习:知识嵌入TransE模型

评估:

  • 准确率、召回率、F1值
  • 运行时间

工具

本体匹配:Falcon-AO
实体匹配:Dedupe,Limes,Silk

案例

zhishi.me
OpenKG中的链接百科

实战

Limes

发布了135 篇原创文章 · 获赞 7 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/math_computer/article/details/104265148