知识图谱融合与知识图谱对齐Summary

两个（或多个）知识图谱的融合是怎么实现的呢？所谓融合，可以理解存在以下三种操作：1）实体词在新的上下级位置上进行插入；2）不同图谱中的同义实体词完成合并；3）三元组关系随着实体词位置变化而动态调整.

1. 知识融合的常见问题

数据质量问题：命名模糊，数据输入错误，数据都市，数据格式不一致，缩写问题
数据规模问题：数据量过大，或数据量过小。数据种类多样性。在知识图谱对齐的时候，我们不仅通过实体名匹配，也会使用多种关系，链接，图谱层次。

2. 知识融合（对齐）的常见步骤

数据预处理：1) 语法正规化 2) 数据正规化
记录链接：把实体通过相似度进行连接
相似度计算：分成属性相似度和实体相似度。其中，属性相似度可以通过编辑距离（Levenstein，Wagner and Fisher, edit distance with Afine Gaps）集合相似度（Jaccard, Dice）基于向量的相似度（Cosine，TFIDF）。实体相似度可通过聚合，聚类（Canoy+K-means此法不用指定K，可分为层次聚类，相关性聚类）
分块（blocking）：从所有三元组中找到潜在的匹配并分到一块中，减少运算量。
负载均衡：保证所有的分块中实体书目相当，做Map-reduce。
结果评估

3. 知识图谱对齐的常见方法

3.1 传统的基于概率模型的方法

考虑各个实体的属性，不考虑实体间的关系，通过评估各种相似度来对齐实体，本质上为分类问题。

3.2 机器学习方法

通过属性，比较实体或属性向量，进而判断实体匹配与否
聚类方法
主动学习：通过机器与人的交互学习（类似的有ActiveAtlas系统）

4. 近年来在知识图谱方面的突破

4.1 小规模知识图谱的融合

一般来讲，小规模的知识图谱融合由人工完成为主，多以WordNet为参照做相似度计算求得对齐

First-world-first-sence策略：把未见到的词连接到与其词性相同，同一集合的词上。但是这种方法对于领域图谱并不适用。
VCU：使用相似度计算如果相似度大于阈值，认为相同，可以对齐。这种方法简单有效。但是未考虑到去除噪声，也未使用KG的结构。
TALN：使用BabelNet更多的假如句法，词性，短语等信息
MSeirku：加入了消歧机制。
所有这些方法都离不开简单的相似度排序方法

参考论文：
1. VCU at Semeval-2016 Task 14: Evaluating similarity measures for semantic taxonomy enrichment
2. TALN at SemEval-2016 Task 14: Semantic Taxonomy Enrichment Via Sense-Based Embeddings
3. MSejrKu at SemEval-2016 Task 14: Taxonomy Enrichment by Evidence Ranking

4.2 中等规模的KG Alignment

当知识图谱规模小的时候，多使用词法句法信息，规模变大后可以使用图谱的结构特征信息

Enriching Taxonomies with Functional Domain Knowledge: 使用了图语义特征，图中心度特征。在语义理解上提升许多
Improvement on 1：使用了模糊聚类算法，发现并概念化新的实体，找到实体在图中的位置。

参考论文：
1. Enriching Taxonomies With Functional Domain Knowledge
2. Using Taxonomy Tree to Generalize a Fuzzy Thematic Cluster

4.3 大规模的KG Alignment

本质上是不同的领域的实体对齐，形成与以上的链接。使用了基于知识表示的实体对齐。可以使用上下级的结构特征，和语义特征。

Entity Alignment Between KGs using attribute embedding: 不同于TransE，PTransE等KGE模型关注的是学习实体和路径。本论文关注的是实体属性。可分为三个部分：谓词对齐，知识表示（embedding）和实体对齐。这类对齐要求把两个KG映射到一个向量空间中。使用谓词对齐模块查找相似的谓词。并使用统一命名。相当于使用谓词匹配反推实体对齐
Iterative entity Alignment via joint KE: Background(大多知识图谱对齐依赖的是外部信息如Wikipedia) 本文提出一种基于联合知识图谱嵌入的方法。分为三部分：1）知识表示-TransE，2）联合表示-将多个KG映射到同一空间，使用机器翻译模型Seq2Seq，线性变换函数，参数共享，3）知识对齐迭代。

参考论文：（前三个基于字符相似度，后三个基于知识图嵌入）
1. RDF-AI: an Architecture for RDF Datasets Matching, Fusion and Interlink
2. Limes: a time-efficient approach for large-scale link discovery on the web of data
3. Holistic Entity Matching Across Knowledge Graphs
4. Entity Alignment between Knowledge Graphs Using Attribute Embeddings
5. Iterative Entity Alignment via Joint Knowledge Embeddings
6. Collective Embedding-based Entity Alignment via Adaptive Features

5. 如何识别和扩展图谱中的同义词

对知识图谱中的同义不同形的词进行合并，可以理解为一种知识对齐。由于不同形的词长的不一样，所以不能简单地用词相似度来合并，需要考虑实体的语义和结构等特征。

目前工业界的办法：

去结构化数据里面寻找同义词对，如各种百科，权威知识图谱等
对非结构化数据做语义分析，找到同义词对。

本文着重讨论一下在非结构化数据集上，常见的挖掘思路有哪些。一般来说，这一类工作分为以下几个步骤：
1）从文本中提取mention词，简单的做法可以直接使用分词，选取一些特定分词结果做同义词挖掘。如果需要考虑语料中可能出现的新词或者不同语言表述，则需要配合Pattern挖掘、NER或名词短语抽取等方式获取候选词。
2）准备好已有的同义词表作为种子数据
3）获取所有种子词和候选词的特征，通常该任务的特征会从两个角度考虑，分别是local context和global context，通俗的讲就是局部特征和全局特征，前者着重于词本身，常见字级别特征、词级别特征等；后者则是考虑目标词在数据集中的分布特征或者词所在句子、段落的语义特征
4）根据各自实际工作中数据集的特点，已有的paper从不同的角度进行建模，比如使用分布特征与pattern特征交叉验证，或是只考虑改进词本身的预训练向量，或是重点考虑候选词与目标同义词集合的分布差异。此处在下一节具体展开讨论。

参考论文：
1. Multi-Distribution Characteristics Based Chinese Entity Synonym Extraction from The Web （使用模板配对）
2. Hierarchical Multi-Task Word Embedding Learning for Synonym Prediction （使用词向量方法）
3. SurfCon: Synonym Discovery on Privacy-Aware Clinical Data
4. Automatic Synonym Discovery with Knowledge Bases
5. Mining Entity Synonyms with Efficient Neural Set Generation

6. 扩展阅读：Automating the expansion of a knowledge graph

在图谱的开发和应用上，有两个限制知识图谱的因素，图谱的规模局限性和新词汇的跟新延迟性。本文介绍了一种知识图谱的自动扩充方法，用以及时跟进新出现的词汇，把新词加入到知识图谱中。也可以理解成是对知识图谱的版本管理。

本文把新加入的词分为新词新意和旧词新意。通过爬取社交媒体的数据获取新词。在通过实体抽取等方法抽取新词的解释，关系（关系抽取）等知识。生成一个知识子图，再把子图融合到主知识图谱中。本文使用了ConceptNet作为数据集进行了验证。

在模型选取上，本文使用了Multilingual BERT作为模型处理多语言的语义文本，使模型无语言依赖性。这样，支持从多语网站爬取对新词的信息。模型包括三个部分：爬虫，语义分析器，知识挖掘模型。

实验部分的评估方法：

使用了对知识图谱扩展后的具体例子，说明新的KG中包含了新词。
对新KG做数据分析，给出metadata，证明新KG中有更多的实体出现。
对语义分析，给出一种消融实验，验证每个模块的作用。

小结

文章分别介绍了在不同图谱规模下，不同的图谱融合算法，我们可以根据当下的数据情况进行选择。当图谱规模较小时，我们还是推荐上文介绍的小规模图谱融合的方法，可解释性高，算法简单，同时可达到不错的效果。当图谱规模非常大时，图谱自身就是一个可解释性非常高的模型，此时采用层次聚类或知识表示抽象化图谱结构，才能达到较好的效果。在实际应用中，需要根据不同的业务建立不同的图谱，散落在各业务线的数据，永远只是服务于自身业务，并不能发现业务之间的潜在联系。为了实现跨业务语义解析和推荐，图谱融合是关键，需要根据不同业务的特点选择不同的融合算法，复杂不一定是最好。从以上研究中可以看到，如何丰富并更好的抽象新实体的外部语义环境和其在图谱中的关联结构，依然是今后研究的重点。

Ref：
多知识图谱的融合算法探索
 如何扩充知识图谱中的同义词