知识图谱的融合_实例层的融合和匹配

5.4.1 实例层的融合和匹配
空间复杂度挑战
时间复杂度挑战：
匹配元素对的相似度计算次数（n2）
每次相似度计算时间复杂度（t）
匹配结果质量挑战
5.4.2 基于快速相似度计算的实例匹配方法
思想：降低每次相似度计算的时间复杂度，即t
映射过程只能使用简单且速度较快的匹配器，映射线索尽量简单；
匹配器：
文本匹配器：映射线索只考虑标签和注释信息，避免构造复杂的映射线索
结构匹配器：借助概念层次和元素邻居文本相似
基于实例的匹配器
5.4.3 基于规则的实例匹配
基于EM算法的半监督学习框架----自动寻找实例匹配规则
该框架以迭代的方式自动发现匹配规则，逐步提高匹配规则集的质量，再利用跟新后的规则集来寻找高质量的匹配对。
5.4.4 基于分治的实例匹配方法
思想：降低匹配元素对的相似度计算次数（n2）
（1）基于属性规则的

问题：
划分规则：划分结果能否覆盖所有的实例，即分块的完备性
分块的冗余：一些实例被同时分配到多个块中
分块的选择
匹配结果的整合
方法：将属性先聚类，在聚类的基础上再进行分块
矛盾：分块越细，匹配效果越好，匹配计算越多，匹配性能越低；
（2）基于索引的分块方法
思想：运用多重索引与候选集合，其中将向量空间模型和倒排索引技术相结合，实现对实例数据的划分。
VIM实例信息：
URI：唯一标识符，如果两个实例有相同的URI，则可以判定这两个实例相同
元信息：实例的元信息包括实例的模式层信息，如实例所属的类，实例的属性等；
实例名
描述性属性信息
可区分属性信息：如性别
邻居信息：实例根据不同的属性信息可以连接到相邻的实例
传统：在源本体Os中给定一个实例 i ,计算 i 与目标本体 Ot 中每一个实例的相似对，然后选取匹配对；
步骤：
向量构造与索引：VMI对实例包含的不同类型的信息进项向量化处理，然后对这些向量构建待排索引；
构建名称向量：分词--停用词过滤--统计出词频--构建向量；
实例的虚拟文档：实例本身的本地描述信息+邻居节点的信息向量
邻居节点的信息向量：所有邻居节点构成的集合；邻居节点的名称向量；邻居节点的本地描述信息；
候选集匹配：利用倒排索引检索出候选的匹配对，再利用设计好的向量规则形成候选匹配集
规则：
2个名称向量维数都大于5，且两者名称向量中至少有2个关键词相同
2个名称向量维数都小于5，且两者名称向量中至少有一个关键词相同
2个虚拟文档向量中至少有1个相同的关键词
优化候选匹配集：根据用户自定义的属性对和值模式对候选集合进行优化，去除不合理的候选匹配
方法：
检查用户设定的属性在待匹配的实例中是否存在
检查用户设定的属性对应值是否存在
计算匹配结果：利用实例的向量余弦相似度计算实例对的相似度，通过预设的阈值提取最终的实例匹配结果
（3）基于聚类的分块方法
过程：
本体划分：将本体中的概念聚类维多个小规模的簇，分配RDF声明的方式来构建块；
块匹配：来自不同知识图谱的块根据事先计算好的锚进行相似度匹配；
启发式算法来发现匹配的块
字符匹配技术发现两个完整的本体之间的锚，之后两个本体中的块依据锚的分布匹配起来
匹配结果：虚拟文档和结构匹配两个匹配器将会从所有的映射中找出匹配结果；
基于语言的匹配器V-Doc，基于结构的匹配器GMO
（4）基于局部性的分块方法
根据当前得到的匹配结果，及时预测后继相似度计算可跳过的位置，达到提高映射效率的目的
事实：
知识图谱中包含Is-a 和 part-of关系构成的层次结构，正确的匹配不能破坏这种层次结构
元素映射具有区域性特点：O1的特定区域Di中的元素大多会映射到O2的特定区域中Dj,
思想：
O1中的概念A与O2中的概念B匹配时，则A的子概念不必与B的父概念做匹配计算
当A与B不匹配时，可认为A的邻居与B的邻居也不匹配
5.4.5 基于学习的实例匹配方法
思路：利用只是谱图的网络结构信息和实例相关信息训练一个分类模型，实现实例匹配；
由于实例的规模较大，在分类之前需要对实例分类，通常采用基于属性的规则来分块处理。
步骤：
（1）预处理/消解判定
思想：基于作者和文献信息计算出签名频率，活跃年份等统计量，并根据消解判定规则分离需要进行命名消解的数据。
方法：其名字的首字母和姓氏长度为4的子串组合为作者名的签名形式
规则：
（高频签名形式规则）：对于签名频数超过阈值T1的两个作者名，标记为D1型适配；
（拼音规则）：对于汉语，韩语等语言的两个作者名，且满足签名形式相同，标记为D2型适配；
（签名形式规则）：对于两个满足适配必要条件的作者名，若其中一个名字的完全形式与签名形式相同，D3
（编辑距离规则）：对于满足适配必要条件的两个作者名，且任一名字的完全v姓氏不为签名形式，且名字和姓氏的拼接串编辑距离大于或等于T2，D4
（中间名匹配规则）：对于满足适配必要条件的两个作者名，若一个作者的中间名缩写串不为另外一个名字中间名缩写串的子串，反之亦然，则标记为不匹配；
（中间名缺失规则）：对于满足适配必要条件的两个作者名，若一个作者名的中间缩写串为空，且另外一个作者名为签名形式，D5
（活跃年份规则）：对于签名形式相同，且活跃年份相似度小于阈值T3的两个作者名，D6
（普通规则）：对于签名形式相同，且不满足上述适配型的作者名字对，D7
（2）基于人工确认的文献数据集利用LDA模型建立作者-主题分布特征
使用LDA和Gibbs Sampling 方法对每个作者发表的文献进行主题建模，得到作者-主题分布、主题-词汇分布。
通过LDA主题建模，将每个作者的文献信息映射为潜在主题分布所表示的主题向量；
通过主题向量可以了解作者的研究领域信息，并对不同作者的领域相似度作比较；
优点：
LDA----词包（Bag-of-Word）----统计出词汇间的相关性----文献丰富的作者主题----推测----文献较少的作者的主题特征
LDA----词汇----主题聚类----作者的文献信息----主题向量----避免使用词汇表向量造成的空间复杂度和稀疏问题
（3）结合人工确认的作者-文献关系及步骤1，2中的统计量和主题特征建立合作者关系图，使用社群发现算法完成第一次指代消解
合作者-适配网络：用于描述作者之间共同发表文献的合作关系及潜在的消解关系--领域特征和合作特征
社群发现算法：
遍历每个顶点，并将该顶点临时修改为邻接顶点的社群编号，计算模块化度增量，使用非负增量的修改最为最终修改，直至模块收敛
将社群编号相同的顶点合并为同一顶点，在新顶点组成的网络中，边的权重由社群间的权重之和计算而得；
（4）在第一次指代消解的基础上，合并已消解的作者，重复3直至作者消解结果无变化，得到第二次消解结果。
使用自学习的指代消解进一步处理第一次指代消解的结果
给定一个作者----并集查找与之相同的其他作者----编号最小的作者名代表整个作者集----代表作者
代表作者的合作者：所有已消解作者的合作者的并集；
新合作者-适配作者：两个代表作者边的权重由各自消解集合中最大的主题相似度确定。
新合作者-适配作者--社群发现算法--每个社群中适配的两个作者合并--自学习指代消解
（5）利用文献信息中的作者名调整对应作者的名字信息，结合第二次指代消解结果生成以文献对为数据的训练数据集。
根据不同特征组合分离上述数据集，使用SVM训练分类模型。
消除离群点，选择合适的参数以及交叉验证消弱噪声对泛化能力的影响
采用局部离群因子（Local Outlier Factor)度量训练集中个数据的离群程度。
（6）使用SVM分类模型在需要消解作者的文献集合生成文献档案并进行分类，完成分类结果的第三次消解
（7）结合第二次和第三次指代结果，最终生成已消解的作者聚类输出。
5.4.6 实例匹配中的分布式并行处理
虚拟文档构造
获取邻居信息
计算相似度
分块过程
分块后的匹配计算

知识图谱的融合_实例层的融合和匹配

猜你喜欢