知识图谱的融合_实例层的融合和匹配

5.4.1 实例层的融合和匹配
空间复杂度挑战
时间复杂度挑战:
       匹配元素对的相似度计算次数(n2)
       每次相似度计算时间复杂度(t)
匹配结果质量挑战
5.4.2 基于快速相似度计算的实例匹配方法
思想:降低每次相似度计算的时间复杂度,即t
          映射过程只能使用简单且速度较快的匹配器,映射线索尽量简单;
匹配器:
     文本匹配器:映射线索只考虑标签和注释信息,避免构造复杂的映射线索
     结构匹配器:借助概念层次和元素邻居文本相似
     基于实例的匹配器
5.4.3 基于规则的实例匹配
基于EM算法的半监督学习框架----自动寻找实例匹配规则
该框架以迭代的方式自动发现匹配规则,逐步提高匹配规则集的质量,再利用跟新后的规则集来寻找高质量的匹配对。
5.4.4 基于分治的实例匹配方法
思想:降低匹配元素对的相似度计算次数(n2)
(1) 基于属性规则的

     问题:
            划分规则:划分结果能否覆盖所有的实例,即分块的完备性
            分块的冗余:一些实例被同时分配到多个块中
            分块的选择
    匹配结果的整合
           方法:将属性先聚类,在聚类的基础上再进行分块
           矛盾:分块越细,匹配效果越好,匹配计算越多,匹配性能越低;
(2)基于索引的分块方法
           思想:运用多重索引与候选集合,其中将向量空间模型倒排索引技术相结合,实现对实例数据的划分。
           VIM实例信息:
                       URI:唯一标识符,如果两个实例有相同的URI,则可以判定这两个实例相同
                       元信息:实例的元信息包括实例的模式层信息,如实例所属的类,实例的属性等;
                       实例名
                       描述性属性信息
                       可区分属性信息:如性别
                       邻居信息:实例根据不同的属性信息可以连接到相邻的实例
            传统:在源本体Os中给定一个实例 i ,计算 i 与目标本体 Ot 中每一个实例的相似对,然后选取匹配对;
            步骤:
                     向量构造与索引:VMI对实例包含的不同类型的信息进项向量化处理,然后对这些向量构建待排索引;
                     构建名称向量:分词--停用词过滤--统计出词频--构建向量;
                     实例的虚拟文档:实例本身的本地描述信息+邻居节点的信息向量
                     邻居节点的信息向量:所有邻居节点构成的集合;邻居节点的名称向量;邻居节点的本地描述信息;
                     候选集匹配:利用倒排索引检索出候选的匹配对,再利用设计好的向量规则形成候选匹配集
                               规则:
                                             2个名称向量维数都大于5,且两者名称向量中至少有2个关键词相同
                                             2个名称向量维数都小于5,且两者名称向量中至少有一个关键词相同
                                             2个虚拟文档向量中至少有1个相同的关键词
                      优化候选匹配集:根据用户自定义的属性对和值模式对候选集合进行优化,去除不合理的候选匹配
                                     方法:
                                              检查用户设定的属性在待匹配的实例中是否存在
                                              检查用户设定的属性对应值是否存在
          计算匹配结果:利用实例的向量余弦相似度计算实例对的相似度,通过预设的阈值提取最终的实例匹配结果
(3)基于聚类的分块方法
            过程:
                       本体划分:将本体中的概念聚类维多个小规模的簇,分配RDF声明的方式来构建块;
                       块匹配:来自不同知识图谱的块根据事先计算好的锚进行相似度匹配;
                                              启发式算法来发现匹配的块
                                              字符匹配技术发现两个完整的本体之间的锚,之后两个本体中的块依据锚的分布匹配起来
                       匹配结果:虚拟文档和结构匹配两个匹配器将会从所有的映射中找出匹配结果;
                                         基于语言的匹配器V-Doc,基于结构的匹配器GMO
(4)基于局部性的分块方法
根据当前得到的匹配结果,及时预测后继相似度计算可跳过的位置,达到提高映射效率的目的
事实:
         知识图谱中包含Is-a 和 part-of关系构成的层次结构,正确的匹配不能破坏这种层次结构
         元素映射具有区域性特点:O1的特定区域Di中的元素大多会映射到O2的特定区域中Dj,
思想:
        O1中的概念A与O2中的概念B匹配时,则A的子概念不必与B的父概念做匹配计算
         当A与B不匹配时,可认为A的邻居与B的邻居也不匹配
5.4.5 基于学习的实例匹配方法
思路:利用只是谱图的网络结构信息实例相关信息训练一个分类模型,实现实例匹配;
由于实例的规模较大,在分类之前需要对实例分类,通常采用基于属性的规则来分块处理。
步骤:
(1)预处理/消解判定
              思想:基于作者和文献信息计算出签名频率,活跃年份等统计量,并根据消解判定规则分离需要进行命名消解的数据。
              方法:其名字的首字母和姓氏长度为4的子串组合为作者名的签名形式
              规则:
                  (高频签名形式规则):对于签名频数超过阈值T1的两个作者名,标记为D1型适配;
                  (拼音规则):对于汉语,韩语等语言的两个作者名,且满足签名形式相同,标记为D2型适配;
                  (签名形式规则):对于两个满足适配必要条件的作者名,若其中一个名字的完全形式与签名形式相同,D3
                  (编辑距离规则):对于满足适配必要条件的两个作者名,且任一名字的完全v姓氏不为签名形式,且名字和姓氏的拼接串编辑距离大于或等于T2,D4
                  (中间名匹配规则):对于满足适配必要条件的两个作者名,若一个作者的中间名缩写串不为另外一个名字中间名缩写串的子串,反之亦然,则标记为不匹配;
                  (中间名缺失规则):对于满足适配必要条件的两个作者名,若一个作者名的中间缩写串为空,且另外一个作者名为签名形式,D5
                  (活跃年份规则):对于签名形式相同,且活跃年份相似度小于阈值T3的两个作者名,D6
                  (普通规则):对于签名形式相同,且不满足上述适配型的作者名字对,D7
(2)基于人工确认的文献数据集利用LDA模型建立作者-主题分布特征
         使用LDA和Gibbs Sampling 方法对每个作者发表的文献进行主题建模,得到作者-主题分布主题-词汇分布
         通过LDA主题建模,将每个作者的文献信息映射为潜在主题分布所表示的主题向量;
         通过主题向量可以了解作者的研究领域信息,并对不同作者的领域相似度作比较;
         优点:
                 LDA----词包(Bag-of-Word)----统计出词汇间的相关性----文献丰富的作者主题----推测----文献较少的作者的主题特征
                 LDA----词汇----主题聚类----作者的文献信息----主题向量----避免使用词汇表向量造成的空间复杂度和稀疏问题
(3)结合人工确认的作者-文献关系及步骤1,2中的统计量和主题特征建立合作者关系图,使用社群发现算法完成第一次指代消解
        合作者-适配网络:用于描述作者之间共同发表文献的合作关系及潜在的消解关系--领域特征和合作特征
        社群发现算法:
                遍历每个顶点,并将该顶点临时修改为邻接顶点的社群编号,计算模块化度增量,使用非负增量的修改最为最终修改,直至模块收敛
                将社群编号相同的顶点合并为同一顶点,在新顶点组成的网络中,边的权重由社群间的权重之和计算而得;
(4)在第一次指代消解的基础上,合并已消解的作者,重复3直至作者消解结果无变化,得到第二次消解结果。
          使用自学习的指代消解进一步处理第一次指代消解的结果
          给定一个作者----并集查找与之相同的其他作者----编号最小的作者名代表整个作者集----代表作者
          代表作者的合作者:所有已消解作者的合作者的并集;
          新合作者-适配作者:两个代表作者边的权重由各自消解集合中最大的主题相似度确定。
          新合作者-适配作者--社群发现算法--每个社群中适配的两个作者合并--自学习指代消解
(5)利用文献信息中的作者名调整对应作者的名字信息,结合第二次指代消解结果生成以文献对为数据的训练数据集。
         根据不同特征组合分离上述数据集,使用SVM训练分类模型。
         消除离群点,选择合适的参数以及交叉验证消弱噪声对泛化能力的影响
         采用局部离群因子(Local Outlier Factor)度量训练集中个数据的离群程度。
(6)使用SVM分类模型在需要消解作者的文献集合生成文献档案并进行分类,完成分类结果的第三次消解
(7)结合第二次和第三次指代结果,最终生成已消解的作者聚类输出。
5.4.6 实例匹配中的分布式并行处理
           虚拟文档构造
           获取邻居信息
           计算相似度
           分块过程
           分块后的匹配计算

猜你喜欢

转载自www.cnblogs.com/hapyygril/p/12085224.html