知识图谱第18享:实体链接简介

1、定义

实体链接,是指给定一篇文本中的实体指称(mention),确定这些指称在给定知识库中的目标实体(entity)。

2、难点

实体链接主要有两个难点,即多词一义和一词多义。多词一义是指实体可能有多个指标,实体的标准名、别名、名称缩写等都可以用来指代该实体;一词多义是指一个指标可以指代多个实体。

解决一词多义问题要利用知识库中实体信息进行实体消歧,单一知识库中的实体信息相对较少,如果能利用多个知识库中的实体信息进行实体消歧,一词多义的问题将会得到更好的解决。

3、步骤

实体链接包括两个步骤,即指称识别和实体消歧(或者候选实体生成和候选实体排序)两个过程,不同的研究划分方式略有不同。

实体链接的第一步是进行指称识别,首先要构建一个指称-实体字典,大多数研究者抽取Wikipedia的实体页面、消歧页面、重定向页面的标题作为实体指称,建立指称-实体字典, 还有其他的建立方式, 如Sil等抽取了Freebase中实体的标准名和别名。然后按一定的规则识别实体指称,如Cucerzan利用大小写规则、先验统计信息进行指称识别,并选择实体上下文与实体Wikipedia主页、候选实体之间的一致性最高的实体序列。Mihalcea等利用链接概率识别指称, 然后综合利用知识工程方法和朴素贝叶斯分类方法确定最终的实体序列。

第二步是进行实体消歧。目前,实体消歧方法主要包括机器学习、排序学习、图模型、无监督方法和集成方法等。

4、关键技术

实体链接的关键技术主要有引用表构建、实体知识构建、链接推理算法(即综合实体知识进行决策的过程)等。

 

参考文献:

1、知识图谱第四课:知识抽取与挖掘II,https://www.bilibili.com/video/av26971363?p=4

2、知识图谱 | 实体链接,https://zhuanlan.zhihu.com/p/81073607

3、实体链接:从文本到概念,https://wenku.baidu.com/view/ef05018bf9c75fbfc77da26925c52cc58bd6902e.html

猜你喜欢

转载自blog.csdn.net/weixin_40845074/article/details/104721126