文献阅读笔记（十一）

Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions笔记整理

一、论文整理思路流程

本篇文章对实体链接的主要方法进行了全面的概述和分析，并讨论了各种应用，实体链接系统的评估以及未来的方向。是一篇总结类科普类的文章。

文章首先总结了实体链接任务产生的原因：

1）大量数据以自然语言的形式产生，但是自然语言生成的数据尤其是命名实体类的数据的歧义性都很高。

2）现有的知识库在插入新的实体或事实时，不可避免地需要将新的实体提及与原有知识库中的实体链接。

随后文章对实体链接任务进行了具体描述，实体链接任务指给出一个一直知识库，包含实体集E，以及包含一个命名实体集M的文本。实体链接的任务是将命名实体集中每一个文本实体提及与知识库中对应实体匹配链接。每一个实体提及m都是文本中的一条句子并且能对应到先前定义的实体上，若实体提及未能找到对应知识库中的实体，则将实体提及标注为NIL。通常一个实体链接系统包括：

1) 候选实体集的产生

2) 候选实体排序选择

3) 连接结果的表示（连接失败提及的预测）

文章还在开始处介绍了实体链接的应用方向：

1) 信息抽取:信息抽取系统获得的命名实体和关系通常需要与知识库链接来进行消歧。

扫描二维码关注公众号，回复： 9669128 查看本文章

2) 信息检索：基于语义实体的搜索需要在网络文本中出现明确的实体提及，以便更精确地处理实体和Web文档的语义

3) 内容分析

4) 问答系统

5) 知识库生成

文章还简单的介绍了目前常见的知识库：Wikipedia、YAGO、DBpedia、Freebase
此后文章分开介绍了实体链接系统的各个组成部分以及所常用的方法，包括候选实体的产生、候选实体排名、无法链接提及的预测这三个部分。
候选实体生成指每一个实体提及m ∈ M,实体链接系统都要为它找到一个候选实体集，整个候选实体集中的每一个实体都是知识库中可能与提及链接的实体。候选实体生成主要常用的技术有

1) 基于命名字典的技术：使用维基百科提供的特征（如）进行组合得到一个本地的字典集。命名字典D是一个⟨key, value⟩映射，键列是名称列表。假设k是键列中的命名，其映射值k.value在value列中是一组与命名提及k相关的实体。字典D的构建通常使用以下特征：实体页面（维基百科中专门描述某一个实体的全部信息的页面）、重导向页面（维基百科中包含了其他可能相关的实体的页面）、消歧页面（维基百科中区分多个同名实体的页面）、第一段中的粗体词、文章中的超链接。

2) 由本地文档扩展识别表面形式：识别命名提及的多个形式，比如缩写、别名等。使用启发式的方法（使用N-Gram方法，在删除了首字母缩写词首字母相同的停用词后，检查了整个文档中是否存在N个连续词）、基于监督学习的方法。

3) 基于搜索引擎的方法

候选实体排名指在产生的候选实体集Em中对候选实体进行排名然后选择最合适的实体进行链接。

1) 监督学习方法：主要有二分法（给定实体提及和候选实体的对，使用二分类器来确定该实体提及是否引用了候选实体）、learning to rank方法（根据训练数据自动构建排名模型，选取排名最高的候选实体）、可能性方法（查询文档在很大程度上指的是局部连贯的实体，他们利用这种“主题连贯性”来处理候选实体排名问题）、基于图的方法。

2) 非监督学习方法：向量空间模型（计算实体提及的向量与候选实体的向量之间的相似性）、基于信息检索的方法（候选实体被索引为单独的文档，并且针对每个实体提及，它们从该实体提及及其上下文文档中生成搜索查询）

与候选实体排名相关的特征

1) 文本相关的特征：命名字符串比较（基于字符串相似度的比较）、实体重复出现程度

2) 文本不相关的特征：语篇语境（衡量实体提及周围的上下文和与候选实体相关联的文档之间的文本相似性，通常用单词包、概念向量表示语境）、链接实体之间的连贯程度（一个文档大体上是指一个或几个相关主题中的连贯实体，并且可以利用该主题连贯性来共同链接同一文档中的实体提及。）

链接失败提及预测：

1）排名最高的实体etop与一个得分s相关联。如果得分s小于NIL阈值τ，则返回实体提及m是NIL并预测提及m为不可链接。

2）基于监督学习，使用训练数据预测命名提及是否可以链接

3）在learning to rank方法基础上，添加NIL作为候选实体，排名器输出NIL作为排名最高的实体，该实体提及被视为不可链接。

衡量标准：

1）精确度（Precision）：考虑由系统链接的所有实体提及，并确定如何通过实体链接系统链接正确的实体提及

2）召回率（Recall）：考虑所有应链接的实体提及，衡量正确链接的实体提及和相对应链接全部实体提及的比值

3） F1 Measure

未来可能的方向以及当前存在的问题：

1）当前的大多数实体链接系统都将重点放在从非结构化文档（例如新闻文章和博客）中检测到实体提及的实体链接任务上。但是，实体提及也可能出现在其他类型的数据中，并且这些类型的数据也需要与知识库链接

2）关于实体链接的大多数工作都缺乏对计算复杂性的分析，因此他们通常不评估其系统的效率和适用范围

3）建立和填充特定领域的知识库（例如，在生物医学，娱乐，产品，金融，旅游等领域）的需求不断增长，因此特定领域的实体链接也很重要。特定领域的实体链接集中于特定的数据域，并且特定领域的知识库可能与通用知识库具有不同的结构

文献阅读笔记（十一）

猜你喜欢