2016 AAAI_Ontology Instance Linking--Towards Interlinked Knowledge Graphs笔记整理
一、 论文整理思路流程
1.1 论文的相关研究工作
- NLP中的实体共指问题
- 数据集中的重复数据删除
- 多个不同标识符(实体实例)指向同一个实体的问题
- 为不同数据集之间不同实体实例产生等价关系(链接)且在产生关系的同时仍然保持领域独立
- 对现有的产生等价关系方法的分类和测试
1.2 论文主要解决的问题
1.3 论文解决问题的过程
- 首先提出语义网中的实体共指问题多发生于自由文本和实体实例之间或是实体实例之间。
- 随后提出语义网的实体共指方法的分类。
- 基于字符串匹配的实体等价关系链接:如通过计算实例(三元组)的标注之间的相似度。对于相似度分数高的实例之间进行链接。
- 结合逻辑推理的字符串匹配方法:首先通过owl的一些基本属性(owl:theSameAs;owl:InverseFunctionalProperty等)构造一个初始的共指实例集,然后辨别这些初始集中的实例对是否是共指的。但是由于过于依赖于owl关系
- 使用人工众包对共指实例进行标注
- 规模化的实例共指系统:使用监督学习进行分块从而解决大规模数据集的实例链接问题
- 评估指标:精确度、召回率和F1、Fcs;
1.4 论文使用的实验方法
其中,t表示阈值,N和M表示两个进行匹配的实例集的大小
- 测试数据集:BTC数据集、OAEI关于人与餐厅的数据集
- 对于因对某一个原始实例进行一处修改而得到的共指实例,所有的系统方法都可以高效准确识别并连接,但对于进行多处修改而得到的共指实例,准确率、召回率、F1都有下降。
- DisNGram (Song and Heflin 2011)方法在比较过程中,表现较好
- 集成式实例共指系统,不再仅仅检测实例之间的共指,而是研究一种类型的实例的共引用结果将如何影响其他实例
- 对于缺少判别标签的数据如何处理(扩展标签属性的范围,即使用其他的属性作为标签)
1.5 实验最终结果的评估
1.6 论文的后续工作
二、 论文中使用的技术和方法
- Owl语言
- DisNGram
- OAEI、BTC、SWAT数据集的使用
三、 建议阅读参考文献
[Bizer, Heath, and Berners-Lee 2009]
[DisNGram (Song and Heflin 2011)]