《从文本中构建领域本体技术综述》读后笔记

文章的三个目的：

1.分析自动或半自动的以文本为数据源本体构建的主流方法（数据源：结构化数据：数据库；半结构化数据：科技文献；无结构化数据：文本资源、网络数据）

2.这些方法的问题及面临的挑战

3.未来的研究方向

本体分为：

本体组成的三个部分：

本体的构建方法：

本体的构建过程：

本体构建的数据输入类型：

技术路线：

本体构建的主导方法：

统计主导的构建方法：聚类、词频统计、词共现分析、潜在语义分析、术语搭配、关系规则挖掘、浅层自然语言处理等。特点：更灵活，可以广泛地被应用于不同的领域，不同语种下的本体构建。
语言学主导的构建方法：对自然语言处理技术高度依赖，处理复合词和非层次关系时得到的精度更高。在实际使用中会受到许多限制。

本体构建中各任务模块常用技术：

术语（具有稳定搭配关系的词序列以及对应领域关联度比较大的词序列称作术语）抽取：TF-IDF（是一种用于信息检索与数据挖掘的常用加权技术，随着它在文件中出现的次数成正比增加）、C-value/NC-value、随机漫步赋值、自然语言处理工具集
概念抽取：将相似的术语进行聚类形成
关系抽取（是本体构建的最重要的一个步骤）：层次关系的抽取：专家设计的一些预定义模板、基于语言学规则、聚类。非层次关系的抽取（比层次关系的抽取要复杂的多）：基于深层的自然语言处理技术（句法分析、依存分析），对每个句子识别核心动词，之后以该核心动词为中心，分别向左向右寻找与该核心动词紧邻的概念，找到的两个概念同该核心词一起组成一个关系三元组。

本体构建的评价方法：

常见的本体构建系统分析：（适用性、知名度、支持的输出结果等）

本体构建的问题和挑战：

未来的研究方向：

应用深度学习进行本体构建会使未来本体构建的研究方向之一。本体的构建移植性较差，难以构建大规模实用化本体，机器学习和自然语言处理有两个固有的难题：有限的标注数据和无限的标注需求之间的矛盾；有限的人工特征构建能力和无限的实际特征之间的矛盾。但是深度学习提供了新的工具。
利用知识图谱的研究思路来进行本体概念以及本体关系抽取研究，将会成为未来本体构建的研究方向之一。知识图谱中关系挖掘的方法（三元组的形式分别表示成向量，映射到某些高维空间来判断实体间可能存在的关系类型）
一些尚未解决的问题：本体公理的构建（本体中公理的学习仍处于最初始阶段）；找到客观评价本体准确率、算法效率、本体完备性的文法；本体构建不存在一个通用型、指导性的方法体系；几乎没有完全自动化的系统，多数方法需要用户的参与来从标注语料库中获取相应的概念以及关系

研究热点：

论文链接：https://github.com/Emliy-zcy/KG-papers.git