知识图谱应用合辑第一篇:多模态知识图谱的使用领域及最新进展

1.知识图谱的多模态数据来源

本节探讨多模态知识图谱的问题。前面曾多次提到,知识图谱的数据来源不仅仅是文本和结构化数据,也可以是图片、视频和音频等视觉或听觉形式的数据。多模态就是指视觉、听觉和语言等不同模态通道的融合。能够充分融合和利用语言、视觉和听觉等多种模态来源数据的知识图谱叫作多模态知识图谱。

一方面,凡是蕴含知识的原始数据都可以作为知识图谱构建的数据来源,例如对于图片,也需要完成类似于文本中的实体识别和关系抽取任务。另一方面,多种模态的数据也可以被用来增强知识图谱上实现实体对齐、链接预测和关系推理的效果,这就好比人类在完成推理任务时,也会充分利用视觉、听觉信号加强认知层的推理能力。

此外,如果将图片、视频中的实体采用类似于实体链接等技术与知识图谱中的实体进行链接,就可以充分利用知识图谱增强对多模态数据的分类、检索和识别等能力,后面会看到知识图谱被用来帮助解决图片的零样本分类问题。这些都是研究多模态知识图谱的意义所在。

2.System 1和System 2

先来看一些观点。正如深度学习专家Yoshua Bengio在NeuralPS 2019的大会报告中所介绍的,在认知理论中,大家有这样的一个共识,即人的认知系统包含两个子系统,如图1所示。直觉系统System1,主要负责快速、无意识、非语言的认知,即所谓感知层面的系统,这是目前深度学习主要做的事情。逻辑分析系统System2,是有意识的、带逻辑、负责规划和推理以及可以用语言表达的系统,这方面深度学习能力还很有限,而知识图谱关注的正好是这部分的系统。这里有一个值得深思的问题,就是这两个系统是分离的两个系统,还是一个系统的两个部分?至少到目前为止,以语言和

おすすめ

転載: blog.csdn.net/m0_50230964/article/details/121510470