Literature research on introducing knowledge graph/extra knowledge into CV field (updating)

Recently, I have been researching the literature on knowledge graphs and knowledge applications. Here I will sort it out for you. If you have better suggestions, welcome to comment!

Knowledge Map/Knowledge Application

1. List of papers

serial number	Paper title	Paper link	source-year	Field
1	The More You Know: Using Knowledge Graphs for Image Classification	https://arxiv.org/pdf/1612.04844v2.pdf	CVPR 2017	Multi-label image classification
2	A Semantic Relation Graph Reasoning Network for Object Detection	https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9455627	DDCLS 2021	Target Detection
3	Zero-shot Video Classification with Appropriate Web and Task Knowledge Transfer	https://dl.acm.org/doi/abs/10.1145/3503161.3548008	ACM MM 2022	Zero-shot video classification
4	Concept Propagation via Attentional Knowledge Graph Reasoning for Video-Text Retrieval	https://dl.acm.org/doi/pdf/10.1145/3503161.3547785	ACM MM 2022	Video-Text Retrieval
5	Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval	https://www.xueshufan.com/publication/3010277541	WACV 2020	Image-Text Retrieval
6	From Node to Graph: Joint Reasoning on Visual-Semantic Relational Graph for Zero-Shot Detection	http://vipl.ict.ac.cn/resources/codes/2022/202206/P020220606481598160878.pdf	WACV 2022	zero sample detection
7	MULTIMODAL-SEMANTIC CONTEXT-AWARE GRAPH NEURAL NETWORK FOR GROUP ACTIVITY RECOGNITION	https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9428377	ICME 2021	Group Behavior Recognition
8	PaStaNet: Toward Human Activity Knowledge Engine	https://arxiv.org/pdf/2004.00945	CVPR 2020	behavior recognition
9	Recursive Social Behavior Graph for Trajectory Prediction	https://arxiv.org/pdf/2004.10402v1	CVPR 2020	Pedestrian Trajectory Prediction
10	Transferable Interactiveness Knowledge for Human-Object Interaction Detection	https://arxiv.org/pdf/2101.10292	CVPR 2019	Human-object interaction detection
…	…	…	…	…

持续更新......

2. Method classification

2.1. Knowledge dissemination and expansion

Method introduction : According to the video content, categories or concepts are detected as nodes, mapped to the knowledge map, information is disseminated through graph convolution based on the attention mechanism, and nodes related to the initial node are activated to enrich the visual semantic expression and strengthen the text and Consistency of visual information.
Papers involved : 1, 3, 4,

2.2. Multimodal subgraph feature fusion

方法简介：分别根据不同模态建立子图，各自用图卷积进行信息传播和节点更新，子图和子图之间进行信息传递，融合多个子图的特征输出。
涉及到的论文：6，7，9，

2.3、多模态子图特征匹配

方法简介：分别根据视觉特征和文本特征建立子图，各自用图卷积进行信息传播和节点更新，算两个子图的相似性分数。一般用于图-文检索和视频-文本检索。
涉及到的论文：5，

2.4、知识增强特征

方法简介：
1）从知识库中抽取知识，通过预训练模型得到语义表达，和视觉信息做特征融合，融合后的特征用于下游任务。
2）从单个模态构建多个子图/分支，分别学习不同模态/分支中个体之间的关系来增强特征。
涉及到的论文：
1）8，
2）2，10，

3、论文简介

3.1、The More You Know: Using Knowledge Graphs for Image Classification

任务定义：
多标签图像分类，现实生活中的图像往往包含着多个目标，并非只包含单一种类的物体，多标签分类需要对包含有多个目标的图像进行分类，准确识别多个类别。

背景/存在的问题：
人类区别于计算机的一个特征是，根据获取的知识，并使用该知识进行视觉推理。通过少样例学习，人类可以了解物体特征以及特征之间的关系，从而学习各种各样的视觉概念。
在这里插入图片描述
上图说明了，我们如何用知识来识别象鼩。我们知道象鼩长得老鼠，有象鼻和尾巴，栖息地在非洲，并且经常在灌木丛中被发现。通过回顾这些知识，如部位，栖息地等特征，再进行推理，这是一个象鼩，因为他有一个象鼻和尾巴，长得像老鼠，而老鼠和大象都不完全具备这所有的特征。除此之外，有了这些知识，即使我们只看到了这只动物的几张照片，我们也能对其进行分类。

所提出的方法/策略：
在这里插入图片描述
1.先用检测器检测目标类别，作为初始节点，节点值为检测置信度，并将节点映射到知识图谱中
2.根据图谱中边的权值大小，扩展与初始节点关联性强的邻居节点。学习一个节点评分函数，选择扩展重要的的节点，并用图卷积更新节点
3.通过T时刻的迭代扩展和更新，将扩展图的节点传入分类网络中

3.2、A Semantic Relation Graph Reasoning Network for Object Detection

任务定义：
目标检测，输入图像中往往有很多物体，目的是判断出物体出现的位置与类别

背景/存在的问题：
当人类感知环境,除了使用目标的局部特征,有时我们也使用目标周围的信息检测，例如, 当我们看到一个鼠标，但不确定, 如果我们发现键盘旁边,然后我们会相信我们看到的对象是一个鼠标。这是因为，鼠标和键盘经常成对出现在我们的认知当中。在现实世界中，物体之间有很多可以利用的信息，比如共现信息，就是两个物体经常出现在同一个地方的关系，还有空间关系，比如自行车经常出现在人的下面。此外，在对象之间的关系中还有很多隐藏的信息，值得挖掘。
目前目标检测算法通常提取单一区域的特点,然后进行检测,忽视目标-目标、目标-场景之间的上下文语义信息。
为了利用目标-目标和目标-场景之间的语义关系，作者将目标检测任务看作是图形推理问题, 并提出了目标-目标和目标-场景之间的先验关系（共现）以增强特征。
在PASCAL VOC数据集上统计目标-目标、目标-场景的共现信息：
在这里插入图片描述

所提出的方法/策略：
在这里插入图片描述
RPN+ROI Pooling生成suggested region
先验知识：object-object、scene-object的共现概率。
Object-object Features Learning Module使用GCN提取不同对象之间的共现信息、使用GAT提取隐藏信息； object-object先验知识作为监督，指导GCN学习
Scene-object Associated Features Generation Module使用MLP网络（ scene-object先验知识指导学习）生成系数，用于测量场景和物体的紧密程度。然后将这些系数与场景特征相乘，得到基于场景与物体之间关系的新特征。

3.3、Zero-shot Video Classification with Appropriate Web and Task Knowledge Transfer

任务定义：
零样本视频分类，旨在识别模型训练中未出现的视频类别。

背景/存在的问题：
零样本视频分类一般通过构建视觉特征和语义嵌入之间的映射来实现。研究表明通过挖掘视频包含的物体作为属性并结合外部知识能有效提升模型的性能。这个任务的主要挑战在于：1. 如何找到视频和文本间细粒度的语义关联。2. 类别对象关系通常是从常识知识或词嵌入中提取的，这与视频模态不一致。3. 用标记的可见类别进行充分训练的模型可能无法很好地泛化到不同的未见类别。
在这里插入图片描述
人类定义的属性、语义表示和知识图通常是从文本语料库或人类定义或专家知识中获得的。语义信息和视觉特征之间不可避免地存在很大的不一致。

所提出的方法/策略：
在这里插入图片描述根据视频类别名称在网络中搜集相关的图像，并应用预先训练的物体识别模型对收集的图像进行识别，提取频繁出现的物体作为该视频类别相关的属性，构建类别-属性关系。通过所挖掘的属性以及外部知识，采用图神经网络学习视觉特征到类别的映射，有效提升模型的泛化能力。

3.4、Concept Propagation via Attentional Knowledge Graph Reasoning for Video-Text Retrieval

任务定义：
视频-文本检索，根据文本检索视频，或根据视频检索文本。

背景/存在的问题：
随着短视频平台的兴起，视频数量的急剧增长使得视频文本检索技术越发关键。如何仅使用文档级对应部分来识别视频和文本之间对应的细粒度语义关系是一大挑战。
在这里插入图片描述
一般检测器只能识别具有高可置信度的对象类别(蓝色框内)。但是信息不完整，无法表达语义信息进行检索。标题中的蓝色文字是初始类别集对应的概念。有了常识图，我们可以扩展更多与视频相关的高级语义概念，如红色框所示。标题中新匹配的概念用红色突出显示。

所提出的方法/策略：
在这里插入图片描述
针对以上问题，作者提出Attentional Concept Propagation (ACP) 网络框架。它利用一个双流网络来捕捉视频和文本的互补信息，其中内容空间和语义空间共同工作。内容级分支关注两种模式的全局信息，语义级分支关注细粒度的概念信息。在两个不同的空间算模态之间的相似性分数，结合两个分数作为最终视频-文本相似性分数。

3.5、Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval

任务定义：
图-文检索，当给定一个模态(图像或文本句子)的查询时，它的目标是从数据库中检索另一个最相似的模态样本

背景/存在的问题：
图文检索的关键挑战是如何通过理解跨模态数据的内容和度量其语义相似性来匹配跨模式数据，特别是当跨模态数据中有多个对象。并且很多方法忽略了多模态数据中对象之间的关系。
在这里插入图片描述
三种不同的图像-文本检索框架。顶部的框架使用全局表示来表示用于匹配的图像和文本。中间的提取图像和文本中的对象进行详细匹配。下面的一个(作者提出的方法)从图像和文本中捕捉对象及其关系，并使用两个关系图进行匹配。作者引入一个视觉场景图(VSG)和文本场景图(TSG)来表示图像和文本, 将传统的图像文字检索问题转化为两个场景图的匹配。

所提出的方法/策略：
在这里插入图片描述
提出的框架目的是通过将输入的图像和文本句子分割成场景图来评估图像-文本对的相似性。
它由两个网络分支组成。在可视化分支中，输入图像被表示为可视化场景图(VSG)，然后被编码为可视化特征图(VFG)。与此同时，输入的文本解析为文本场景图(TSG)，然后在文本分支中编码为文本特征图(TSG)。最后，从VFG和TFG中收集对象特征和关系特征，分别计算对象级和关系级的相似度得分。
具体来说:
视觉分支：由现成的场景图谱生成方法，得到视觉场景图，每个视觉图块带有文本标签，图块之间有相应的语义关系标签。对于视觉encoder：通过fasterrcnn提取图像块的特征，对于图像关系特征，提取两个区域的并集特征作为视觉关系特征。文本对象节点和文本关系节点的one-hot向量分别由线性层得到嵌入特征。再将对象节点特征和关系特征分别融合。关系节点从其邻近区域聚合信息进行更新，对象节点从自身进行更新。
在这里插入图片描述
文本分支：将输入句子的单词组织成文本场景图(text scene graph, TSG)，其中包含了两种边，黑色箭头表示词序，棕色表示语义关系，由spice解析的三元组构成，比如man-hold-baby.由于不同的边，在图中形成不同类型的路径。由词序边连接的路径命名为词序路径。由语义关系边连接的路径称为语义关系路径。用bi-GRU更新节点。
在这里插入图片描述

3.6、From Node to Graph: Joint Reasoning on Visual-Semantic Relational Graph for Zero-Shot Detection

任务定义：
零样本检测，是一种利用单个物体的视觉和语义信息在复杂场景中定位和识别未知类别物体的任务。

背景/存在的问题：
人类对场景的理解超越了对单个物体的单独识别: 多个物体之间的上下文信息，如视觉关系信息(如视觉上相似的物体)和语义关系信息(如共现的物体)有助于对视觉场景的理解。
在这里插入图片描述
小物体绵羊和被遮挡的香蕉在检测任务中很可能无法被检测到，因为这些单个物体的视觉和语义信息不足。因此上下文信息尤为重要。可以使用上下文信息，包括视觉关系信息(视觉上相似的对象)和语义关系信息(共同出现的对象)来协助检测。

所提出的方法/策略：
在这里插入图片描述
目标是综合利用视觉和语义关系信息来增强检测性能（可见类–>不可见类）。
为了利用这些上下文信息，作者提出了一种新的ZSD方法，称为基于图建模和推理的图对齐网络(GRAN)。具体来说，对于图建模，作者设计了一个视觉-语义关系图(VSRG)来综合使用视觉和语义关系信息。首先构造一个视觉关系图(VRG)和一个语义关系图(SRG)，其中节点分别是图像中的对象和类的语义表示，边是每个图中节点之间的相关性。
语义信息包括了可见类别和不可见类别，用来建立可见类和不可见类之间的关系。
为了使视觉和语义交互，需要在两个图上建立联系：将视觉图每个节点和文本图所有节点进行连接，边值为1。用图卷积对组建的异构图进行信息传递与节点更新。再将T次迭代后的特征用于后续操作。

3.7、MULTIMODAL-SEMANTIC CONTEXT-AWARE GRAPH NEURAL NETWORK FOR GROUP ACTIVITY RECOGNITION

任务定义：
群体行为识别，群体行为是人与人、人与物及人与环境交互的集合。比如排球运动，或者大街上很多行人的集体活动。视频中的群体活动涉及个体之间多种形态的视觉交互，以及个体动作标签的共现。

背景/存在的问题：
目前大多数的群体活动识别方法要么基于单一的RGB模态来建模参与者-参与者关系，要么忽略了标签间关系的利用。为了获取丰富的视觉和语义上下文信息，提出了多模态-语义上下文感知图神经网络（MSCA-GNN）。

所提出的方法/策略：
在这里插入图片描述
1.首先分别基于RGB和光流模态中提取外观线索和运动模式，构建两个视觉子图
2.然后，提出基于注意力的交叉聚合器，通过收集来自其他节点和异构模态子图的表示来优化更新每个节点。（图注意力机制，处理两个图进行信息交流与节点更新）
3.基于语言嵌入构建语义图，对标签关系进行建模。
4.采用双向映射学习策略进一步整合来自多模态视觉图和语义图的信息。

3.8、PaStaNet: Toward Human Activity Knowledge Engine

任务定义：
行为识别，行为识别研究的是视频中目标的动作，判断动作类别。

背景/存在的问题：
之前的方法大多基于individual级别的特征或知识（human，object）出发去学习action，但是对于human-object interaction这种复杂的行为，仅靠这种粗粒度的知识是不够的，且训练出来的模型常因不同数据集的action种类不同而很难泛化。

在这里插入图片描述
传统方法：人在踢球的照片，先做物体检测，把人和相应的物体检测出来。原来的方法，直接用深度学习网络学习patch之间的像素到语义概念关系，也就是一种直接映射。但是性能不高。
作者是先对人做了姿态估计，把人的每个part都找出来，然后看每个part在做什么。比如：头在看球，手在挥舞，脚准备踢球。这和整个人有一个非常强的逻辑关系-语义状态。要去识别语义状态，就需要有数据支撑。构建了一个part state的数据库。把part的识别和个体的识别结合在一起。

所提出的方法/策略：
在这里插入图片描述
通过将传统的直接推理改为两阶段推理，即像素到人体局部状态再到行为概念，作者利用PastaNet中的大量知识，大幅度提升了小样本学习下的行为理解性能。在提升行为理解性能的同时，基于pastanet中的视觉-语言知识，提出的这个模型，可以同时运用于行为检测、语言描述、检索等多个下游任务。步骤如下：
1.通过姿态估计找到人的关节的关键点（key point），通过预先定义，把人分成10个part：头，双手，双脚，大腿，小腿，腹部。每个part都有自己的state.。再根据框，提取特征。
2.用注意力机制，判别哪些part对骑车这个动作贡献较大，哪些较小。
3.再根据数据库，抽取关于部位的多元组，送入bert中，获得更多的语义信息，比如维基百科描述打篮球，用很多的动作和部位-篮球交互来定义这个action。这种语言知识可以帮助分类。。
4.再将两种特征结合，应用于下游任务

视频讲解链接: SFFAI72—行为理解专题《李永露：PaStaNet: Toward Human Activity Knowledge Engine》

3.9、Recursive Social Behavior Graph for Trajectory Prediction

任务定义：
行人轨迹预测，利用过去观察到的行人运动轨迹, 通过建立模型, 学习由行为推理、与他人的交互、周围环境的影响等产生的一些规则, 理解复杂环境中的人类运动, 从而在未来短时间内预测行人的运动轨迹。

背景/存在的问题：
轨迹预测的主要挑战在于如何考虑人与人之间的互动生成合理的路径。
在这里插入图片描述
很多方法试图利用距离来衡量行人之间的影响强度，但是基于距离的方案无法处理人类社会中的众多社会行为。例如：上面三张图片显示，两个人从相反的方向走到同一个目的地。下面的三张图片显示，三个行人沿着街道走，另外三个人站着不动，互相交谈。虽然在这两个场景中，行人在红色圆圈中的距离很遥远，但他们具有强烈的关系。
在这里插入图片描述
每一种颜色代表一组，并且用箭头标注关系，以显示相互作用的方向性。此外，场景中的群体可以表示为图，这是特征传播的一种常见结构。此外，作者认为社会关系的表现是过于复杂，不能很好地用手工制作的方法捕捉。

所提出的方法/策略：
在这里插入图片描述
提出了一个社会行为驱动模型来实现群体层面的轨迹预测
每个视频都经过检测和跟踪算法预处理，得到每个人在每帧的空间坐标和具体的ID。
BiLSTM：在真正的社会动态的场景,人们将在几秒钟决定的道路作为一般规则,这意味着以后的轨迹将很大程度上影响前者的。

3.10、Transferable Interactiveness Knowledge for Human-Object Interaction Detection

任务定义：
人-物体的交互（HOI）检测，指出人和物体是如何交互的，包括有无交互，有的话，判断交互类别

背景/存在的问题：
HOI 检测领域一直有个问题—存在冗余的计算。具体来说，HOI 检测的模型需要将所有的 human box 和 object box 两两组合，生成所有可能具有交互的 human-object 对，然后计算他们的 HOI 得分，但这些 human-object 对中有许多是不存在交互的，实际上没必要把它们送入网络进行交互的预测。
在这里插入图片描述
作者认为很多 HOI detection 模型其实暗含了预测交互的能力，如果让网络输出 interactive 和 non-interactive 也是完全可行的，因此提出假设：从大量的 datasets 中先学习到能判断是否存在交互的 Interactiveness Knowledge，然后把它嵌入现有的网络中过滤掉 non-interactive 的 human-object pair，以减少 inference 阶段浪费在非有效交互的 human-object pair 的计算，作者把这种操作称为 Non-interaction Suppression。
大多数 HOI 模型都是 one-stage，即直接输入所有 possible interactive pair 并预测他们的交互得分。而本文由于采用了 Non-interaction Suppression，因此属于 two-stage 推理。
两阶段的好处：
1）这样的两阶段预习将减轻学习困难，并引入层次预测。
2）需要特别注意的是，交互性提供了额外的信息来帮助HOI分类，并且独立于HOI类别设置。这意味着它可以跨数据集传输，并用于增强为不同HOI设置而设计的HOI模型。

所提出的方法/策略：
在这里插入图片描述
整体网络结构分为3大块：Feature Extraction ®, Interactiveness Predictor §, HOI Classifier ©。在训练阶段，P 和 C 是同步进行训练的，但是在推理阶段，先 P 后 C。
Object Detection & Feature Extraction：
作者直接采用了 ResNet-50-FPN 作为骨干的 Detectron 来检测 human/object 的 bbox 和置信度，并且只挑选其中置信度高的 bbox 作为 human/object instances。此外，ResNet-50-FPN 也作为 Feature Extractor，在 ROI pooling 截取 human/object bbox 对应的特征之后，输入后续的各个 streams。
Interactiveness Predictor：
这个模块采用了 human, object, Pose-Spatial 四个特征图作为输入，来联合预测对于每一对 human-object pair 是否存在交互，即输出 Interactive or Non-interactive。
HOI Classifier：
这一部分结构作者效仿的 iCAN 模型——《iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection》，实现模型的代码也很大程度借鉴了 iCAN 的代码。简单来说，HOI Classifier 就是将分别基于 human, object, spatial 特征来分别判断 HOI 动作的得分（比如说 riding a bike），然后在 Classifier 的末端进行 late fusion（累加各 steams 预测的 HOI 得分）。这部分网络整体 flow 为：Feature map → Residual block → Poolong → FC layers → Sum up HOI scores

知乎讲解链接：旷视研究院提出新型人-物交互检测框架，实现当前最佳

4、持续更新

我会持续关注知识图谱以及知识图谱或者知识应用的文章，欢迎大家阅读。如果有什么问题可以在评论区讨论，有什么专业上的问题可以指出，谢谢大家！整理不易，喜欢点赞！