人物交互(human object interaction)论文汇总-2019年

1. Relation Parsing Neural Network for Human-Object Interaction Detection

1.1 总述

提出一种关系解析神经网络RPNN,由两部分组成:物体-身体部位图和人体-身体部位图,前者捕获身体部位与周围物体的关系,后者推断人体与身体部位的关系,并组合身体部位上下文信息以预测动作。这两个图由动作传递机制关联。

总的来说,网络基于人的特征预测动作发生的位置(参与交互物体的位置)的密度;基于物体特征预测每个动作的物体与人之间交互的概率。

1.2 网络结构

在这里插入图片描述
首先输入图像到Mask RCNN进行检测边界框和关键点,然后基于人框和关键点构建身体部位框,接着使用ROI Align提取人框的、物体框的、身体部位框的特征。然后使用这些特征构建Human-Bodypart Graph和Object-Bodypart Graph。然后通过消息传递更新Object-Bodypart Graph,细化后的Object-Bodypart Graph的细化的身体部位结点特征送入Human-Bodypart Graph以初始化该图中的身体部位结点,接着通过消息传递更新Human-Bodypart Graph。最终两个图分别得到细化特征 f h ′ f_{h}^{\prime} fh o h ′ o_{h}^{\prime} oh f h ′ f_{h}^{\prime} fh特征用于预测动作概率以及动作发生的位置密度 g ( h , o ) a g_(h,o)^a g(h,o)a o h ′ o_{h}^{\prime} oh用于预测交互概率。最终的交互得分 S ( h , o ) a = S h ∗ S o ∗ S h a ∗ g ( h , o ) a S_(h,o)^a=S_h*S_o*S_h^a*g_(h,o)^a S(h,o)a=ShSoShag(h,o)a(同18年论文Detecting and Recognizing Human-Object Interactions)。

1.3 实验

在HICO-DET上获得了17.35的mAP;在VCOCO上获得了47.53的mAP。

2. Deep Contextual Attention for Human-Object Interaction Detection

2.1 总述

现有方法依靠人和物体的外观,忽略了上下文信息,而上下文信息对于交互检测很重要,全局上下文通过确定是否存在特定物体类别来提供有价值的图像级信息,除此外,每个人/物实例附近的上下文信息提供了其他线索来区分不同的交互作用。因此,本文提出一种用于人与交互检测的上下文关注框架。通过学习人和物体实例上的上下文感知外观特征来利用上下文信息,接着提出注意力模块选择相关的以实例为中心的上下文信息,以突出显示可能包含人与物体交互作用的图像区域。

2.2 网络结构

在这里插入图片描述
总体为多流体系结构,包括定位和交互两个阶段,包括人分支、物分支、成对分支三个分支。对于定位,使用Detectron with a ResNet-50-FPN来获得人和物体边界框的预测。对于交互预测,融合了来自人类,物体和成对流的得分。最主要的是在人分支和物体分支中引入了上下文感知的外观特征和上下文注意力模块。通过融合来自人类,物体和成对流的得分来获得最终的交互预测。

2.3 Contextually-Aware Appearance Features

(1)Context aggregation block
图片层级的CNN外观表示有效感受野较小,忽略了较大感受野的全局上下文信息。上下文聚合块旨在捕获更大的视野(field-of-view,FOV),以将上下文信息集成到以实例为中心的外观特征中,同时保留空间信息。捕获较大FOV的一种直接方法是通过全连接(FC)层或级联的扩展卷积。但是,前者会破坏空间尺寸,而后者会产生稀疏特征。因此,本文的上下文聚合块采用了以前用于语义分割的大型卷积核(LK)。

(2)Local encoding block
除了上下文聚合,上下文感知外观模块还包含一个本地编码块。本地编码块旨在通过对相对空间位置的位置信息进行编码,在每个边界框ROI区域中保留对位置敏感的信息。

已有方法是在标准CNN特征图上直接采用1×1卷积,本文取而代之的是,根据从上下文聚合模块中获得的上下文CNN特征图,在每个ROI区域中对位置敏感信息进行编码。此外,将PSRoIAlign与最大池化一起使用。 PSRoIAlign用于通过双线性插值减少PSRoIpooling引起的粗略量化的影响。因此,本地编码块的输出将被展平并通过一个全连接层,以获得上下文的外观特征 f a p p f_{app} fapp

2.4 Contextual Attention

在这里插入图片描述
并非所有的上下文外观特征都对HOI检测有用,此外,整合无意义的背景噪声还会造成不好的影响。所以引入注意力识别有用的上下文信息。
人类/物体流中的上下文注意力模块由自下而上的注意力和注意力细化组件组成。

自下而上的注意力图是使用对外观和上下文进行编码的上下文感知外观特征 f a p p f_{app} fapp生成的。 f a p p f_{app} fapp首先通过1*1卷积得到A,然后 f a p p f_{app} fapp*A后送入softmax,结果再与A相乘得到自下而上的注意力特征图 F m F_m Fm

注意力细化组件包含空间上的细化和通道上的细化。空间上的细化为 F m F_m Fm经过1*1卷积后再经过softmax然后与 F m F_m Fm相乘得到空间细化特征;通道上的细化为 F m F_m Fm经过GAP后再经过SE模块得到通道细化特征。最终的细化特征 f r f_r fr为这两个的融合。

最后将细化特征 f r f_r fr与上下文感知外观特征 f a p p f_{app} fapp结合得到最终的特征表示,然后经过两个全连接层得到交互预测。

2.5 实验

在HICO-DET上获得了16.24的mAP;在VCOCO上获得了47.3的mAP。

3. Transferable Interactiveness Knowledge for Human-Object Inetraction Detection

3.1 总述

在本文中,作者探讨了交互性知识,该知识指示人与物体是否相互交互。作者发现,无论HOI类别设置如何,都可以跨HOI数据集学习交互性知识。
因此本文的核心思想是利用交互性网络从多个HOI数据集中学习一般的交互性知识,并在进行HOI分类之前进行非交互抑制。考虑到交互的普遍性,所以交互性网络是可转移的,可以与任何HOI检测模型配合使用以获得理想的结果。

3.2 网络结构

在这里插入图片描述
主要分为三个部分:R(提取特征)、P(交互性网络,学习交互性,进行非交互抑制)、C(多分支HOI分类网络执行HOI分类)。CNN Block为残差块。P的人分支和物体分支与C的共享参数(图中虚线连接的)。

训练时,P和C一起训练,因为通常情况下非交互的实例的比例较大,所以P能提供一个强大的监督信号来优化网络。

测试时,P分为两个阶段使用:
(1)利用学习到的交互性知识来评估边缘的交互性;
(2)综合P和C的HOI得分进行分类

3.3 交互性知识学习部分(P)

首先将人分支、物体分支以及空间图和姿态信息分支的三个特征进行拼接,经过全连接层后得到交互性预测分数(是否存在交互的分数),然后与目标检测得分经过LIS函数后的得分融合用以判断该人物对是否存在交互,若不存在交互则传到C部分进行非交互抑制(NIS)。

LIS函数为低级实例抑制函数,以目标检测得分作为输入,强调高等级的人、物体,低级的(低置信度)边界框具有低权重。

3.4 实验

最高AP的训练模式为在两个数据集上训练交互性知识学习网络,在HICO-DET上获得了17.22的mAP;在VCOCO上获得了48.7的mAP。说明了HOI知识良好的可传递性和交互知识的有效性。

此外,NIS后非交互实例数量下降明显,说明NIS的有效性。

4. Pose-aware Multi-level Feature Network for Human Object Interaction Detection

4.1 总述

目前的方法都是从整体出发,进行一些粗略的推理,而很多交互是由细粒度动作定义的,现有方法缺少细粒度信息。本文以此出发,从全局和局部两个方法考虑,提出了一种多层次的交互检测策略,该策略利用人的姿态信息来捕捉交互关系的全局空间结构,并作为一种注意机制来动态地放大人的局部相关区域。

4.2 网络结构

在这里插入图片描述
网络由四个主要模块组成:主干模块、Holistic模块(实例级别)、Zoom-in模块(部件级别)和融合模块。

给定一幅图像,主干模块计算其卷积特征图,生成人体物体建议和空间配置。对于每个proposal,Holistic模块集成了人、物体及其联合特征,以及人类姿势和物体位置的编码。Zoom-in模块提取人体部分和物体特征,并从姿势布局中产生部分级别的注意,以增强相关的部分提示。融合模块将整体和部分级别的表示结合起来,生成HOI类别的最终分数。

4.3 Holistic module

在这里插入图片描述
该部分为常见的多分支结构,从整体来考虑交互检测。输入人框、物体框、联合框以及姿态信息,最后将四个分支的输出进行融合得到最终的实例级别的特征。

4.4 Zoom-in module

在这里插入图片描述
虽然Holistic module为交互提供了粗略的整体层次信息,但许多交互类型是在细粒度的层次上定义的,这需要详细的人的部位或物体的局部信息。因此设计了一个Zoom-in模块来放大人体部位以提取零件级特征。该模块由三个组件组成:

(1) 旨在提取细粒度人体部件特征的部分裁剪组件:
为K个人体姿态关键点中每一个关键点定义一个局部区域,以该关键点为中心,大小与人体框成比例,使用ROI Align提取K个关键点框的特征,缩放到统一大小。同样使用ROI Align提取物体框的特征。

(2) 将空间信息分配给人体部件特征的空间对齐组件:
许多交互行为都与人体各部位和物体的空间结构有很强的相关性,可以通过人体各部分和物体之间的相对位置进行编码。例如,如果目标物体靠近“hand”,则交互更可能是“hold”或“carry”,而不太可能是“kick”或“jump”。在此基础上,作者引入(x,y)坐标作为相对于物体中心的空间偏移作为每个身体部分的附加空间特征。由两通道组成,分别为x和y坐标。对该特征在K个人体区域上以及物体框上应用ROI Align得到的特征再分别与1)中K个身体特征以及物体特征拼接作为新的K个人体部位特征以及新的物体框特征。

(3) 语义注意力部分,增强与交互相关的人类部分特征,抑制不相关的特征:
语义注意力网络由两个全连接层组成。在第一层之后采用ReLU层,在第二层之后使用Sigmoid层将最终预测规范化为[0,1]。语义注意力用于按元素相乘对K个人体部位特征进行加权。
最后,将所有人体部位特征和物体特征连接起来得到部件级特征,并将其传到多个全连接层(FC)以提取最终的部件级特征。

4.5 融合模块

首先,它使用实例级别的特征作为上下文提示来确定是否存在针对人-物体建议的任何交互关系。这可以抑制许多背景上的人物对,提高检测精度。
具体地说,将实例级别特征引入一个网络分支,该分支由一个两层全连接的网络和一个Sigmod函数构成,该网络分支产生一个交互作用的亲和度得分SG。其次,融合模块利用实例级和部件级拼接的特征来确定基于细粒度表示的交互得分SL。最后,将上面定义的这两个分数进行融合,以获得最终的针对人-物对提议的交互分数。

4.6 实验

在HICO-DET上获得了17.46的mAP;在VCOCO上获得了52.0的mAP。

猜你喜欢

转载自blog.csdn.net/haha0825/article/details/109556551