iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记

摘要

本文研究场景图中人-物交互问题。其核心思想是人或物体实例的外观包含指示线索,利用这些信息可以注意到图像中可以促进交互预测的部分。为了利用这些线索,研究者提出了一个以实例为中心的注意力模块,学习根据每个实例的外观动态突出显示图像中的区域。这种基于注意力的网络允许研究者选择性地聚合与识别 HOI相关的特征。

一、引言

HOI:人-物交互检测,旨在定位人、物体并识别人与物体之间的交互。图 1 中展示了 HOI 检测问题的一个例子。给定输入图像和物体检测器检测到的实例,研究者的目标是识别出所有的“人-动词-物体”三元关系组。检测和识别 HOI 是朝着更深入理解场景迈出的重要一步。而不是“哪里有什么?”(即,在图像中定位物体实例),HOI 检测的目标是回答“发生了什么?”的问题。研究 HOI 检测问题也为其他相关的高级视觉任务提供了重要线索,例如姿态估计 [2,40],图像标注 [24,39] 和图像检索 [21]。

Why attention?  加入人体姿势可能有助于识别“骑行”和“投掷”等行为,加入交互点可能有助于识别涉及手 - 物体交互行为,例如“用杯子喝水”和“用勺子吃饭”,加入背景可能有助于区分“用网球拍击中”和“用棒球棍击中”。

本文提出了一种以实例为中心的端到端可训练注意力模块,学习使用人或物体实例的外观来突出信息区域。实例(人或物体)的外观暗示了我们应该注意图像中的哪些位置。例如,为了更好地确定一个人是否拿有物体,应该将注意力集中在人手周围。另一方面,对于图像中的自行车,知道附近人的姿势有助于消除关于物体实例(例如,骑或推自行车)的潜在交互的歧义。本文提出的以实例为中心的注意力网络(iCAN)动态地为每个检测到的人或物体实例生成注意力映射,突出显示与该任务相关的区域。

贡献:

  • 引入了一个以实例为中心的注意力模块,它允许网络动态突出信息区域以改进 HOI 检测。
  • 在两个大型 HOI 基准数据集上取得了新的当前最佳性能。
  • 进行了详细的对比实验和误差分析,以确定各个组成部分的相对贡献,并量化不同类型的错误。
  • 发布了源代码和预训练模型,以促进将来的研究。

二、相关工作

对象检测:是场景理解的基础。本文使用现有的 faster R-CNN来定位人和物体实例。

视觉关系检测:。。。

Attention:。。。

Human-object interactions :。。。

三、以实例为中心的注意力网络(Instance-Centric Attention Network)

模型概述。研究者提出的模型包括以下三个主要流:(1)基于人类外观检测交互的人流; (2)基于物体外观预测交互的物体流;(3)用于编码人类和物体边界框之间的空间布局的配对流。基于现有的 Faster R-CNN 检测到的对象实例,使用所有的人 - 物体对生成 HOI 假设。然后融合来自各个流的动作分数以产生最终预测。

3.1    方法概述

主要包括两步:

(1)对象检测:用faster R-CNN预测所有的人/对象实例。

          b_{h}:detected bounding box for a person.  

          b_{o}:an object instance.

          s_{h}s_{o}:the confidence scores for a detected person and an object, respectively. 

(2)HOI预测:使用以实例为中心的注意力网络评估每个 人-对象对的交互得分。

Inference. 预测HOI得分类似于现有方法[14, 16],对于每个 人-对象对(b_{h}b_{o})和每一个a ∈ {1, · · · , A}(所有可能的动作),预测S_{h, o}^{a}得分。S_{h, o}^{a}得分依赖于:(1)单个对象检测的置信度(s_{h}s_{o});(2)基于人和物体的外观的交互预测(s_{h}^{a}s_{o}^{a});(3)基于人与对象之间的空间关系的分数预测s_{sp}^{a}。所以,S_{h, o}^{a}为:

有一些动作类别不包含交互对象(walk, smile... ...):S_{h, o}^{a}=s_{h}*s_{h}^{a}

Training. 由于一个人可以同时对一个或多个目标物体执行不同的动作,例如,一个人可以同时“用网球拍打”和“握住”网球拍,因此HOI检测是一个多标签分类问题,其中每个交互类是独立的,并且不是相互排斥的。我们对每个动作类别应用binary sigmoid分类器,然后最小化每一个动作类别的得分s_{h}^{a}s_{o}^{a}s_{sp}^{a}和真实的动作标签之间的交叉熵损失. (We apply a binary sigmoid classifier for each action category, and then minimize the cross-entropy loss between action score s_{h}^{a},, s_{o}^{a}, or s_{sp}^{a} and the ground-truth action label for each action category. )

3.2    以实例为中心的注意力模块

iCAN 模块。给定图像的卷积特征(以灰色显示)和人/物体边界框(以红色显示),iCAN 模块提取实例(人类或物体)的外观特征以及来自以实例为中心的注意力映射的特征。为了计算注意力映射,研究者使用 512 个通道的 bottleneck 来评估嵌入空间中的相似性 [37,38]。具体来说,研究者用 1×1 卷积和实例外观特征将图像特征嵌入到全连接层中。这里的 res5 表示第五个残差块,GAP 表示全局平均池化层,FC 表示全连接层。

我们首先使用标准过程提取实例级外观特征x_{inst}^{h},ROI polling,res5,GAP。

接下来的目标是动态生成感兴趣的对象实例的注意力映射。为此,将实例级外观特征x_{inst}^{h}和卷积特征映射嵌入到512维空间中,并使用向量点积来测量该嵌入空间中的相似性。然后通过使用softmax获得以实例为中心的注意力映射。注意力映射突出显示图像中的相关区域,其可以有助于识别与给定人/物实例相关联的HOI。 使用注意力映射,我们可以通过计算卷积特征的加权平均值来提取上下文特征x_{context}^{h}

iCAN模块的最终输出是实例级外观特征x_{inst}^{h}和基于注意力的上下文特征x_{context}^{h}的连接(concatenation?)。

优点:Our iCAN module offers several advantages over existing approaches. First, unlike hand-designed contextual features based on pose [6], the entire image [31], or secondary regions [13], our attention map are automatically learned and jointly trained with the rest of the networks for improving the performance. Second, when compared with attention modules designed for image-level classification, our instance-centric attention map provides greater flexibility as it allows attending to different regions in an image depending on different object instances.  自动学习上下文特征;灵活。

3.3    Multi-stream network 

Human/object stream.    按照3.2和图4中概述的步骤,提取1)一个人的实例级外观特征x_{inst}^{h}或物的实例级外观特征x_{inst}^o和2)基于注意力映射的上下文特征x_{context}^{h}(或x_{context}^{o})。将两个特征向量连接起来,并通过两个全连接层来生成动作得分s_{h}^{a}s_{o}^{a}。来自人类流的分数s_{h}^{a}也允许我们检测不涉及任何物体的动作,例如,行走、微笑。

Pairwise stream.    虽然人和物体的外观特征包含识别交互的强烈提示,但是单独使用外观特征常常导致似是而非的预测。具体来讲,为了编码人和物体之间的空间关系,我们采用了[4]中的双通道二值图像表示来表征交互模式。我们将这两个盒子的并集作为参考框,并在其中构建一个具有两个通道的二值图像。第一通道在人类边界框内具有值1,在其他地方具有值0;第二通道在对象边界框内具有值1,在其他地方具有值0。然后,我们使用CNN从双通道二值图像中提取空间特征。然而,我们发现,由于粗略的空间信息(只有两个边界框),这个特征本身不能产生精确的动作预测。为了解决这个问题,我们将空间特征与人类外观特征x_{inst}^{h}连接起来。我们的直觉是,人的外观可以极大地帮助消除空间布局相似的不同行为的歧义,例如,骑自行车与推自行车。

3.4    Efficient inference 

四、实验

1、在两个大型 HOI 基准数据集上的效果优于当前最佳模型

2、在生活照中检测出各种形式的 HOI。模型检测到在不同情况下与人进行“骑”、“吃”、“躺”和“喝”交互的各种物体:

检测到对同一类别物体的不同类型的交互:

3、Ablation study

a) Contextual feature.  不适用任何上下文特征的baseline,convolutional features from the entire image,bottom-up attention map, and the proposed instance-centric attention map,表明上下文特征通常有助于提高HOI性能。

b) Human-centric vs. object-centric. 表明了以人为中心和以对象为中心的注意力映射的重要性

c) mAP vs. time vs. memory.  在mAP,时间,内存上的权衡

参考:机器之心 《 iCAN:以人为中心的“人-物”交互检测网络》

猜你喜欢

转载自blog.csdn.net/sunshine__0411/article/details/82968296