深度学习----ＨＯＩ人物交互算法：ICAN

文章目录

一、引言
二、Related Work
三、Instance-Centric Attention Network

3.1 Algorithm overview
3.2 Instance-centric attention module
3.3 Multi-stream network
3.4 Efficient inference

4 Experimental Results

4.1 Experimental setup
4.2 Quantitative evaluation
4.3 Qualitative evaluation
4.4 Ablation study

5 Conclusions

论文：iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection
论文地址： https://arxiv.org/pdf/1808.10437.pdf
此文章为翻译篇,如要转载请附上该页链接

$~~~~~~~~$ 近年来，在检测和识别个体方面取得了迅速进展对象实例。但是，要了解场景中的情况，计算机需要认识到人类如何与周围物体互动。在本文中，我们解决了这个问题检测人 - 物体相互作用（HOI）的挑战性任务。我们的核心理念是一个人或一个对象实例的外观包含相关的信息提示图像的一部分用于促进交互预测。要利用这些线索，我们提出了一个以实例为中心的注意力模块，学习动态突出显示图像中的区域以每个实例的外观为条件。这样的关注基础网络允许我们有选择地聚合与识别HOI相关的功能。我们验证了所提出的网络对COCO和HICO-DET中的动词的功效数据集并表明我们的方法与现有技术相比具有优势。
在这里插入图片描述

一、引言

$~~~~~~~~$ 在过去几年中，视觉识别任务取得了快速进展，包括物体检测[8,10,27,34]，分割[5,11,18,28]和动作识别[6,9,13， 30,41]。但是，理解场景不仅需要检测单个对象实例，还需要识别对象对之间的视觉关系。一类特别重要的视觉关系检测是检测和识别每个人如何与周围物体相互作用。该任务称为人 - 人交互（HOI）检测[4,14,15,16]，旨在定位人，物体，以及识别人与物体之间的相互作用。在图1中，我们展示了HOI检测问题的一个例子。给定输入图像和来自对象检测器的检测到的实例，我们的目标是识别人类，动词，对象i的所有三元组。

$~~~~~~~~$ 为什么HOI？检测和识别HOI是朝着更深入理解场景迈出的重要一步。而不是“什么在哪里？”（即，在图像中定位对象实例），HOI检测的目标是回答“发生了什么？”的问题。研究HOI检测问题也为其他相关的高级视觉任务提供了重要线索，例如姿势估计[2,40]，图像字幕[24,39]和图像检索[21]。

$~~~~~~~~$ Why attention?在物体检测的进展[18,34]的推动下，最近的一些努力致力于检测图像中的HOI [4,14,16,35]。大多数现有方法使用人和物体的外观特征以及它们的空间关系来推断交互。除了仅使用来自人的外观特征之外，最近的动作识别算法利用来自图像的上下文提示。如图2所示，编码上下文的示例包括选择一个辅助框[13]，使用人类和对象边界框[29]的并集，提取人类姿势关键点周围的特征[6]，或者从整体中利用全局背景图像[31]。虽然结合上下文通常有助于提高性能，但这些手工设计的关注区域可能并不总是与识别动作/交互相关。例如，关注人体姿势可能有助于识别“骑行”和“投掷”等行为，参与交互点可以帮助识别涉及手 - 物体交互的行为，例如“喝杯子”和“用勺子吃饭”，以及参加背景可能有助于区分“用网球拍击中”和“击中棒球球棒”。为了解决这一局限性，最近的工作利用端到端的可训练注意力模块进行动作识别[9]或图像分类[20]。但是，这些方法是为图像级分类任务而设计的。

$~~~~~~~~$ 我们的工作。在本文中，我们提出了端到端可训练的以实例为中心的注意力学习使用人或外观突出信息区域的模块对象实例。我们的直觉是一个实例的外观（无论是人还是人object）提供关于图像中我们应该注意的位置的提示。例如，到更好地确定一个人是否携带物体，应该将其注意力集中在物体上人的手周围的区域。另一方面，给一个图像中的自行车，参加对附近人的姿势有助于消除所涉及的潜在交互的歧义与对象实例（例如，骑或骑自行车）。建议以实例为中心的**注意力网络（iCAN）**为每个检测到的人或对象动态生成注意力图实例突出显示与任务相关的区域。我们验证了我们网络的功效关于HOI检测的两个大型公共基准设计：COCO中的动词（V-COCO）[16]和人类与共同对象交互（HICO-DET）[4]数据集。我们的结果表明拟议的iCAN与周围的最新技术相比具有优势相对于现有的，V-COCO相对改善10％，HICO-DET相对改善49％表现最佳的方法。

在这里插入图片描述
贡献：
$~~~~~~~~$ ● 引入了一个以实例为中心的注意力模块，它允许网络动态突出信息区域以改进 HOI 检测。
$~~~~~~~~$ ● 在两个大型 HOI 基准数据集上取得了新的当前最佳性能。
$~~~~~~~~$ ● 进行了详细的对比实验和误差分析，以确定各个组成部分的相对贡献，并量化不同类型的错误。
$~~~~~~~~$ ● 发布了源代码和预训练模型，以促进将来的研究。

二、Related Work

$~~~~~~~~$ Object detection：物体检测[8,10,11,27,34]是场景理解的基本构件。我们的工作使用现成的更快的R-CNN [12,34]来定位人员和对象实例。给定检测到的实例，我们的方法旨在识别所有人对象实例对之间的交互。

$~~~~~~~~$ Visual relationship detection：最近的许多工作解决了检测视觉关系[1,7,19,22,23,32,43,44]和生成场景图[25,39,42]的问题。一些论文在[29,33]之前利用某些形式的语言来帮助克服大量关系主题 - 谓词 - 对象三元组和有限数据样本的问题。我们的工作重点是一类特殊的视觉关系检测问题：检测人 - 物体相互作用。 HOI检测对视觉关系检测提出了额外的挑战。以人为主体，与对象的交互（即谓词）比其他通用对象更精细和多样化。

$~~~~~~~~$ Attention：已经进行了广泛的努力以将注意力集中在动作识别[6,13]和人 - 对象交互任务[29,31]中。这些方法通常使用手工设计的注意区域来提取上下文特征。最近，已经提出了端到端可训练的基于注意力的方法来改进动作识别[9]或图像分类[20]的性能。但是，这些方法是为图像级分类任务而设计的。我们的工作建立在基于注意力技术的最新进展的基础上，并将其扩展到实例级HOI识别任务。

扫描二维码关注公众号，回复： 5448545 查看本文章

$~~~~~~~~$ Human-object interactions：检测HOI可以更深入地了解场景中的情况。 Gupta和Malik [16]首先解决了HOI检测问题 - 检测。
在这里插入图片描述
$~~~~~~~~$ 图3：建议模型的概述。所提出的模型包括以下三个主要流：
$~~~~~~~~$ ● （1）用于基于人类外观检测交互的人流;
$~~~~~~~~$ ● （2）基于对象外观预测交互的对象流;
$~~~~~~~~$ ● （3）用于编码人类和对象边界框之间的空间布局的成对流。给定由现成的更快的R-CNN检测到的对象实例，我们使用所有人 - 对对生成HOI假设。然后融合来自各个流的动作分数以产生最终预测，如右侧所示。

$~~~~~~~~$ 人们在做行动和他们正在互动的对象实例。将场景中的对象与各种语义角色相关联可以更精细地理解当前的活动状态。最近，Gkioxari等。 [14]通过基于检测到的人的外观在目标对象位置上引入特定于动作的密度图来扩展[16]中的方法。通过用ResNet-50 [17]和特征金字塔网络[27]取代特征骨干，也显示出显着改善的结果。除了使用对象实例外观，Chao等人。 [4]还用CNN编码人与物体之间的相对空间关系。我们的工作建立在HOI检测的这些最新进展的基础上，但具有关键的区别。现有工作基于个体线索（人类外观，物体外观或人 - 物体对之间的空间关系）识别交互。我们的主要观察是，这种预测不可避免地受到缺乏背景信息的影响。所提出的以实例为中心的注意模块提取与局部区域（例如，人/对象框）的外观特征互补的上下文特征，以促进HOI检测。

三、Instance-Centric Attention Network

3.1 Algorithm overview

（Instance-Centric Attention Network）
在本节中，我们将介绍用于HOI检测的以实例为中心的注意网络（图3）。我们首先概述了我们的方法（第3.1节），然后介绍了以实例为中心的注意模块（第3.2节）。接下来，我们概述了用于特征提取的三个主要流的细节（第3.3节）：人流，对象流和成对流。最后，我们描述了推理过程（第3.4节）。
在这里插入图片描述
$图4：iCAN模块。$
给定图像的卷积特征（以灰色显示）和人/物体边界框（以红色显示），iCAN模块也提取实例xh inst（对于人类）或xo inst（对象）的外观特征。作为以实例为中心的注意力图的特征。为了计算注意力图，我们测量了嵌入空间中的相似性以及512个通道的瓶颈[37,38]。具体来说，我们使用1×1卷积和实例外观特征x h inst将图像特征嵌入到完全连接的层中。这里，res5表示第五残差块，GAP表示全局平均合并层，FC表示完全连接的层。

$~~~~~~~~$ 我们的人 - 物交互检测方法包括两个主要步骤：1）物体检测和2）HOI预测。首先，给定输入图像，我们使用来自Detectron [12]的更快的R-CNN [34]来检测所有人/物体实例。我们将bh表示为检测到的人的边界框，并将bo表示为对象实例。我们使用sh等分别表示检测到的人和对象的置信度分数。其次，我们通过提出的以实例为中心的注意力来评估所有人 - 对象边界框对网络预测互动得分。图3显示了该模型的概述。
$~~~~~~~~$ 我们以与现有方法类似的方式预测HOI分数[14,16]。对于每个人 - 对象边界框对（ $b_h$ ， $b_o$ ），我们预测每个动作的得分 $S^a_ h$ ，oa∈{1，…，A}，其中A表示可能的动作的总数。得分 $S^a_h$ ，o取决于（1）单个对象检测的置信度（ $s_h$ 等），（2）基于人的外观 $s^a_h$ 和对象 $s^a_h$ 的交互预测，（3）基于人与物体之间的空间关系的分数预测 $S^a_{sp}$ 。具体来说，人类对象边界框对（ $b_h$ ， $b_o$ ）的HOI得分 $S ^ a_ {h,o}$ 具有以下形式：
在这里插入图片描述
对于一些不涉及任何对象的动作类（例如，walk，smile），我们使用动作分数 $s^a_h$ 仅来自人流。对于那些行动，我们的最终得分是 $s_h$ · $s^a_h$ .

Training:由于一个人可以同时对一个或多个目标对象执行不同的动作，例如，一个人可以同时“击中”并“抓住”网球拍，因此HOI检测是多标签分类问题，其中每个交互阶级是独立的，不是相互排斥的。我们为每个动作类别应用二进制sigmoid分类器，然后最小化动作分数 $s ^ a_h$ ， $s ^ a_o$ 或 $s ^ a_ {sp}$ 与每个动作类别的groundtruth动作标签之间的交叉熵损失。在下文中，我们介绍了我们的实例中心注意模块，用于从图像中提取信息特征，然后描述用于计算动作分数的多流网络体系结构 $s ^ a_h$ ， $s ^ a_o$ 和 $s ^ a_{sp}$ 。

3.2 Instance-centric attention module

$~~~~~~~~$ 在本节中，我们将介绍以实例为中心的注意模块，用于从图像中提取上下文特征。图4显示了使用人类作为清晰度的实例的详细过程。使用对象作为实例很简单。
我们首先使用标准过程提取实例级外观特征 $x ^ h_ {inst}$ ，例如，应用ROI池，通过残差块，然后是全局平均池。接下来，我们的目标是动态生成以感兴趣的对象实例为条件的注意力映射。为此，我们将实例级外观特征 $x ^ h_ {inst}$ 和卷积特征映射嵌入到512维空间中，并使用矢量点积测量该嵌入空间中的相似性。然后我们可以通过应用softmax获得以实例为中心的注意力图。注意图突出显示图像中的相关区域，其可以有助于识别与给定人/对象实例相关联的HOI。使用注意力图，我们可以通过计算卷积特征的加权平均值来提取上下文特征 $x ^ h_ {context}$ 。 iCAN模块的最终输出是实例级外观特征 $x ^ h_ {inst}$ 和基于注意力的上下文特征 $x ^ h_ {context}$ 的串联。
我们的iCAN模块与现有方法相比具有多种优势。首先，与基于姿势，整个图像或次要区域的手工设计的上下文特征不同，我们的注意力图被自动学习并与其余网络共同训练以改善性能。其次，与为图像级别分类设计的注意力模块相比，我们以实例为中心的注意力图提供了更大的灵活性，因为它允许根据不同的对象实例参与图像中的不同区域。

3.3 Multi-stream network

$~~~~~~~~$ 如图3所示，我们的网络使用三个流来计算基于人类外观 $s ^ a_h$ ，对象外观 $s ^ a_o$ 及其空间关系 $s ^ a_ {sp}$ 的动作分数。
$~~~~~~~~$ Human/object stream：对于人类和对象流，我们提取1）一个人的实例级外观特征 $x ^ h_ {inst}$ 或一个对象的 $x ^ o_ {context}$ 和2）上下文特征 $x ^ h_ {context}$ （或 $x ^ o_ {context}$ ）基于注意图，遵循3.2节和图4中概述的步骤。使用两个特征向量，我们然后连接它们并将其传递通过两个完全连接的层以产生动作得分 $s ^ a_h$ 和 $s ^ a_o$ 。来自人流的得分 $s ^ a_h$ 还允许我们检测不涉及任何对象的动作，例如步行，微笑。

$~~~~~~~~$ Pairwise stream：虽然人类和对象外观特征包含用于识别交互的强烈提示，但仅使用外观特征经常导致合理但不正确的预测。为了对人与物之间的空间关系进行编码，我们采用[4]中的双通道二值图像表示来表征交互模式。具体来说，我们将这两个框的并集作为参考框，并构建一个二进制图像，其中包含两个通道。第一个通道在人类边界框中的值为1，在其他地方的值为0;第二个通道在对象边界框中的值为1，在其他位置的值为0。然后，我们使用CNN从这个双通道二进制图像中提取空间特征。然而，我们发现由于粗糙的空间信息（仅两个边界框），该特征本身不能产生准确的动作预测。为了解决这个问题，我们将空间特征与人类外观特征 $x ^ h_ {inst}$ 连接起来。我们的直觉是，人的外观可以极大地帮助消除具有相似空间布局的不同动作，例如骑行与骑自行车。

3.4 Efficient inference

$~~~~~~~~$ 继Gkioxari等人之后。 [14]我们以级联方式计算三胞胎的得分。我们首先分别为每个框 $b_h$ 和 $b_o$ 计算人类和对象流动作分类头的分数。第一步对于n个人/对象实例具有 $O（n）$ 的复杂度。第二步骤包括所有可能的人为对象对计算分数。虽然第二步具有 $O（n ^ 2）$ 的复杂度，但是计算得分 $S ^ a_ {h，o}$ 是非常有效的，因为它涉及对来自人流 $s ^ a_h$ 和对象流的一对得分求和。 $s ^ a_o$ （已在第一步中计算和缓存）。
$~~~~~~~~$ Late vs. early fusion：我们使用成对求和分数方法作为后期融合的方法（因为动作分数首先从人/物流中独立预测，然后再加总）。我们还实现了早期融合的iCAN变体。具体来说，我们首先连接人类iCAN，对象iCAN和成对流的所有特征，并使用两个完全连接的层来预测动作得分。与晚期融合不同，早期融合方法需要评估来自所有人 - 物对的分数，因此具有较慢的推理速度，并且对于具有许多对象的场景不能很好地缩放。

4 Experimental Results

$~~~~~~~~$ 我们评估了我们提出的iCAN模型的性能，并与两个大型HOI基准数据集的最新技术进行了比较。其他结果，包括详细的分类性能和错误诊断，可以在补充材料中找到。源代码和预先训练的模型可在我们的项目页面上找到。

4.1 Experimental setup

$~~~~~~~~$ Datasets：V-COCO [16]是提供HOI注释的COCO数据集[26]的子集.V-COCO包括总共10,346个包含16,199个人类实例的图像。每个人都注释了26个不同动作的二进制标签向量（其中每个条目指示该人是否正在执行某个动作）。每个人可以同时执行多个动作，例如，坐在椅子上时拿着杯子。 HICO-DET [3]是HICO数据集的子集[3]。 HICO-DET包含超过80个对象类别的600个HOI类别（与[26]相同），并提供超过150K个注释的人 - 对对实例。

$~~~~~~~~$ Evaluation metrics：我们使用V-COCO和HICO数据集的常用角色平均精度（角色mAP）[16]来评估HOI检测性能。目标是检测代理和动作的各种角色中的对象，表示为<human，verb，object>。如果检测到的三元组具有正确的动作标签，则将其视为真阳性，并且预测的人类和对象边界框 $b_h$ 和 $b_o$ 都具有IoUs≥0.5w.r.t地面实况注释。

$~~~~~~~~$ Implementation details：
在这里插入图片描述

4.2 Quantitative evaluation

$~~~~~~~~$ 我们根据表1中V-COCO的AProle和表2中的HICO-DET提供总体定量结果。对于V-COCO，建议的以实例为中心的注意力网络比竞争方法实现了相当大的性能提升[14,16,22]]。对于HICO-DET，我们还证明了我们的方法优于现有方法[4,14,35]。根据评估协议[4]，我们报告了对两种不同设置的所有，罕见和非罕见交互的定量评估：“默认”和“已知对象”。与[14]相比，我们在“默认”设置的完整类别下，在性能最佳的模型（InteractNet）[14]上获得了4.90分的绝对增益。这相当于49.3％的相对改善。

4.3 Qualitative evaluation

HOI检测结果。在这里，我们显示了V-COCO数据集和HICO-DET数据集上的样本HOI检测结果。我们分别用红色和蓝色边界框突出显示检测到的人体和物体。图5显示我们的模型可以预测各种不同情况下的HOI。图6显示我们的模型能够预测来自同一类别的对象的不同动作。图7给出了检测与不同对象交互的人的两个例子。
在这里插入图片描述

4.4 Ablation study

在这里插入图片描述

5 Conclusions

$~~~~~~~~$ 在本文中，我们提出了一个用于HOI检测的以实例为中心的注意模块。我们的核心思想是学习使用人物和物体实例的外观从图像中突出信息区域，这使我们能够收集相关的上下文信息，从而促进HOI检测。我们验证了我们的方法的有效性，并且与两个HOI基准数据集上的现有技术相比，显示出相当大的性能提升。在这项工作中，我们考虑以类为主的以实例为中心的注意力。我们认为，以实例为中心的阶级关注是一个充满希望的未来方向