论文笔记之Learning Human-Object Interaction Detection using Interaction Points

直接预测人-物的交互点和交互向量(用于分组),再与人/物检测结果关联得到最终结果。
CVPR2020接收
论文地址:https://arxiv.org/abs/2003.14023

1. 摘要

理解人与物体之间的相互作用是视觉分类的基本问题之一,也是实现详细场景理解的重要步骤。人与物体之间的交互(HOI)检测力求既定位人与物体,又确定它们之间的复杂交互。 大多数现有的HOI检测方法都是以实例为中心的,其中基于外观特征和粗糙的空间信息来预测所有可能的人-物体之间的交互。 作者认为,仅外观特征不足以捕获复杂的人与物体的相互作用。因此,在本文中,作者提出了一种新颖的全卷积方法,该方法直接检测人与物体之间的相互作用。 网络会预测交互点,这些交互点可以直接对交互进行定位和分类。与密集预测的交互向量配对,这些交互与人类和物体检测相关联以获得最终预测。

2. 相关工作

在现有的人物交互(HOI)检测方法中,[Visual semantic role labeling]的工作是第一个探索视觉语义角色标记问题的方法。 该问题的目的是定位代理(人)和物体以及检测它们之间的交互。 [Detecting and recognizing human-object intaractions]的工作引入了一种以人为中心的方法,称为InteractNet,该方法扩展了Faster R-CNN框架,并带有一个附加分支,以了解目标位置上特定于交互作用的密度图。Qi等人[Learning human-object interactions by graph parsing neural networks]提出利用图卷积神经网络,并将HOI任务视为图结构优化问题。 Chao等人,[Learning to detect human-object interactions]建立了一个基于人对目标区域和成对交互分支的多流网络。 该多流架构的输入是来自预训练检测器(例如,FPN )和原始图像的预测边界框。 在这种多流体系结构中,人流和物体流基于从骨干网提取的外观特征,以生成关于检测到的人和物体边界框的置信度预测。另一方面,成对流通过将两个框(人和物体)结合起来,简单地编码人与物体之间的空间关系。以后的工作通过例如引入以实例为中心的注意力[iCAN:
Instance-centric attention network for human-object interaction detection],姿势信息[Transferable
interactiveness knowledge for human-object interaction detection]和基于上下文感知的外观特征的深层上下文注意力[Deep contextual attention for human-object interaction detection],扩展了上述多流体系结构。

传统方法计算昂贵,且仅根据外观特征和粗糙的空间信息不足以捕获复杂的交互作用。

3. 本文方法

3.1 总体结构

在这里插入图片描述
主要分为3个部分,特征提取部分、交互生成部分(生成交互点、交互向量)、交互分组部分(根据预测框,交互点,交互向量得到最终结果)。
Backone网络使用的是Hourglass网络,使用Faster RCNN + ResNet50-FPN获得预测框。
Hourglass网络输出的特征图大小为在这里插入图片描述,其中H,W是输入图像的高度和宽度,S是步幅,D是输出通道(S设置为4)。

交互点定义为人-物对的中心点,且是交互向量的起点。

3.2 交互生成

3.2.1 交互点分支

输入提取的特征,用单个3*3卷积,生成大小为在这里插入图片描述的交互点热图。C表示交互种类的数量。

训练时,交互点由人和物中心点生成的GT高斯热图监督,推理时采用高斯热图的峰值的top-k个点(cornernet中的方式)。

不同于目标检测的一个点只能代表一个物体,本文一个点可以为多个交互类别(人同时与多个物体交互)。

3.2.2 交互向量分支

在这里插入图片描述
交互向量分支预测指向人类中心点的交互向量在这里插入图片描述

交互点的定义:在这里插入图片描述
交互向量的定义:在这里插入图片描述
输入提取的特征,使用单个3*3卷积生成无符号交互向量图V,大小为在这里插入图片描述,两个值,一个作用于水平方向,一个作用于垂直方向。

推理时,根据下式,生成4个人类中心的可能位置:
在这里插入图片描述

3.3 交互分组

满足在这里插入图片描述条件的分为一组。

分组策略:
在这里插入图片描述
图中,四个绿色点由在这里插入图片描述计算出;紫色的四个点由人/物框确定;然后基于这八个点计算向量长度
在这里插入图片描述
然后以上的值满足下式则为正例:
在这里插入图片描述
d_t为过滤时的阈值。

算法表示:
在这里插入图片描述

3.4 训练

预测交互点的loss采用和anchor-free检测器一样的改动的focal loss:
在这里插入图片描述
N_p 是图中的交互点数量。

对于交互向量预测,使用在交互点P_k上的无符号交互向量的值在这里插入图片描述作为GT。这部分使用的是L1 loss:
在这里插入图片描述
V_pk是在点P_k预测的交互向量。

总的损失函数:
在这里插入图片描述
λ_v设置为0.1.

4. 实验

检测分支在COCO上预训练,使用人的预测框置信度大于0.4,物体的预测框置信度大于0.1,设置的低是因为分组可以过滤掉大量的负例。

4.1 SOTA对比

V-COCO上
在这里插入图片描述
最后一行表示在HICO-DET上预训练,再在V-COCO上微调,测试。

HICO-DET上
在这里插入图片描述

4.2 消融实验

在这里插入图片描述
Angle-filter: 交互点p与人体中心点H和物体中心点O具有固定结构。过滤掉在向量PH和PO之间的小于阈值的HOI对。

Dist-ratio-filter: 在训练时,PH和PO的比例设置为1,过滤掉比例在max(PH,PO)和min(PH,PO)之间的HOI对。

交互分组策略分为两部分,interaction-box和corner-dist,来验证三个软约束在这里插入图片描述的效果。
interaction-box和corner-dist分别是前两个式子和最后一个式子。
发现仅仅interaction-box + interaction points就获得了巨大提升。再加上corner-dist也获得了挺大的提升。

Center pool
centernet中的中心池化,在交互点和交互向量之前使用,略有改善性能。
在这里插入图片描述
稀有类和非稀有类的交互合适的分数阈值应该是不同的,因为稀有类样本较少,所以分数一般较低。因此动态阈值获得了不错的效果。

4.3 局限

  • 长尾类对于人物交互检测具有较大挑战。
  • 多个HOI对不能共享相同的交互点,但这种情况很少见。

猜你喜欢

转载自blog.csdn.net/haha0825/article/details/107574048
今日推荐