[论文分享]Pedestrian attribute recognition based on attribute correlation

Pedestrian attribute recognition based on attribute correlation

行人属性识别广泛应用于行人跟踪和行人重识别。

两项最基本的挑战:

  1. 多标签性质
  2. 数据样本的差异性特征,例如类别不平衡和部分遮挡。

不同方法的示意图:
在这里插入图片描述

此项工作中,作者提出了一种交叉属性和特征网络(Cross Attribute and Feature Network,CAFN),它充分利用任意一对属性之间的相关性进行行人属性识别,以应对这些挑战。

  1. CAFN包含两个模块:跨属性注意力模块(Cross-attribute Attention Module ,C2AM)和跨特征注意力模块(Cross-feature Attention Module,CFAM)
  2. C2AM使网络在训练过程中自动学习关系矩阵,可以量化属性集中任意一对属性之间的相关性,并引入CFAM来融合不同的属性特征,生成更准确、鲁棒的属性特征。

方法介绍

网络整体架构,可以看到:CAFN 中包含了 CFAM 模块,CFAM 中包含了 C2AM 模块。
在这里插入图片描述
换句话说,从上面的架构图中,可以看到作者提出的 C2AM 模块(跨属性注意力模块),特别像 transformer 中的 self-attention 模块。作者通过实验说明其可以更高的构建跨属性注意力。
然后,其 CFAM 模块(跨特征注意力模块)有点像多头注意力的多头。作者在论文中用 h 表示,h=4。

损失函数

作者使用的是 加权二元交叉熵损失函数:
在这里插入图片描述

实验结果

为了验证所提出模型的有效性,作者分别在三个公共数据集 PETA、RAP 和 PA-100K 上进行了实验。

先介绍一下这三个数据集

  • PETA 数据集[25]包含 8705 名行人,总共 19,000 张图像(分辨率范围从 17×39 到 169×365)。每个行人都标记有 61 个二元属性和 4 个多类属性。然而,根据既定协议,某些属性将不会被使用。我们只使用 35 个正标签比例高于 5% 的属性。另外,采用与[18]相同的方法划分PETA数据集,训练、验证和测试集中的图像数量分别为9500、1900和7600。
  • RAP数据集[26]是从真实的室内环境中收集的。共使用26个摄像机采集监控场景图像,共41585个样本,分辨率范围为 36×92
    至 344×554 。具体来说,有33,268张训练图像和8317张测试图像。每个图像样本包含 72 个细粒度属性(69 个二元属性和 3 个多类属性)。然而,我们只利用了 51 个正标签比例高于 1% 的属性。
  • PA-100K数据集[16]由598个真实室外监控摄像头拍摄的图片组成。总共有 100,000 个样本,每个样本图像的分辨率在 50×100
    和 758×454 之间。 PA-100K数据集是迄今为止最大的行人属性识别数据集。整个数据集按照8:1:1的比例随机分为训练集、验证集和测试集。数据集中的每个图像都标有 26 个属性。

在这里插入图片描述

在这里插入图片描述

定量分析

图5给出了来自PETA数据集的三个不同视角的示例,用于定性分析。正如我们所看到的,所提出的 C2AM 和 CFAM4
可以成功识别年龄、性别、服装、鞋类和其他属性。第一个例子中,行人的服装不利于性别判断,但长发属性有助于性别属性的识别。在第二个例子中,行人服装的下半部分被部分遮挡,但上半部分的服装属性有助于正确识别下半部分的服装属性。第三个例子中还提供了一个失败案例。由于短袖和短裤之间的相关性,C2AM 错误地将裤子识别为短裤。然而,错误的预测在 CFAM4
中得到了很好的纠正。

在这里插入图片描述

提出利用属性之间的相关性来辅助每个属性的检测和识别。为了获得相关性信息,我们让网络学习属性之间的关系矩阵来量化属性集中的每一对属性。这部分可视化收敛后网络中学习到的关系矩阵,如图6所示。颜色越亮,相关性越大。可以看出,关系矩阵学习了更多抽象信息,例如图6a中男性和长发之间存在明显的相关性。网络CAFN会同时学习多个不同的关系矩阵,共同完成最终的属性识别。图6b中的另一个关系矩阵突出了短袖和短裤之间的相关性,而图6c中的另一个关系矩阵突出了运动鞋和鞋子之间的相关性。

在这里插入图片描述

结论

在本文中,考虑如何利用任意属性对之间的相关性,作者提出了一种用于行人属性识别的新颖架构 CAFN。它包含两个基本模块:跨属性注意模块和跨特征注意模块。由于两个模块之间的合作,CAFN的性能得到了提升。作者在三个公共数据集(PETA、RAP、PA-100K)上进行了实验,并取得了令人信服的结果。实验结果表明网络 CAFN 优于大多数现有方法。此外,大量的实验验证了网络中两个关键模块的有效性。未来,关注如何在多模态视角下探索和挖掘图像与属性之间的相关性,可以进一步提高模型区分不同属性的能力是有意义的。

reference

本论文发表于 Multimedia Systems 期刊,

  • 影响因子:3.9
  • 中科院分区:计算机科学 4区

[1] ZHAO R, LANG C, LI Z, et al. Pedestrian attribute recognition based on attribute correlation[J/OL]. Multimedia Systems, 2022, 28(3): 1069-1081. DOI:10.1007/s00530-022-00893-y.

猜你喜欢

转载自blog.csdn.net/orDream/article/details/132507732