[论文分享]Pedestrian attribute recognition based on attribute correlation

Pedestrian attribute recognition based on attribute correlation

行人属性识别广泛应用于行人跟踪和行人重识别。

两项最基本的挑战：

多标签性质
数据样本的差异性特征，例如类别不平衡和部分遮挡。

不同方法的示意图：
在这里插入图片描述

此项工作中，作者提出了一种交叉属性和特征网络（Cross Attribute and Feature Network，CAFN），它充分利用任意一对属性之间的相关性进行行人属性识别，以应对这些挑战。

CAFN包含两个模块：跨属性注意力模块（Cross-attribute Attention Module ，C2AM）和跨特征注意力模块（Cross-feature Attention Module，CFAM）
C2AM使网络在训练过程中自动学习关系矩阵，可以量化属性集中任意一对属性之间的相关性，并引入CFAM来融合不同的属性特征，生成更准确、鲁棒的属性特征。

方法介绍

网络整体架构，可以看到：CAFN 中包含了 CFAM 模块，CFAM 中包含了 C2AM 模块。
在这里插入图片描述
换句话说，从上面的架构图中，可以看到作者提出的 C2AM 模块（跨属性注意力模块），特别像 transformer 中的 self-attention 模块。作者通过实验说明其可以更高的构建跨属性注意力。
然后，其 CFAM 模块（跨特征注意力模块）有点像多头注意力的多头。作者在论文中用 h 表示，h=4。

损失函数

作者使用的是加权二元交叉熵损失函数：
在这里插入图片描述

实验结果

为了验证所提出模型的有效性，作者分别在三个公共数据集 PETA、RAP 和 PA-100K 上进行了实验。

先介绍一下这三个数据集

PETA 数据集[25]包含 8705 名行人，总共 19,000 张图像（分辨率范围从 17×39 到 169×365）。每个行人都标记有 61 个二元属性和 4 个多类属性。然而，根据既定协议，某些属性将不会被使用。我们只使用 35 个正标签比例高于 5% 的属性。另外，采用与[18]相同的方法划分PETA数据集，训练、验证和测试集中的图像数量分别为9500、1900和7600。
RAP数据集[26]是从真实的室内环境中收集的。共使用26个摄像机采集监控场景图像，共41585个样本，分辨率范围为 36×92
至 344×554 。具体来说，有33,268张训练图像和8317张测试图像。每个图像样本包含 72 个细粒度属性（69 个二元属性和 3 个多类属性）。然而，我们只利用了 51 个正标签比例高于 1% 的属性。
PA-100K数据集[16]由598个真实室外监控摄像头拍摄的图片组成。总共有 100,000 个样本，每个样本图像的分辨率在 50×100
和 758×454 之间。 PA-100K数据集是迄今为止最大的行人属性识别数据集。整个数据集按照8:1:1的比例随机分为训练集、验证集和测试集。数据集中的每个图像都标有 26 个属性。

在这里插入图片描述

定量分析

图5给出了来自PETA数据集的三个不同视角的示例，用于定性分析。正如我们所看到的，所提出的 C2AM 和 CFAM4
可以成功识别年龄、性别、服装、鞋类和其他属性。第一个例子中，行人的服装不利于性别判断，但长发属性有助于性别属性的识别。在第二个例子中，行人服装的下半部分被部分遮挡，但上半部分的服装属性有助于正确识别下半部分的服装属性。第三个例子中还提供了一个失败案例。由于短袖和短裤之间的相关性，C2AM 错误地将裤子识别为短裤。然而，错误的预测在 CFAM4
中得到了很好的纠正。

在这里插入图片描述

提出利用属性之间的相关性来辅助每个属性的检测和识别。为了获得相关性信息，我们让网络学习属性之间的关系矩阵来量化属性集中的每一对属性。这部分可视化收敛后网络中学习到的关系矩阵，如图6所示。颜色越亮，相关性越大。可以看出，关系矩阵学习了更多抽象信息，例如图6a中男性和长发之间存在明显的相关性。网络CAFN会同时学习多个不同的关系矩阵，共同完成最终的属性识别。图6b中的另一个关系矩阵突出了短袖和短裤之间的相关性，而图6c中的另一个关系矩阵突出了运动鞋和鞋子之间的相关性。

在这里插入图片描述

结论

在本文中，考虑如何利用任意属性对之间的相关性，作者提出了一种用于行人属性识别的新颖架构 CAFN。它包含两个基本模块：跨属性注意模块和跨特征注意模块。由于两个模块之间的合作，CAFN的性能得到了提升。作者在三个公共数据集（PETA、RAP、PA-100K）上进行了实验，并取得了令人信服的结果。实验结果表明网络 CAFN 优于大多数现有方法。此外，大量的实验验证了网络中两个关键模块的有效性。未来，关注如何在多模态视角下探索和挖掘图像与属性之间的相关性，可以进一步提高模型区分不同属性的能力是有意义的。

reference

本论文发表于 Multimedia Systems 期刊，

影响因子：3.9
中科院分区：计算机科学 4区

[1] ZHAO R, LANG C, LI Z, et al. Pedestrian attribute recognition based on attribute correlation[J/OL]. Multimedia Systems, 2022, 28(3): 1069-1081. DOI:10.1007/s00530-022-00893-y.