论文阅读笔记（三十）【CVPR2020】：High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identiﬁcation

参考旷视研究院推文【传送门】

Introduction

（1）Motivation：

遮挡行人重识别（Occluded Person ReID）更具有挑战性：

① 受到遮挡的影响，图像的判别信息更少，更容易匹配到错误的行人；

② 基于身体部位之间的特征信息做匹配虽然有效，但在被遮挡的情况下难以进行严格的部位对齐。

当前提出的针对遮挡或具体部位的ReID方法，基本只是考虑了特征学习和对齐的一阶信息，比如预先定义的区域、姿态、行人解析。

（2）Contribution：

图1(b)Vanilla方法：提取关键点区域的局部特征，并假设所有关键点准确且局部特征对齐良好。在这里，所有三个阶段（特征提取、对齐、匹配）都依赖于关键点的一阶信息，鲁棒性不强。

图1(c)作者方法：在特征学习阶段，通过将一张图像的一组局部特征视为图（graph）的节点（node）来学习关系信息。通过在图中传递信息，因关键点被遮挡而导致的无意义特征问题，可以通过其相邻的有意义的特征进行改善。在对齐阶段，使用图匹配算法（graph matching）来学习鲁棒的对齐能力。这种方法除了能用点到点的对应关系进行对齐外，它还能对边到边的对应关系进行建模

作者提出了一个联合建模高阶关系和人体拓扑信息的新框架，如下图所示：

① 一阶语义模块（S）：首先利用CNN backbone学习特征图，用人体关键点估计模型来学习关键点，然后，提取对应关键点的语义信息；

② 高阶关系模块（R）：人们将习得的图像语义特征看作图的节点，然后提出了一个方向自适应的图卷积层（ADGC/Adaptive-Direction Graph Convolutional）层来学习和传递边缘特征信息。ADGC层可以自动决定每个边的方向和度。从而促进语义特征的信息传递，抑制无意义和噪声特征的传递。最后，学习到的节点包含语义和关系信息。

③ 高阶人类拓扑模块（T）：提出一个跨图嵌入对齐（CGEA/cross-graph embedded-alignment）层。它以两个图（graph）作为输入，利用图匹配策略学习其之间节点的对应关系，然后将学习到的对应关系视为邻接矩阵来传递信息。正因如此，相关联的特征才能被增强，对齐信息才能被嵌入到特征中去。最后，为了避免强行一对一对齐的情况，研究员会通过将两个图映射到到一个logit模型并用一个验证损失进行监督来预测其相似性。

The Proposed Method

（1）语义特征提取：

假设行人图片为 x，获取特征map为，关键点map为，两者通过外积计算，并进行全局平均池化，获得局部语义特征和全局特征：

训练损失的计算：

表示第 k 个关键点的置信度，且。用表示属于正确id的概率，表示正样本对之间的距离，损失函数为：

（2）高阶关系学习：

采用了图卷积（graph convolutional network，GCN）【传送门】来建模高阶关系信息。在GCN中，不同关键点区域的语义特征被视为节点。通过在节点之间传递信息，一阶语义信息（节点特征）和高阶特征（边特征）都可以被照顾到。虽然如此，被遮挡的ReID还是存在一个问题，即被遮挡区域的特征经常是无意义甚至噪声干扰。当在这些特征再图中进行传递时，甚至可能带来更多噪声，对被遮挡ReID产生副作用。因此，研究员新提出了一个方向自适应的图卷积层（Adaptive Directed Graph Convolutional Layer，ADGC），用它来动态学习信息传递的方向和degree。借助它，研究员可以自动抑制无意义特征信息，促进有效语义特征信息的传递。

① ADGC：

作者用局部特征和全局特征的差异度来评估权重，差异小的局部特征更有意义（也就是说偏离全局特征的关节点可能是被遮挡的或者是噪声），由此得到一个边的权重矩阵，用于控制信息的传递，图卷积计算为：

最后用多个ADGC级联成高阶关系模块，即：

② 损失函数：

采用分类损失和三元组损失，类似上文：

③ 相似度度量：

给出两张行人图片(x₁,x₂)，关系信息特征分别为：、，相似度为：

（3）高阶人类拓扑学习：

一种简单的对齐策略是直接去匹配同样关键点之间的特征。然而这种一阶对齐策略并不能应对异常值，特别是当画面人物有大面积遮挡的情况。相反，图匹配策略（graph matching）可以自然地将人体拓扑的高阶信息也考虑进去。但它只能学习一对一的对应关系，导致这种硬对齐策略对于异常值仍然十分敏感，性能容易受到干扰。为此，研究员提出了一个跨图的嵌入对齐层，它不仅能够充分利用经图匹配算法习得的人体拓扑信息，还能避免来自一对一对齐的干扰。

① 图匹配【18年的深度学习图匹配论文：传送门】（没有深究，待学习）：

假设两张图片、对应得到的两张图为、，图匹配的目标是学习一个匹配矩阵，元素表示两个图的对应节点和的匹配程度，还考虑到了边的二阶相似度，元素表示两个图的对应边和，最终的优化目标为：