CVPR2022《NFormer: Robust Person Re-identification with Neighbor Transformer》

在这里插入图片描述
论文链接：https://arxiv.53yu.com/pdf/2204.09331.pdf
代码链接：https://github.com/haochenheheda/NFormer

1. 动机

在这里插入图片描述
Re-ID的主要挑战之一是，由于外部因素，如不同的相机设置，灯光，视角，遮挡，或内在因素，如服装改变，任何个人的外观通常会发生显著变化。因此，在对应于特定个体的表征中存在高度的身份内变异，导致不稳定的匹配和对异常值的敏感性

2. 贡献

提出了一个 Neighbor Transformer Network (NFormer)，以有效地在训练和测试时建模所有输入图像之间的关系
提出了一个 Landmark Agent Attention (LAA)，通过在表示空间中引入少量landmark agent来减少亲和矩阵的计算量
提出Reciprocal Neighbor Softmax (RNS)函数，来实现稀疏attention，只关注计算上可管理的邻居。RNS显著地约束了不相关个体之间的噪声交互，使表示聚合过程更加有效和高效

3. 方法

在这里插入图片描述
整个架构主要由两部分组成：特征提取器和NFormer。其中，NFormer主要由两部分组成：Landmark Agent Attention (LAA)和Reciprocal Neighbor Softmax (RNS)。下面详细讲解一下LAA和RNS：

3.1 Landmark Agent Attention

LAA核心有两点：

将高维表示向量 $z$ 映射到低维编码空间，从而获得计算更加高效的近似亲和矩阵 $\tilde{A}$
在近似亲和矩阵 $\tilde{A}$ 上，利用Reciprocal Neighbor Softmax (RNS)强制对少数相关 attention weights进行稀疏化。即，从近似亲和映射 $\tilde{A}$ 上计算一个前k个邻居掩码 $M^k$ ，它将关注每行的前k个亲和值

具体地，如上图所示，对于输入 $\in R^{N \times d}$
1）首先在其上随机采样 $l$ 个样本，即 $z_l \in R^{l \times d}$ ；
2）然后利用三个不同的线性映射 $\varphi_{q(·)}$ , $\varphi_{k(·)}$ , $\varphi_{v(·)}$ 将输入 $z$ 映射成query(q)， key(k)和value(v)，即 $\in R^{N \times d}$ ，同时利用线性映射 $\varphi_{q(·)}$ , $\varphi_{k(·)}$ 将 $z_l$ 映射成 $q_l$ 和 $k_l$ 矩阵，其中 $q_l, k_l \in R^{l \times d}$ ；
3）接着，可以利用 $q_l$ 和 $k_l$ 矩阵将原始query和key映射到 $l$ -dim空间，即 $\tilde{q} = qk^⊤_l , \tilde{k} = kq^⊤_l$ ，其中 $\tilde{q}, \tilde{k} \in R^{N \times l}$ ， $\tilde{q}_{ij}, \tilde{k}_{ij}$ 表示表征向量 $\in \{1，…N\}$ 和landmark agent $\in \{1, . . . , l\}$ 之间的相似性。
4）最后，将大的亲和映射 $\in R^{N\times N}$ 的计算

分解为两个低秩矩阵 $\tilde{q}, \tilde{k}$ 的乘积

因此，获取亲和矩阵的乘法复杂度从 $O(N^2d)$ 显著降低到 $O(N^2l)$ 。在本文的实验中， $l$ 通常比 $d (l = 5, d = 256)$ 小得多。
作者实验展示了（如下图6所示），即使有少量的landmark agent，NFormer也能够稳定地运行

3.2 Reciprocal Neighbor Softmax

原始的softmax计算是聚合所有的样本，但是不相关样本的显著存在会对最终计算产生负面影响。而且，除了最终的输出表示有负面影响外，表示聚合的计算复杂度为 $O(N^2d)$ ，由于输入规模 $N$ 较大，计算负担也较大。
因此，这里作者提出Reciprocal Neighbor Softmax (RNS)，用reciprocal邻居掩码强制对少数相关的attention weight进行稀疏化。例如，假设如果两幅图像在特征空间中互为邻域，则它们很可能是相关的。为此，作者建议从近似亲和映射 $\tilde{A}$ 计算一个前k个邻居掩码 $M^k$ ，它将关注每行的前k个亲和值在这里插入图片描述
然后用Hadamard Product将 $M^k$ 与其转置相乘，就可以得到一个reciprocal邻居掩码 $M$ ，即

对于每个元素 $M_{ij}$ ，如果 $i$ 和 $j$ 都是彼此的前 $k$ 个邻居，则其值设为1，否则设为0。通过将这个掩模 $M$ 添加到常规softmax函数中，可以实现仅发生在邻居中的稀疏注意，这增加了对更相关图像的关注。RNS公式如下：
在这里插入图片描述
由于大多数注意力值被设置为0，如下图4 (b)所示，关系被约束到相关的邻居，使得原本的聚合更加集中和健壮。此外，由于不需要对权值为0的表示进行加法操作，特征聚合的时间复杂度从 $O(N^2d)$ 显著降低到 $O (N k d)$ 。
在这里插入图片描述