Relation-Aware Global Attention for Person Re-identification论文阅读整理

Abstract

这是2020年CVPR行人重识别领域的一篇文章,提出了一个有效的关系感知全局注意(RGA)模块,它捕获全局结构信息,以更好地进行注意力学习。具体来说,对于每个功能位置,为了紧抓全局范围的结构信息和局部外观信息,文章建议堆栈的关系,也就是说,其两两相关性/相似的功能位置和功能本身一起学习关注一个浅卷积模型。

Introduction

重识别(re-id)的目的是在不同的时间、地点或相机上匹配特定的人,这已经引起了业界和学术界的兴趣。难点在于如何从背景杂乱、姿态多样性、遮挡等情况下的人像图像中提取识别特征(识别同一人和区分不同的人)。
在这里插入图片描述
如图1所示。比较(b) CBAM的空间注意和©提出的捕捉全局范围关系并从这种结构信息中挖掘的注意。

最近,许多研究求助于注意设计,通过加强鉴别特征和抑制干扰来解决上述的行人重识别挑战。大部分注意力是通过有限接受域的旋回来学习的,这使得在全局范围内开发丰富的结构模式变得困难。一个解决方案是在卷积层中使用大尺寸的滤波器。另一种解决方案是将深层叠加,大大增加了网络的规模。此外还有研究表明,CNN的有效感受域只占整个理论感受域的一小部分。这些解决方案不能保证有效人员re-id的全局范围信息的有效挖掘。

此外也有提出的非局部神经网络,通过将所有位置到目标位置的特征加权求和来收集全局信息,其中连接权值通过两两关系来计算。实际上,对于一个目标特征位置,其与所有特征节点/位置的成对关系可以包含一个全局范围内的有价值的结构信息,如类聚模式(通过成对的贴近度和位置信息)。然而,非局部网络忽略了探索如此丰富的全球信息它只是简单地使用学习到的关系作为权重来聚合特征。这种确定性的关系使用方式(即加权和)挖掘能力较弱,缺乏足够的适应性。一些方法学习到的非局部块连接权值为目标位置不变,其适应性不如预期。本文认为通过建模函数从关系中挖掘知识并利用这些有价值的全局范围结构信息来推断注意力是很重要的。

在本文中,提出了一个有效的关系感知全局注意(RGA)模块来有效地学习个人识别码的鉴别特征。RGA显式地探索挖掘结构信息(类聚类信息)的全局作用域关系。这有助于隐式推断语义,从而提高注意力。图1显示了我们对人re-id图像的习得注意。由于全球范围关系的引入和挖掘,我们的注意力可以集中在有区别的人体区域上。如图2中所示c,对于每一个功能节点,例如,一个特征向量的空间位置地图上的一个特性,我们模型的成对关系这个节点的所有节点和简洁栈的关系作为一个向量(代表全局结构信息)和节点本身的特点来推断注意强度通过一个小模型。这样既考虑了外观特征,又考虑了它的全局范围关系,从全局的角度来确定特征的重要性。这一机制也与人类在寻找区别特征时的感知相一致:通过全球范围的比较来确定其重要性。

总之作出了两大贡献:
我们提出通过全局的特征之间的关系来全局地学习每个特征节点的注意力。由于全局范围关系具有有价值的结构化(类聚类)信息,我们提出从关系中挖掘语义,通过学习函数来引起注意。具体来说,对于一个特征节点,我们通过将其与所有特征节点的成对关系作为向量叠加,建立一个紧凑的表示,并从中挖掘模式进行注意学习。

设计了一个关系感知全局关注(RGA)模块,该模块简洁地表示了全局范围关系,并通过两个卷积层来获取基于全局范围关系的关注。我们将这种设计应用于空间(RGA-S)和通道维度(RGA-C),并证明其对人重新识别的有效性。

Relation-Aware Global Attention

针对人的re-id识别特征提取,提出了一个关系感知全局注意(RGA)模块,该模块利用紧凑的全局范围结构关系信息来推断注意力。

Formulation and Main Idea

一般来说,功能集V = { x i x_i xi R d R^d Rd,i = 1,···,N}的N与每d个维度的相关特性,关注的目标是学习一个mask用 a = ( a 1 , ⋅ ⋅ ⋅ , a N ) ∈ R N a = (a_1,···,a_N)∈R^N a=(a1,,aN)RN根据他们的相对重要性表示N个特征权重/mask。注意也将特征向量称为特征节点或特征。

(a)局部注意:局部确定一个特征节点的注意,例如对其自身应用一个共享的变换函数F,即 a i = F ( x i ) a_i= F(x_i) ai=F(xi)。然而,这种局部战略并没有充分利用全局视角的相关性,忽视了全局范围的结构信息。对于视觉任务,使用deep layer或large-size kernel来解决这个问题。(b)全局注意:一种解决办法是使用所有特征节点共同学习注意力,例如,使用完全连接的操作。然而,这通常是计算效率低,难以优化,因为它需要大量的参数,特别是当特征数N是很大的。

与这些策略相比,本文提出了一种关系感知的全局注意,**i)利用全局结构信息和知识挖掘,ii)使用共享的转换函数,针对不同的个体特征位置来获得注意力。**对于reid来说,后者可以通过局部卷积操作来对注意力进行全局计算。图2 ©说明了我们提出的关系感知全局关注的基本思想。其主要思想是利用当前(第i)个特征节点与所有特征节点分别的成对关系,将它们按一定的顺序进行叠加,以紧凑地表示当前特征节点的全局结构信息。具体地说,我们使用ri, j来表示第i个特征和jthfeature之间的亲和力。对于特征节点xi,其亲和向量 r i = [ r i , 1 , r i , 2 , ⋅ ⋅ , r i , N , r 1 , i , r 2 , i , ⋅ ⋅ ⋅ , r N , i ] r_i= [ r_{i,1}, r_{i,2},··,r_{i,N}, r_{1,i}, r_{2,i},···,r_{N,i} ] ri=[ri,1,ri,2ri,N,r1,i,r2,irN,i]。然后使用特征本身和成对关系,即 y i = [ x i , r i ] y_i= [x_i,r_i] yi=[xi,ri]作为特征,通过一个学习的变换函数来推断其注意力。
在这里插入图片描述
图2。5个特征向量/节点 x 1 , ⋅ ⋅ , x 5 x_1,··,x_5 x1x5的学习注意值 a 1 , ⋅ ⋅ , a 5 a_1,··,a_5 a1a5说明。(a)局部注意:局部学习注意(如上图所示,基于个体特征)。(b)全局注意:从所有5个特征向量中联合学习注意(例如将它们连接在一起)。©提出的关系感知全局注意:通过考虑全局关系信息来学习注意力。对于第i个(这里i= 1)特征向量,全局范围关系信息通过叠加 r i = [ r i , 1 , ⋅ ⋅ , r i , 5 , r 1 , i , ⋅ ⋅ ⋅ , r 5 , i ] r_i= [r_{i,1},··,r_{i,5}, r_{1,i},···,r_{5,i} ] ri=[ri,1ri,5,r1,ir5,i]来表示。注意, r i a n d j = [ r i , j , r j , i ] r_{i and j}= [r_{i,j}, r_{j,i}] riandj=[ri,j,rj,i]。与(a)缺乏全局意识和(b)缺乏明确的关系探索不同,这里提出的注意力是通过一个带有全局范围关系的学习函数来确定的,其中包含作为输入的结构信息。
在这里插入图片描述
图3.所提出的空间关系感知全局注意(RGA-S)和通道关系感知全局注意(RGAC)的图表。在计算某一特征位置的注意力时,为了掌握全局范围的信息,我们将其与所有特征位置的相关性/亲和力成对的关系项与该位置特征的一元项进行叠加,通过卷积操作学习注意力。

数学上地,文中表示的特性和他们的关系图G = (V, E),包括N的节点集V特性,连同一套边 E = r i , j ∈ R , i = 1 , N a n d j = 1 , N E = {r_{i, j}∈R, i = 1, N and j = 1, N} E=ri,jR,i=1,Nandj=1,N。边缘 r i , j r_{i, j} ri,j表示第i和第j个节点之间的关系。所有节点的两两关系都可以用一个关联矩阵R∈RN×N表示,其中节点i与j的关系为 r i , j = R ( i , j ) r_{i,j}= R(i, j) ri,j=R(i,j) r i = [ R ( i , : ) , R ( : , i ) ] ri= [R(i,:),R(:, i)] ri=[R(i:)R(:i)]

讨论:对于第i个特征节点 x i x_i xi,其对应的关系向量 r i r_i ri提供了一个紧凑的表示来捕获全局结构信息,即所有特征节点的位置信息和成对的亲和力。用成对关系值表示每个功能节点之间的相似性和当前功能节点,而他们的位置向量表示的关系位置(索引)的功能节点,向量的关系反映了所有节点的集群状态和模式对当前节点,有利于全局的决心 x i x_i xi的相对重要性(关注)。在包含如此丰富的结构信息/模式的情况下,提出从这些关系中挖掘,通过一个建模函数来有效地学习注意力。在考虑可行姿态的情况下,人的re-id图像的结构模式在一个可学习的空间中分布,并受到人体物理结构的约束。

Spatial Relation-Aware Global Attention

给定CNN层的中间特征张量 X ∈ R C × H × W X∈R^{C×H×W} XRC×H×W宽度W、高度H和C个通道,设计一个空间关系感知注意块,即RGA-S,用于学习大小为H×W的空间注意图。将每个空间位置上的c维特征向量作为特征节点。所有空间位置构成一个图Gs, N = W×H个节点。如图3 (a)所示,光栅扫描空间位置,并将其识别号分配为1,··,N。将N个特征节点表示为 x i ∈ R C x_i∈R^C xiRC,其中i = 1,··,N。

节点i与节点j之间的成对关系(即亲和关系) r i , j r_{i,j} ri,j可定义为嵌入空间中的点-点亲和关系:
在这里插入图片描述
其中,由1×1空间卷积层执行的两个嵌入功能是批处理归一化(BN)和ReLU激活,即在其中,由一个1×1空间卷积层执行的两个嵌入功能,即其中由一个1×1空间卷积层执行的,由批处理归一化(BN)和ReLU激活,即:s1是一个预定义的正整数,它控制降维比。注意为了简化符号,BN操作都省略了。类似地,可以得到从节点j到节点i的亲缘关系为 r j , i = f s ( x j , x i ) r_{j,i}= f_s(x_j,x_i) rj,i=fs(xj,xi)。使用 p a i r ( r i , j , r j , i ) pair (r_{i,j}, r_{j,i}) pair(ri,j,rj,i)来描述 x i 和 x j x_i和x_j xixj之间的双向关系。然后用亲和矩阵 R s ∈ R N × N R_s∈R^{N×N} RsRN×N表示所有节点之间的成对关系。

对于第i个特征节点,将其与所有节点的关系按一定的固定顺序(如栅格扫描顺序)进行成对堆叠,即节点标识为j = 1,2,··,N,得到一个关系向量 r i = [ R s ( i , : ) , R s ( : , i ) ] ∈ R 2 N r_i= [R_s(i,:), R_s(:, i)]∈R^{2N} ri=[Rs(i:)Rs(:i)]R2N。如Fig. 3 (a)所示,以亲和矩阵 R s R_s Rs的第六行第六列,即 r 6 = [ R s ( 6 , : ) , R s ( : , 6 ) ] r_6= [R_s(6,:), R_s(:,6)] r6=[Rs(6:)Rs(:6)]作为关系特征,导出空间第六个位置的关注度。

为了了解第i个特征节点的注意力,除了两两关系项 r i r_i ri之外,还包括了特征本身,以便利用与该特征相关的全局范围结构信息和局部原始信息。考虑到这两种信息不属于同一特征域,将它们分别嵌入并连接,得到空间关系感知特征 y i y_i yi:
在这里插入图片描述
ψ s 和 ϕ s ψ_s和ϕ_s ψsϕs分别表示嵌入函数特征本身和全局关系。他们都是由空间1×1卷积实现层BN和ReLU激活紧随其后,也就是说 ψ s ( x i ) = R e L U ( W ψ x i ) ψ_s(x_i) = ReLU (W_ψx_i) ψs(xi)=ReLU(Wψxi), ϕ s ( r i ) = R e L U ( W ϕ r i ) ϕs(r_i) = ReLU (W_ϕr_i) ϕs(ri)=ReLU(Wϕri),其中 W ψ ∈ R C / s 1 × C , W ϕ ∈ R 2 N × 2 N / 2 s 1 W_ψ∈R^{C/s1×C},W_ϕ∈R^{2N×2N/2s_1} WψRC/s1×C,WϕR2N×2N/2s1 p o o l c ( ⋅ ) pool_c(·) poolc()表示沿着通道维度的全局平均池操作,从而将维度进一步减小到1。那么 y i ∈ R 1 + N / s 1 y_i∈R_1+N/s_1 yiR1+N/s1。注意,也可以使用其他卷积核大小(如3×3)。发现它们的性能非常相似,因此我们使用1×1卷积层来降低复杂度。

全局范围关系包含丰富的结构信息(如具有语义的特征空间中的类聚类状态),我们提出从这些信息中挖掘有价值的知识,通过一个可学习的模型来推断注意力。我们通过一个建模函数得到其/节点 a i a_i ai的空间注意值为:
在这里插入图片描述
其中 w 1 和 w 2 w_1和w_2 w1w2是通过1×1卷积,然后BN来实现的。 w 1 w_1 w1 s 2 s_2 s2的比例缩小信道维度, w 2 w_2 w2将信道维度转换为1。

Channel Relation-Aware Global Attention

给定中间特征张量 X ∈ R C ∗ H ∗ W X∈R^{C * H * W} XRCHW,我们设计一个关系感知的通道注意块,即RGA-C,用于学习C维的通道注意向量。我们将每个通道处的d = H×w维特征图作为特征节点。所有的通道形成一个图 G c G_c Gc包括c个节点。我们将C特征节点表示为 x i ∈ R d x_i∈R^d xiRd,其中i = 1,··,C。

与空间关系类似,节点i到节点j的成对关系 r i , j r_{i, j} ri,j可定义为嵌入空间中的点-积亲缘关系为:
在这里插入图片描述
其中,在特征节点之间共享两个嵌入函数。我们首先将输入张量X在空间上扁平化到 X 0 ∈ R ( H W ) × C × 1 X_0∈R^{(HW)×C×1} X0R(HW)×C×1,然后使用与BN的1×1卷积层,再通过ReLU激活对X0进行变换来实现嵌入。如Fig. 3 (b)所示,我们得到所有节点的成对关系,然后用一个亲和矩阵Rc∈Rc x C表示。

对于ithfeature节点,我们将其对应的关系与所有节点两两叠加,得到关系向量 r i = [ R c ( i , : ) , R c ( : , i ) ] ∈ R 2 C ri= [R_c(i,:), R_c(:, i)]∈R^{2C} ri=[Rc(i:)Rc(:i)]R2C,以表示全局结构信息。

为了推断第i个特征节点的注意,类似于空间注意的推导,除了成对关系项ri,我们还包括特征本身xi。与Eq.(2)和(3)相似,我们得到了通道关系感知特征 y i y_i yi然后为第i个通道得到了通道注意值。注意,所有转换功能都由节点/通道共享。没有完全连接的跨通道操作。

Analysis and Discussion

分析并讨论了与其他相关方法的不同之处。此外,还讨论了空间RGA和信道RGA的联合使用及其集成策略RGA和CBAM。CNN中大多数注意机制实际上是局部注意,局部注意利用局部上下文决定特征位置的注意。以具有代表性的注意模块CBAM为例,采用滤波器大小为7×7的卷积运算,再加上sigmoid激活函数来确定空间特征位置的注意。因此仅利用7×7 = 49个相邻特征节点来确定中心位置的注意力。而对于空间RGA (RGA- s),对于一个空间特征位置,联合利用所有空间位置的特征节点来确定全局的注意力。通过对堆叠关系的向量进行简单的1×1卷积操作来实现这一点。

RGA与非局部(NL)和简化的NL。非局部块利用全局上下文细化每个空间位置的特征。对于目标特征位置,为了得到一个聚集的特征,然后将其添加到原始特征中进行细化,他们计算源位置特征的加权总和。尽管存在来自成对关系的结构信息,但非局部忽略了对这些有价值信息的探索,仅以这种明确的方式将这些关系作为特征聚合的权重。通过观察分析,非局部块中的连接权值对目标位置是不变的,每个连接权值局部由源特征节点本身确定。因此,对于不同的目标位置,连接权值的向量是相同的,对应的聚合特征向量也是相同的。这导致缺乏对目标位置的特异性适应。相比之下,在我们的RGA中,尽管类似地使用了两两关系,但意图却截然不同,即通过学习的建模函数从关系的全局范围结构信息中挖掘知识。

RGA-S和RGA-C的用法。RGA-S和RGA-C可以以即插即用的方式接入任何CNN网络。可以单独使用RGA-S或RGA-C,也可以依次联合使用(如在RGA-S之后使用RGA-C,表示为RGA-SC),也可以并行使用(RGA-S//C)。

猜你喜欢

转载自blog.csdn.net/qq_34124009/article/details/108483667