2021综述：计算机视觉中的注意力机制(续三）：时间注意力

3.4 Temporal Attention

时间注意力可以看作是一种动态的时间选择机制，决定何时注意，因此通常用于视频处理。以前的工作[171]，[172]经常强调如何捕获短期和长期跨帧特征依赖。在这里，我们首先总结了有代表性的时间注意力机制，并指定了表5中描述为等式1的过程 $g (x)$ 和 $f (g (x), x)$ 。然后根据图4中的顺序讨论各种这样的机制。

按日期排序的代表性时间注意力机制。Reid=重新识别，行动=行为识别。范围是指注意力地图的范围。S或H表示软注意或硬注意。 $g (x)$ 和 $f (g (x), x)$ 是由等式1描述的注意过程。（A）通过注意力地图聚合信息。（I）利用多尺度短期时间上下文信息（II）捕获长期时间特征相关性（III）捕获局部时间上下文

3.4.1 Self-attention and variants

RNN和时间池化或权值学习已被广泛应用于视频表示学习中，以捕获帧间的交互，但这些方法在效率或时态关系建模方面都有局限性。

为了克服这些问题，Li等人[171]提出了一种全局时间表示法（GLTR），以利用视频序列中的多尺度时间线索。GLTR由用于局部时间上下文学习的空洞时间金字塔（DTP）和用于捕获全局时间交互的时间自注意力模块组成。DTP采用空洞卷积，空洞率逐渐增加，以覆盖不同的时间范围，然后将各种输出连接起来，以聚合多尺度信息。给定输入的逐帧特征 $F=\left\{f_{1}, \ldots f_{T}\right\}$ ，DTP 可以写成：
$\begin{aligned} \left\{f_{1}^{(r)}, \ldots, f_{T}^{(r)}\right\} &=\operatorname{DConv}^{(r)}(F) \\ f_{t}^{\prime} &=\left[f_{t}^{(1)} ; \ldots f_{t}^{\left(2^{n-1}\right)} \ldots ; f_{t}^{\left(2^{N-1}\right)}\right] \end{aligned}$
其中DConv $}^{(r)}(\cdot)$ 表示具有空洞率 $r$ 的空洞卷积。自注意力机制采用卷积层，然后通过批规范化和ReLU激活，基于输入特征图 $F^{\prime}=$ $\left\{f_{1}^{\prime}, \ldots f_{T}^{\prime}\right\}$ 来生成 $\in \mathbb{R}^{d \times T}$ ， $\in \mathbb{R}^{d \times T}$ ， $\in \mathbb{R}^{d \times T}$ ，可以写成
$F_{\text {out }}=g\left(V \operatorname{Softmax}\left(Q^{T} K\right)\right)+F^{\prime}$
其中 $g$ 表示通过卷积实现的线性映射。

来自相邻帧的短期时间上下文信息有助于区分视觉上相似的区域，而长期时间信息有助于克服遮挡和噪声。GLTR结合了这两个模块的优点，增强了表示能力并抑制了噪声。它可以整合到任何先进的CNN主干网中，学习整个视频的全局描述符。然而，自注意机制具有二次时间复杂性，限制了其应用。

3.4.2 TAM

为了高效灵活地捕捉复杂的时间关系，Liu等人[172]提出了一种时间自适应模块（TAM）。它采用自适应核代替自注意力来捕获全局上下文信息，时间复杂度低于GLTR[171]。

TAM 有两个分支，一个局部分支和一个全局分支。给定输入特征图 $\in \mathbb{R}^{C \times T \times H \times W}$ ，首先将全局空间平均池化 GAP 应用于特征图，以确保 TAM 具有低计算成本。然后，TAM 中的局部分支在整个时间域上使用多个具有 ReLU 非线性的 1D 卷积来生成位置敏感的重要性图，以增强逐帧特征。局部分支可以写成
$\begin{aligned} s &=\sigma(\operatorname{Conv1D}(\delta(\operatorname{Conv1D}(\operatorname{GAP}(X))))) \\ X^{1} &=s X \end{aligned}$
与局部分支不同，全局分支是位置不变的，并且专注于基于每个通道中的全局时间信息生成通道自适应内核。对于第$c $个通道，内核可以写为
$\Theta_{c}=\operatorname{Softmax}\left(\mathrm{FC}_{2}\left(\delta\left(\mathrm{FC}_{1}\left(\operatorname{GAP}(X)_{c}\right)\right)\right)\right)$
其中 $\Theta_{c} \in \mathbb{R}^{K}$ , $K$ 是自适应内核大小。最后，TAM 将自适应内核 $\Theta$ 与 $X_{\text {out }}^{1}$ 进行卷积：
$Y=\Theta \otimes X^{1}$
在局部分支和全局分支的帮助下，TAM 可以捕捉视频中复杂的时间结构，并以较低的计算成本增强每帧特征。由于其灵活性和轻量级设计，TAM 可以添加到任何现有的 2D CNN 中。