2022 CVPR : On the Integration of Self-Attention and Convolution

论文
github
gitee

1. 摘要

  • 卷积操作和注意力机制都可以用来学习表征,两者之间存在根本关系。从某个意义说,这两个范例的大部分计算实际上用相同的操作完成。传统的 k × k \begin{array}{c} k\times k \end{array} k×k卷积可以被分解成 k 2 \begin{array}{c} k^{2} \end{array} k2个1×1卷积,移位和求和操作。然后,我们将查询、键和值在自我注意力模块中的投影解释为多个1×1卷积,然后计算关注权重和值的聚合。该混合模型既享受了self-Attention 和Convolution (ACmix)的好处,同时与纯卷积或自我注意力对应模型相比具有最小的计算开销。

2. 引言

  • 卷积操作根据卷积滤波器的权重在局部感受野上使用聚合函数,而这些权重是在整个特征图中共享的。这个特性给图像处理带来了关键的归纳偏差。 注意力模块基于输入特征的上下文应用加权平均操作,其中通过相关像素对之间的相似度函数动态计算关注权重。这种灵活性使注意力模块能够自适应地关注不同的区域,并捕获更多的信息特征。
  • 具体来说,我们首先用1×1卷积投影输入特征图,并获得一组丰富的中间特征。然后,按照不同的范式重用和聚合中间特征,即分别以自注意力和卷积的方式。通过这种方式,ACmix享受了两个模块的好处,并有效地避免了两次进行昂贵的投影操作所带来的代价。

3. 方法

3.1 自注意力与卷积的联系

  • 自注意力和卷积模块的分解存在密切联系。第一阶段是一个特征学习模块,其中两种方法通过执行1×1卷积将特征投影到更深的空间来共享相同的操作。另一方面,第二阶段对应于特征聚合过程,尽管其学习范式存在差异。
  • 从计算角度来看,在卷积和自我关注模块的阶段一进行的1×1卷积需要理论FLOP和与通道维度大小C相关的参数的平方复杂度。相比之下,在第二阶段,两个模块都是轻量级的或者几乎不需要计算量。
  • 因此,上述分析表明,(1)卷积和自注意力实际上共享通过1×1卷积投影输入特征图的相同操作,这也是两个模块的主要计算开销。(2) 尽管对于捕获语义特征至关重要,但第二阶段的聚合操作是轻量级的,不会产生额外的学习参数。

3.2 自注意力与卷积的整合

ACmix

  • ACmix包括两个阶段:
      在第一阶段,输入特征通过三个1×1卷积进行投影,并分别重塑为N块,得到3×N特征映射的中间特征集。
      在第二阶段,有自注意力路径和卷积两个路径。对于自注意路径,对应的三个特征映射作为查询、键和值,遵循传统的多头自注意模块。
      对于核大小为k的卷积路径,采用轻型全连接层并生成 k² 特征图,同时进行移位操作和聚合。
      最后,将两条路径的输出加在一起,强度由两个可学习标量控制:
    F o u t = α F a t t + β F c o n v \begin{array}{c} F_{out} = \alpha F_{att} + \beta F_{conv} \end{array} Fout=αF

猜你喜欢

转载自blog.csdn.net/u013308709/article/details/129289169
今日推荐