文献阅读(52)—— Integration self-attention and convolution

文献阅读(52)—— Integration self-attention and convolution


On the Integration of Self-Attention and Convolution
在这里插入图片描述
CVPR

先验知识/知识拓展

  • 卷积网络

    • 优点

      • 参数共享:卷积核在整个图像上移动,共享参数可以减少模型的参数数量,从而大大降低了训练时间和内存消耗。
      • 局部感知性:卷积操作只关注局部区域的特征,不受全局噪声的影响,提高了特征的鲁棒性。
      • 空间不变性:卷积操作在整个图像上平移具有相同的效果,因此CNN在处理图像时具有一定的空间不变性。
    • 缺点

      • 大规模卷积核:CNN需要大规模卷积核来捕获更复杂的特征,这会导致模型参数过多,容易出现过拟合。
      • 固定感受野:由于卷积核大小和步长是固定的,CNN只能感知固定大小的区域,可能无法捕获所有的特征
  • 自注意力机制

    • 优点

      • 动态性:注意力机制可以根据输入数据的不同部分调整权重,使模型可以针对不同的任务集中于不同的特征。
      • 灵活性:注意力机制可以与各种神经网络结构集成,如CNN、RNN和Transformer等
    • 缺点

      • 计算复杂度:由于需要计算每个特征的重要性,注意力机制增加了一定的计算负担,可能导致模型训练时间过长。
      • 对抗样本:注意力机制可能降低模型对抗样本的鲁棒性,因为它可能太过集中于某些重要的特征,而忽略其他的特征。
  • 两者之间

    • 卷积操作是一种固定的操作,它在整个图像上提取特征。而注意力机制是一种动态的操作,它可以根据输入数据的不同部分为模型分配不同的权重。此外,卷积操作只能处理局部信息,而注意力机制可以捕获全局信息
    • 传统的卷积利用卷积滤波器权值利用局部感受野上的聚合函数,这在整个特征图中共享。其内在特征对图像处理施加了重要的归纳偏差。相比之下,自注意模块采用基于输入特征上下文的加权平均操作,其中注意权值通过相关像素对之间的相似性函数动态计算。这种灵活性使注意力模块能够自适应地关注不同的区域,并捕获更多的信息特征

文章结构

  • abstract
  • related work
  • revisiting convolution and self-attention
  • method★
  • experiments
  • conclusion

背景


提出问题:

  • 卷积更多在考虑局部信息是一种固态的权重,注意力机制是一种动态的权重。但是两者间是有潜在联系的
  • 通过分解可以发现他们均依赖相同的 1*1卷积操作

基于这个样的发现,作者开发了一个混合模型,用最小的计算成本巧妙的整合了自注意力和卷积


文章方法

ACmix
在这里插入图片描述

1. Relating Self-Attention with Convolution

  • 卷积过程 在这里插入图片描述

  • 自注意力过程
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    由上面的推断可以看出:

  • 卷积和自注意力在通过1*1卷积map输入特征时,实际是相同的操作,也是这一步骤开销最大。

  • 两者的stage2对于捕获语义特征至关重要,但是其实是轻量级的,没有额外的学习参数。

整体设计
在这里插入图片描述

最终两者学到的特征是两者的和(其权重是可学习的):
在这里插入图片描述

文章结果

1.分类

在这里插入图片描述

2. 分割

在这里插入图片描述

3. 物体检测

在这里插入图片描述
在这里插入图片描述

4. 消融实验

(1)combination block compared with single block

作者比较了只使用attention,只使用convolution,以及将两者组合的参数量,Flops已经模型的性能。
在这里插入图片描述

(2)group convolution kernels

在这里插入图片描述

(3)超参数

在这里插入图片描述
可以看到在transformer 模型的早期阶段,卷积可以提取更好的特征。在最后的阶段,注意力机制可以提供更好的特征。

Contributions

  1. 揭示了自注意力和卷积之间强烈的潜在关系,为深入理解两者提供了新的视角
  2. 提出了一种很好的结合两者优点的模块。消融实验也表明混合模型的效果比单个用其中任意一个效果更加。

总结

从作者的消融实验,效果还是蛮喜人的,是一个新视角,值得学习!

可借鉴点/学习点?

都给我去看!

猜你喜欢

转载自blog.csdn.net/qq_43368987/article/details/130653505