文献阅读（52）—— Integration self-attention and convolution

文章目录

文献阅读（52）—— Integration self-attention and convolution

On the Integration of Self-Attention and Convolution
在这里插入图片描述

CVPR

先验知识/知识拓展

卷积网络
- 优点
  - 参数共享：卷积核在整个图像上移动，共享参数可以减少模型的参数数量，从而大大降低了训练时间和内存消耗。
  - 局部感知性：卷积操作只关注局部区域的特征，不受全局噪声的影响，提高了特征的鲁棒性。
  - 空间不变性：卷积操作在整个图像上平移具有相同的效果，因此CNN在处理图像时具有一定的空间不变性。
- 缺点
  - 大规模卷积核：CNN需要大规模卷积核来捕获更复杂的特征，这会导致模型参数过多，容易出现过拟合。
  - 固定感受野：由于卷积核大小和步长是固定的，CNN只能感知固定大小的区域，可能无法捕获所有的特征
自注意力机制
- 优点
  - 动态性：注意力机制可以根据输入数据的不同部分调整权重，使模型可以针对不同的任务集中于不同的特征。
  - 灵活性：注意力机制可以与各种神经网络结构集成，如CNN、RNN和Transformer等
- 缺点
  - 计算复杂度：由于需要计算每个特征的重要性，注意力机制增加了一定的计算负担，可能导致模型训练时间过长。
  - 对抗样本：注意力机制可能降低模型对抗样本的鲁棒性，因为它可能太过集中于某些重要的特征，而忽略其他的特征。
两者之间
- 卷积操作是一种固定的操作，它在整个图像上提取特征。而注意力机制是一种动态的操作，它可以根据输入数据的不同部分为模型分配不同的权重。此外，卷积操作只能处理局部信息，而注意力机制可以捕获全局信息。
- 传统的卷积利用卷积滤波器权值利用局部感受野上的聚合函数，这在整个特征图中共享。其内在特征对图像处理施加了重要的归纳偏差。相比之下，自注意模块采用基于输入特征上下文的加权平均操作，其中注意权值通过相关像素对之间的相似性函数动态计算。这种灵活性使注意力模块能够自适应地关注不同的区域，并捕获更多的信息特征。