近期调研


近期论文阅读重点放在视觉领域中卷积与TRM结合的工作。
这些工作的主要动机有两点:

  • 卷积操作的局部性阻碍对全局特征的捕获
  • TRM的self-attention机制用于长距离信息捕获已经被证明是一种很好的范式,但是其仍然存在一些问题,将在下文具体阐述。

[ICCV 2019] Attention Augmented Convolutional Networks

动机

卷积只对局部邻域运算,会丢失全局信息。

贡献

提出了Attention Augmentation method(注意增强方法),利用self-attention机制来增强卷积算子。将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来。

方法

方法偏重与理论推导而非模型改变,但是具有很强的可借鉴意义。
可参考:Attention Augmented Convolutional Networks 笔记

[ICCV 2021] Conformer: Local Features Coupling Global Representations for Visual Recognition

动机

卷积难以捕捉global feature,self-attention机制可以捕捉长距离的特征信息,但会模糊前景和弱化局部信息。

贡献

  1. 提出双主干网络Conformer,最大程度上获取local和global feature
  2. 提出特征耦合单元FCU,以一种交互性的方式将两路网络获取的特征融合

方法

Conformer

  1. 卷积分支 CNN Branch
    卷积分支使用ResNet结构
  2. TRM分支 Transformer Branch
    TRM分支使用ViT结构
  3. 特征融合模块FCU Feature Coupling Unit(重点)
    除第一个Bottleneck外,每一个Bottleneck的3×3 conv输出的特征图进入到TRM分支进行feature fusion,FCU使用1×1卷积调整channel,使用down/up sampling调整H和W,BN和LN用于调整feature value,FCU被嵌入到网络的每个block中,更好地消除两种机制feature的语义差异。

[ICLR 2022] UniFormer: Unifying Convolution and Self-attention for Visual Recognition

动机

单一的CNN和TRM均不能解决当前视觉领域存在的问题,并且作者观察到,在浅层网络,即使通过self-attention计算全局的相似度实际关注的仍为相邻时空区域的关系。
即以往的ViT虽然使用全局的attention计算,但最终学习的多数仍是局部表征,造成大量冗余的计算。

贡献

基于以上的观察,作者提供了将CNN和TRM结合的全新结构

  1. 浅层网络仅关注有限窗口的信息(CNN模式),深层网络关注整体信息,全局信息聚合(TRM模式)
  2. 将convolution和self-attention统一于token关系的学习中,模型兼顾两种范式的长处

方法

Uniformer
模型整体借鉴CNN层次化设计,每层包含多个Transformer风格的UniFormer block。
uniformer block
每个UniFormer block主要由三部分组成,动态位置编码DPE、多头关系聚合器MHRA)及Transformer必备的前馈层FFN,其中最关键的为多头关系聚合器

MHRA 多头关系聚合:

与多头注意力相似,Uniformer将关系聚合器设计为多头风格,每个头单独处理一组channel的信息,每组的channel先通过线性变换生成上下文token V n ( X ) V_n(X) Vn(X),然后在token affinity A n A_n An的作用下,对上下文信息进行聚合。这里设计两种MHRA

  1. local MHRA:
    local MHRA用于浅层网络,在网络的浅层(前两阶段),token affinity应该仅关注局部邻域上下文,这与convolution的设计是一样的,因而将局部关系聚合 A n l o c a l A_n^{local} Anlocal设计为可学习的参数矩阵,且token affinity的值只与相对位置有关。
    在这里插入图片描述
    其中 X i X_i Xi为anchor token, X j X_j Xj为局部邻域中的任一token, a n a_n an为可学参数矩阵, ( i − j ) (i-j) (ij)为二者相对位置,表明token affinity的值只与相对位置有关。
    local UniFormer block与MobileNet block的风格相似,都是PWConv-DWConv-PWConv(见原论文解析),不同的是引入了额外的位置编码以及前馈层,这种特别的结合形式有效地增强了token的特征表达。
  2. global MHRA
    global MHRA用于深层网络,在网络的深层(后两阶段),对整个特征空间建立长时关系,这与self-attention的思想一致,因此通过比较全局上下文相似度建立token affinity
    在这里插入图片描述
    其中 Q n ( . ) , K n ( . ) Q_n(.),K_n(.) Qn(.),Kn(.)为不同的线性变换。

DPE 动态位置编码映射

使用卷积位置编码设计动态位置编码
在这里插入图片描述
DWConv为零填充的的深度可分离卷积。
一方面,卷积对任何输入形式都很友好,也很容易拓展到空间维度统一编码时空位置信息。另一方面,深度可分离卷积十分轻量,额外的零填充可以帮助每个token确定自己的绝对位置。

FFN 前馈神经网络

在这里插入图片描述
FFN无特别设计,组合了两个线性层和一个GELU激活函数。

总结:当前Video Transformer模型的主流改进方式

  1. 限制注意力关注区域,只关注部分时空位置【TimeSformer】
  2. 按照时空维度分解注意力计算过程【ViViT】;
  3. 引入卷积的归纳偏置,通过局部堆叠Encoder,将注意力集中在较小的邻域内【Swin TRM】;
  4. 以提取后的特征而非原始视频帧像素为输入,排除无用的信息,减少计算量【Uniformer】。

SPL模板写作分析

SPL全称IEEE Signal Processing Letters,篇幅较小,期刊要求4页正文,1页参文共五页**(双栏)**。
SPL全篇共有一下几部分

摘要

  • Abstract:按顺序为:简要介绍任务、动机、模型、设计模块、数据集,篇幅第一页左侧栏二分之一;

正文

  • Introduction:与其他会议不同,SPL的Introduction实际是Intro+Related Works,尤其注意篇幅长度,相关工作篇幅应占据单栏一栏左右,其段落划分与书写顺序为:任务介绍意义(一段)、相关工作介绍(两段)、动机发现与模型概括(一段)、总结贡献与模型表现(一段)。Intro结束,篇幅应到达第二页左栏二分之一处(包括图1);
  • Proposed Method(重点):详细介绍模型和设计的模块。总结Intro中的相关工作,再次强调动机,同时引出模型结构图(一段),而后使用3-4段详细阐述模块的设计。Method部分结束,篇幅应达到第三页左侧栏结束(1-2个图);
  • Experiments:简单介绍数据集(50-70词),介绍实验的设置,以及实验结果分析。这部分相对于会议论文的展示要少很多,可以做减法。在注意篇幅的情况下,尽可能给出表格与实验结果分析的图。Experiments结束,论文主要内容结束,注意预留200词左右的段落给结论部分即可;
  • Conclusions:与摘要对应,浓缩以上三个部分精华部分,但不能照抄。Conclusions结束,第四页结束,正文全部结束。

参考文献

注意格式和引文的遗漏。

猜你喜欢

转载自blog.csdn.net/qq_41533576/article/details/125221720