【グループミーティングと体験】PatchDCT、SeaFormer、DilateFormer、MixFormer、ShadowFormer、MISSFormer、FMCNet

【ICLR2023】PatchDCT: 高品質なインスタンスセグメンテーションのためのパッチ改良

【この記事の寄稿】

この論文は、論文「DCT-Mask: Discrete Cosine Transform Mask Representation for Instance Segmentation」を改良したもので、高品質を予測するための圧縮ベクトルに基づく既知の最初のマルチレベルリファインメント検出器である PatchDCT を提案します。 DCTMask と比較してパフォーマンスが大幅に向上しました。

【ネットワーク構成】

PatchDCT はマスクを多数の独立したパッチに分割し、各パッチを洗練し、各パッチのマスクを DCT によってベクトルに変換できます。

ネットワークは、リグレッサーと分類器の 2 つのブランチに分かれています。分類器は、畳み込み層を使用して前景、背景、および前景と背景の融合を区別する 3 つの分類器です。リグレッサーは境界に焦点を当てたモジュールです。 . n 次元 DCT ベクトルを予測し、処理された融合部分を分類器によって生成された結果に重ね合わせます。PtachDCT の入力サイズと出力サイズは同じであり、複数の PatchDCT モジュールを使用して多段階のリファインメントが可能です。右下図の F は FPN-P2 から切り出された特徴マップ、M は高解像度マスク、P はPatchDCT モジュールです。

【経験】
  • DCT マスクは高度な集約性と低複雑性を備えており、ピクセルベースの画像処理タスクに適用して、よりコンパクトなエンコードを実現し、効率を向上させることができます。

  • DCT は、特徴を抽出する際の高解像度画像のエンコードに使用できます。

【ICLR2023】SeaFormer: モバイルセマンティックセグメンテーション用のスクイーズ強化された軸変換器

【この記事の寄稿】
  1. 新しい Squeeze-Enhanced Axial Transformer (SeaFormer) フレームワークが、モバイルでのセマンティック セグメンテーションのために提案されています。

  1. 押し出し軸とディテールの強化を特徴とする一般的な注意ブロックが設計されています。

  1. セマンティック セグメンテーションに加えて、提案された SeaFormer アーキテクチャはさらに画像分類問題にも適用されます。

【ネットワーク構成】

ネットワークはまず画像を 1/2、1/4、1/8 にダウンサンプリングし、次に 2 つのブランチでそれぞれ処理します。赤いブランチはコンテキスト ブランチ、青のブランチは空間ブランチです。コンテキスト ブランチは交互に使用します。 MobileNetV2 (MV2) および SeaFormer レイヤーは、Fusion ブロックを使用して中間の 2 つのブランチを融合し、畳み込みとシグモイドを使用して重み情報を抽出し、その重み情報を空間ブランチで乗算し、連続 3 回の反復後の処理にライト セグメンテーション ヘッドを使用します。 。

SeaFormer は軸方向の注意メカニズムを採用しており、最初に q、k、v をそれぞれプールし、次に次元を変換し、水平圧縮と垂直圧縮を使用して、それぞれ H*1*Cp と 1*W*Cp の 2 つのベクトルを取得します。ベクトルは、複数の頭の自己注意をそれぞれ計算し、得られた結果をブロードキャストし、2 つの結果を同じ次元に拡張して加算します。

詳細情報を強化するために、SeaFormer では詳細拡張カーネルが使用され、カーネルによって得られた結果と圧縮された軸方向のアテンションの計算結果が乗算されて、最終的なアテンションが得られます。

【経験】

分割メソッドを使用してアテンション モジュールを構築してみることができます。たとえば、この記事では、軸方向の注意が水平と垂直に分割され、もう 1 つのブランチを使用して軸方向の注意に欠けているローカルな情報が補完されています。

【TMM2023】DilateFormer: 視覚認識用マルチスケール拡張トランス

【この記事の寄稿】
  1. スライディング ウィンドウ拡張注意 (SWDA) は、周囲の領域でまばらに選択されたパッチに対する自己注意を計算するために提案されています。

  1. マルチスケール拡張注意 (MSDA) は、さまざまなスケールで意味論的な依存関係を同時に捕捉し、注意を向けている受容野内の情報をさらに利用するために提案されています。

  1. マルチスケール拡張トランスフォーマー (DilateFormer) は、ピラミッド アーキテクチャを使用して設計されており、浅い段階で MSDA を積み重ねて低レベルの情報をキャプチャし、グローバルなマルチヘッド自己注意を深い段階で積み重ねて高度な相互作用をシミュレートします。参加の受容領域 サイズ間のより良いバランスを見つけます。

【ネットワーク構成】

该网络主要是融合了多尺度和空洞卷积,增大了感受野,改善了全局依赖。网络整体为金字塔架构,主要创新点为MSDA以及MSDA中包含的SWDA。

SWDA即Sliding Window Dilated Attention,它以一个原始的像素点作为一个token,按照膨胀系数r选取周围的8个像素点进行计算。这里为每一个head设置了不同的膨胀系数,有利于聚合多尺度信息。

【心得体会】

可以通过多尺度信息的引入来改进Attention的结构,比如在多头自注意力部分引入多尺度信息,并且在消融实验中说明引入的多尺度信息是否有效、多尺度信息的相关参数如何设置能达到较好的效果。

【CVPR2022】MixFormer: End-to-End Tracking with Iterative Mixed Attention

【本文贡献】
  1. 提出了一个基于混合注意力模块(MAM)的紧凑的端到端跟踪框架,称为MixFormer,MAM允许同时提取目标特定特征和目标与搜索之间的广泛联系。

  1. 实例化了两种类型的 MixFormer跟踪器,一种是具有渐进下采样和深度卷积投影的分层跟踪器(与 MixCvT 一致),另一种是建立在普通ViT基础上的非分层跟踪器(称为 MixVT),并为MixVT 设计了一个金字塔角头,补充多尺度信息,实现准确的目标定位。

【网络结构】

本文将图像跟踪网络中的特征提取、目标集成两个模块整合到了一个Transformer上,构建出了MixFormer。该网络对来自每个序列本身的token进行自注意力计算,从自身中提取特征,并同时对来自两个序列的token之间进行交叉注意力计算,实现目标和搜索之间的通信,以上功能是通过MixFormer中的MAM模块实现的。

MixFormer是对MAM的堆叠。

【心得体会】

今后的工作中可以尝试对特征进行拼接融合。

【AAAI2023】ShadowFormer: Global Context Helps Image Shadow Removal

【本文贡献】

引入了一种基于Retinex的阴影模型,提出了一种新的基于多尺度通道注意力框架的阴影去除Transformer(ShadowFormer)。

【网络结构】

本文考虑了阴影部分与非阴影部分的全局相关性,并且提出了阴影部分与非阴影部分在光照等方面存在联系,设计了Shadow-Interaction Attention,总体架构是一个Encoder-Decoder的结构,在Encoder和Decoder都堆叠使用通道注意力来获得多尺度特征。同时在中间使用提出的Shadow-Interaction Module,每次特征图大小缩小到一半,通道数扩大一倍。

Shadow-Interaction Module模块中采用了类似窗口注意力的架构,使用池化操作减少了计算量,使用了异或操作来帮助获得更显著的权重。

【心得体会】

本文的mask是给定的,本文提出的ShadowFormer不仅适用于阴影去除,也适用于有先验的情况下的图像修复。

【TMI2022】MISSFormer: An Effective Medical Image Segmentation Transformer

【本文贡献】
  1. 提出了MISSFormer,这是一个位置无关的分层U-Net,用于医学影像分割。

  1. 设计了一个强大的前馈网络,Enhanced Mix-FFN,并对其进行扩展,得到了Enhanced Transformer Block以增强特征表示能力。

  1. 基于Enhanced Transformer Block,设计出了Enhanced Transformer Context Bridge,用于捕获分层多尺度特征的局部和全局相关性信息。

【网络结构】

该网络为U形结构,采用了encoder-decoder架构,并在encoder和decoder之间添加了增强的Transformer上下文桥接模块。对输入的图片,先划分为4*4的重叠的patch来保持与卷积层的局部连续性,在把这些patch输入到encoder,产生多尺度特征,再将多尺度特征通过增强的Transformer上下文桥接模块来获取不同尺度特征的局部和全局相关性。decoder部分主要由增强的Transformer和patch扩展层组成,patch扩展层对相邻特征进行上采样,最后通过Linear Projection输出经过分割的图像。

该网络重新设计了Mix-FFN的结构,在dw卷积之前添加跳跃连接,在跳跃连接后使用Layer Norm,实现了特征对齐。

增强的Transformer上下文桥接模块结构如下,先对分层encoder生成多级特征在空间维度上展开,保持相同的通道深度,再在空间维度上进行拼接,将连接的token输入到增强的Transformer中,构建长期依赖和局部上下文相关性。

【心得体会】

可以通过在U-Net中的encoder和decoder之间添加适当的上下文桥接模块来改善特征提取能力。

【CVPR2022】FMCNet: Feature-Level Modality Compensation for Visible-Infrared Person Re-Identification

【本文贡献】

提出了FMCNet,为VI-ReID提出了特征级而不是图像级特定模式的信息补偿,有助于生成一些特定模式的特性。

【网络结构】

FMCNet中对于rgb图像和红外图像的处理是对称的,都是先经过SFD模块生成各自的特定特征+共享特征,再对二者的共享特征进行融合,通过FMC模块中的生成对抗网络生成相对于各自模块的模态特定特征,再使用SFF模块将原本的模态特定特征和FMC模块生成的模态特定特征进行相加,再和共享特征进行concat。

【心得体会】

对于在RGB图和红外图之间做匹配的VI-ReID任务,可以尝试在特征范围内步长模态的特定信息。

おすすめ

転載: blog.csdn.net/qq_55708326/article/details/129085220