PVT v2: Pyramid Vision Transformer によるベースラインの改善

論文アドレス: https://arxiv.org/pdf/2106.13797.pdf
コードアドレス: https://github.com/whai362/PVT

1. 研究の背景

ビジュアル トランスフォーマーに関する最近の研究は、画像分類、オブジェクト検出、インスタンスおよびセマンティック セグメンテーションなどの下流の視覚タスク向けに設計されたバックボーン ネットワークに集約されています。たとえば、Vision Transformer (ViT) は、純粋な Transformer が画像分類において最先端のパフォーマンスを達成できることを初めて実証しました。Pyramid Vision Transformer (PVT v1) は、純粋な Transformer バックボーンが、検出タスクやセグメンテーション タスクなどの高密度予測タスクでも CNN を上回るパフォーマンスを発揮できることを示しています。その後、Swin Transformer、CoaT、LeViT、Twins によって、分類、検出、セグメンテーションにおける Transformer バックボーンのパフォーマンスがさらに向上しました。
この記事は、PVT v1 に基づいて、より強力で実現可能なベースラインを確立することを目的としています。(1)線形
複雑性アテンション層、
(2) オーバーラップパッチ埋め込み、
(3) 畳み込みフィードフォワードネットワークは PVT v1 ネットワークと直交しており、PVT v1 と併用すると、より優れた画像分類を実現できます。オブジェクト検出、インスタンス、セマンティック セグメンテーションのパフォーマンス。改良されたフレームワークは PVT v2 と呼ばれます。

2. 実装の詳細

PVT v1 の 3 つの主な制限は次のとおりです。
(1) ViT と同様に、高解像度入力 (たとえば、短辺 800 ピクセル) を処理する場合、PVT v1 の計算の複雑さは比較的大きくなります。
(2) PVT v1 は画像を重複しないブロックのシーケンスとして扱うため、画像の局所的な連続性がある程度失われます; (3) PVT v1 の位置エンコーディングは固定サイズであるため、処理には適していませ
ん任意のサイズの画像を柔軟に作成できます。これらの問題により、ビジョン タスクにおける PVT v1 のパフォーマンスが制限されます。

1. 直線的な空間は注意力を低下させる

まず、アテンション操作による高い計算コストを削減するために、この論文では、以下の図に示すようなアテンション層 (SRA) を提案します。空間削減に畳み込みを使用する SRA とは異なり、線形 SRA は平均プーリングを使用して、アテンション演算の前に空間次元 (つまり、h × w) を固定サイズ (つまり、P × P) に削減します。したがって、線形 SRA には、畳み込み層と同様に線形の計算コストとストレージ コストがかかります。具体的には、サイズ h × w × c の入力が与えられた場合、SRA と線形 SRA の複雑さは次のようになります。
ここに画像の説明を挿入します
ここで、R は SRA の空間縮小率です。P は線形 SRA のプーリング サイズで、7 に設定されます。
ここに画像の説明を挿入します

2. オーバーラップカットと埋め込み

次に、局所的な連続性情報をモデル化するために、重複するタイルの埋め込みを利用して画像にラベルを付けます。下の図 (a) に示すように、隣接するウィンドウが半分の領域で重なるようにパッチ ウィンドウが拡大され、解像度を維持するために特徴マップがゼロで埋められます。この作業では、ゼロ パディングを伴う畳み込みを使用して、オーバーラップするブロックの埋め込みを実装します。具体的には、サイズ h×w×c の入力が与えられると、ストライド S、カーネル サイズ 2S-1、パディング サイズ S-1 の畳み込みに入力されます。コアの数はc ' c^{'}ですc'出力サイズはh / S × w / S × c ' h/S×w/S×c^{'}h / S×w / S×c
ここに画像の説明を挿入します

3. 畳み込みフィードフォワードネットワーク

このペーパーでは、固定サイズの位置エンコーディングを削除し、PVT にゼロ埋めの位置エンコーディングを導入します。以下の図 (b) に示すように。パディング サイズ 1 の 3×3 深さ方向の畳み込みが、フィードフォワード ネットワーク内の最初の完全接続 (FC) 層と GELU の間に追加されます。
ここに画像の説明を挿入します

4. PVT v2シリーズの詳細情報

このペーパーでは、ハイパーパラメーターを変更することで PVT v2 を B0 から B5 に拡張します。以下に示すように:
S i S_iS私は: ステージ i での重複パッチ埋め込みのストライド;
C i C_iC私は: i 番目のステージが出力するチャンネル数;
L i L_iL私は: ステージ i のエンコーダ層の数;
R i R_iR私は: i 段階における SRA の減少率;
P i P_iP私は: ステージ i の線形 SRA の適応平均プーリング サイズ;
N i N_iN私は: 第 1 段階の有効な自己注意ヘッドの数;
E i E_iE私は: ステージ i のフィードフォワード層の拡張率;
次の表に PVT v2 シリーズの詳細を示します。ResNet の原則に従ってください
(1) チャネルサイズは増加しますが、層が深くなるにつれて空間解像度は減少します。
(2) 計算コストのほとんどはステージ 3 に割り当てられます。
ここに画像の説明を挿入します

5. PVT v2 の利点

これらの改良点を組み合わせることで、PVT v2 は
(1) 画像と特徴マップの局所的連続性をより高めることができ、
(2) 可変解像度の入力をより柔軟に処理でき、
(3) CNN と同じ線形複雑さを実現できます。

3. 実験による検証


ここに画像の説明を挿入します

ここに画像の説明を挿入します
ここに画像の説明を挿入します
PVT v2 のアブレーション実験を表 6 に報告します。3 つの設計はすべて、パフォーマンス、パラメーターの数、または計算オーバーヘッドの点でモデルを改善できます。オーバーラップタイル埋め込み (OPE) は重要です。表 6 の #1 と #2 を比較すると、元のパッチ エンベ​​ディング (PE) を使用したモデルと比較して、OPE を使用したモデルは ImageNet で上位 1 の精度 (81.1% 対 79.8%) を達成し、COCO ではより高い AP (42.2%) を獲得しました。 % 対 40.4%)。OPE は、オーバーラップするスライディング ウィンドウを通じて画像と特徴マップの局所的な連続性をモデル化できるため、効果的です。
畳み込みフィードフォワード ネットワーク (CFFN) は重要です。元のフィードフォワード ネットワーク (FFN) と比較すると、CFFN にはゼロ パディングの畳み込み層が含まれています。入力テンソルの局所的な連続性をキャプチャできます。さらに、OPE および CFFN のゼロパディングは位置情報を導入するため、PVT v1 で使用される固定サイズの位置埋め込みを削除でき、モデルが可変解像度入力を柔軟に処理できるようになります。

おすすめ

転載: blog.csdn.net/qq_52302919/article/details/127788991