目次
論文リンク: https://arxiv.org/abs/2010.04159
記事の焦点
- DERT の改善には 2 つの問題があります。
- 収束速度が遅い理由は、オブジェクト クエリがゼロから開始され、現在のアテンション メカニズムがグローバルなピクセルごとに特徴を計算するため、時間がかかるためです。
- DERT の検出パフォーマンスは、小さなターゲットには適していません。これは、小さなターゲットの検出には通常、高解像度の特徴マップが必要ですが、DERT はパフォーマンスのトレードオフのため、検出に単一のスケールのみを使用するためです。
- Deformable DERT は、Deformable Convolutionのスパース サンプリングのアイデアを利用し、それを Transformer に拡張し、マルチスケール検出を実行します。対照的に、Deformable Convolution は単一スケールで 1 つのキーポイントを見つけるのに対し、Deformable DERT は複数のスケールで複数のキーポイントを見つけることができます。
- Deformable DERT は、特徴マップ内のターゲット関連の分布が疎であると考えているため、いくつかのターゲット キー ポイント特徴を使用して、疎性を利用して新しい特徴ベクトルを生成します。
変形可能な注意モジュール。
この図は、単一スケールの変形可能な注意モジュールの概略図を示しています。
- 入力はクエリ特徴zq z_qです。zq、pq予測ターゲット中心位置のp_qpq、ターゲット機能xxバツ
- ステップ 2: 重みを生成します。クエリ機能別zq z_qzq線形マッピングを実行し、生成された特徴の一部がサンプリング オフセット( Δ pmqk \Delta p_{mqk}として使用されます)p_ _m q k)、残りは Softmax を渡して注意の重みを生成します( A mqk A_{mqk}あm q k)。
- 3 番目のステップ: キーポイント機能の融合。
- 出力: キーポイントで構成される特徴ベクトル。
シングルスケール変形アテンションモジュールの計算式
式内の各変数の意味については、「 リソース 」を参照してください。
マルチスケール変形アテンションモジュールの計算式
シングルスケールとマルチスケールの変形可能アテンション モジュールの違いは、実際には 1 つの入力特徴マップを複数の特徴マップに変換することであるため、式内の計算は 1 つの特徴マップの計算から複数の特徴マップの計算に拡張されます。小さなターゲットの特徴は高解像度の特徴マップでより顕著になるため、マルチスケールの特徴マップは当然より広く考慮されます。
変形可能な DERTネットワーク構造
上の図はDeformable DERTの検出構造を示しています。
-
入力: 画像のマルチスケール特徴マップ。合計 4 つの特徴マップがあり、最初の 3 つは ResNet の stage3、stage4、および stage5 から取得され、4 番目の特徴マップはステップ サイズ 2 の 3x3 畳み込みを通じて ResNet の stage5 から取得されます。特徴マップの次元C = 256 C=256C=256 . 以下に示すように
-
変形可能なトランスフォーマーエンコーダー
- 入力: 4 つのマルチスケール特徴マップ。
- Encoder の場合、参照点は最初の式のpq p_qです。pqzq z_qと同等ですzqのピクセル。入力は複数のスケールの特徴マップであるため、zq z_qzqは 1 次元ベクトルであるため、スケール埋め込みベクトルel e_lが導入されますe私Position_embeding と同様に、学習可能なパラメーターが機能マップに追加されます。スケール適応係数のようなものです。
- 出力: 入力と同じサイズの 4 つの特徴マップ。
-
変形可能なトランス デコーダー: セルフ アテンションとクロス アテンションが含まれます。セルフアテンションでは、ターゲット クエリが相互作用して類似度を計算します。クロスアテンションでは、ターゲット クエリは、エンコーダによって出力されたターゲット特徴からターゲットに関連するキー ポイント特徴を抽出します。
- 入力は畳み込みによって得られた特徴マップとターゲット クエリであるため、デコーダーのセルフ アテンションはトランスフォーマーのセルフ アテンション計算に従います。
-
Iterative Bounding Box Refine : 論文では予測ボックスを繰り返し出力する方法が使用されています。実際、参照点はターゲットの中心点予測として初期化されます。したがって、予測ヘッダーは実際には参照点の相対オフセットを予測しています。
- Decoder の各レイヤーによって出力された特徴によって予測境界ボックスが生成され、次の式に示すように、後続のレイヤーが前のレイヤーの出力予測をさらに調整します。
- Decoder の各レイヤーによって出力された特徴によって予測境界ボックスが生成され、次の式に示すように、後続のレイヤーが前のレイヤーの出力予測をさらに調整します。
2段階変形可能DERT
この論文では、Deformable DERTの変形、つまり 2 段階Deformable DERTも提案されています。
- 第 1 段階: 多数の提案を作成します。
- 第 2 段階: 提案に含まれる画像特徴をターゲット特徴として直接使用します。
実装の詳細
マルチスケール フィーチャのピクセル フラット化をターゲット クエリとして使用します。実際に計算量を考慮した結果、この 2 段階のDeformable DERT は、実際にはデコーダを省略したEncoder-only Deformable DERTになります。
コードを見て、読んだ後は夜に運動することができます~