セマンティックセグメンテーションのための期待最大化アテンションネットワーク

0. 概要

        自己注意メカニズムはさまざまなタスクで広く使用されています。すべての場所の特徴の加重合計を通じて各場所の表現を計算するように設計されています。したがって、コンピューター ビジョン タスクの長期的な関係をキャプチャできます。ただし、このアプローチは、アテンション マップが他のすべての位置と比較して計算されるため、計算コストが高くなります。この論文では、期待値最大化方式で注意メカニズムを形式化し、注意マップが計算されるよりコンパクトな基底セットを反復的に推定します。これらの基底の加重加算により、結果として得られる表現は低ランクとなり、入力内のノイズ情報が低減されます。提案された期待最大化アテンション (EMA) モジュールは、入力の分散に対して堅牢であり、メモリと計算にも適しています。さらに、トレーニングプロセスを安定させるための基本的なメンテナンスおよび正規化方法を確立しました。私たちは、PASCAL VOC、PASCAL Context、COCO Stuff などの一般的なセマンティック セグメンテーション ベンチマーク データセットに対して広範な実験を実施し、これらのデータセットで新記録を樹立しました。

1 はじめに

        セマンティック セグメンテーションは、コンピュータ ビジョンにおける基本的かつ困難な問題であり、その目標は、画像の各ピクセルにセマンティック カテゴリを割り当てることです。自動運転、画像編集、ロボットの認識など、さまざまなタスクに重要です。セマンティック セグメンテーション タスクを効果的に完了するには、いくつかの紛らわしいカテゴリを区別し、さまざまなオブジェクトの外観を考慮する必要があります。例えば、「草」と「地面」は同じような色をしている場合がありますし、「人物」は画像内の場所によってプロポーションや形、服装が異なる場合があります。同時に、出力ラベル空間は非常にコンパクトであり、特定のデータセットのカテゴリ数は制限されています。したがって、このタスクは、高次元ノイズ空間のデータ ポイントをコンパクトな部分空間に投影するものとみなすことができます。本質は、これらの変更からノイズを除去し、最も重要な意味概念を捉えることです。

最近、上記の問題を解決するために、完全畳み込みネットワーク (FCN) [22] に基づく多くの最先端の方法が提案されています。幾何学的形状が固定されているため、局所的な受容野と短距離のコンテキスト情報によって本質的に制限されます。長距離の依存関係を捉えるために、一部の作品では、アストラス畳み込み [4]、空間ピラミッド [37]、ラージ コンボリューション カーネル畳み込み [25] などのマルチスケール コンテキスト フュージョン [17] を採用しています。さらに、より詳細な情報を保持するために、中レベルと高レベルの意味論的特徴を融合するエンコーダ-デコーダ構造[34、5]が提案されています。すべての空間位置からの情報を集約するには、アテンション メカニズム [29、38、31] が使用されます。これにより、単一ピクセルの特徴が他のすべての位置からの情報を融合できるようになります。ただし、元のアテンションベースの手法では、大規模なアテンション マップを生成する必要があり、計算の複雑さが高く、多くの GPU メモリを消費します。ボトルネックは、アテンション マップの生成と使用がすべての場所に対して相対的に計算されることです。

上記の問題に対応して、本論文は期待値最大化 (EM) アルゴリズム [7] の観点から注意メカニズムを再考し、新しい注意ベースの手法、すなわち期待値最大化注意 (EMA) を提案します。すべてのピクセル自体を再構成基底として扱う以前の方法 [38、31] とは異なり、EM アルゴリズムを使用して、計算の複雑さを大幅に軽減できるよりコンパクトな基底セットを見つけます。具体的には、EM アルゴリズムで学習するパラメータとして建物のベースを扱い、潜在変数としてアテンション マップを扱います。この設定では、EM アルゴリズムはパラメーター (ベース) の最尤推定値を見つけることを目的としています。期待 (E) ステップは、現在のパラメーターを考慮してアテンション マップの期待を推定するために使用され、最大化 (M) ステップは、完全なデータ尤度関数を最大化することによってパラメーター (ベース) を更新するために使用されます。ステップ E とステップ M は収束するまで交互に実行されます。収束後、出力は基底の重み付けされた合計として計算できます。ここで、重みは正規化後の最終的なアテンション マップです。 EMA のプロセスを図 1 に示します。さらに、提案された EMA 手法を EMA ユニットと呼ばれるニューラル ネットワーク モジュールに埋め込みます。 EMA ユニットは一般的な操作で簡単に実装できます。また、非常に軽量なので、既存のニューラル ネットワークに簡単に組み込むことができます。さらに、その能力を最大限に活用するために、EMA ユニットの訓練プロセスを安定させるための 2 つの方法も提案します。また、3 つの困難なデータセットでのパフォーマンスも評価します。

この論文の主な貢献は次のとおりです。 • 自己注意メカニズムを期待値最大化の反復アプローチとして再定義します。これにより、よりコンパクトな基底セットを学習し、計算の複雑さを大幅に軽減できます。私たちの知る限り、EM 反復がアテンション メカニズムに導入されるのはこれが初めてです。 •提案された期待を最大化する注意をニューラルネットワークの軽量モジュールとして構築し、基礎となるメンテナンスと正規化の具体的な方法を確立します。 • PASCAL VOC、PASCAL Context、COCO Stuff を含む 3 つの困難なセマンティック セグメンテーション データセットに対する広範な実験により、私たちの手法が他の最先端の手法よりも優れていることが実証されました。

図 1: 提案する期待値最大化注意手法のフロー。

2.関連作品

        セマンティックセグメンテーション。完全畳み込みネットワーク (FCN) [22] に基づく手法は、大規模データで事前トレーニングされた分類ネットワーク [14、15、33] の強力な畳み込み機能を活用することにより、画像のセマンティック セグメンテーションにおいて大きな進歩を遂げました。マルチスケールのコンテキスト集約を強化するために、いくつかのモデルのバリアントが提案されています。たとえば、DeeplabV2 [4] は Star Spatial Pyramid Pooling (ASPP) を利用して、異なる拡張率を持つ並列拡張畳み込みを含むコンテキスト情報を埋め込みます。 DeeplabV3 [4] は、イメージ レベルの機能で ASPP を拡張し、グローバル コンテキストをさらにキャプチャします。一方、PSPNet [37] は、さまざまなスケールでコンテキスト情報を収集するためのピラミッド プーリング モジュールを提案しています。 GCN [25] は、大きな畳み込みカーネル畳み込みのデカップリングを採用して、特徴マップの大きな受容野を取得し、長距離情報を捕捉します。別のカテゴリのバリアントでは、より詳細な出力を予測することに主に焦点を当てています。これらの方法は U-Net [27] に基づいており、高レベルの機能と中レベルの機能の利点を組み合わせています。 RefineNet [21] は、ラプラシアン画像ピラミッドを利用して、ダウンサンプリング中に利用可能な情報を明示的にキャプチャし、粗いものから細かいものまで予測を出力します。 DeeplabV3+ [5] は、特にオブジェクト境界に沿ったセグメンテーション結果を改善するために、DeeplabV3 にデコーダを追加します。 Exfuse [36] は、低レベルの特徴と高レベルの特徴の間のギャップを埋める新しいフレームワークを提案し、それによってセグメンテーションの品質を向上させました。

        注目モデル。アテンションは、機械翻訳、視覚的な質問応答、ビデオ分類などのさまざまなタスクで広く使用されています。セルフ アテンション メソッド [2、29] は、文内のすべての位置の埋め込みの加重和を取ることによって、位置の文脈上のエンコードを計算します。 Non-local [31] は、ビデオ分類、オブジェクト検出、インスタンス セグメンテーションなどのコンピューター ビジョン タスクのモジュールとしてセルフ アテンション メカニズムを最初に使用しました。 PSANet [38] は、予測されたアテンション マップを通じて各場所のコンテキスト情報を集約することを学習します。 A2Net [6] は、時空間画像空間全体から有益なグローバル特徴を分散および収集するためのデュアル アテンション ブロックを提案しています。 DANet [11] は、空間およびチャネルの注意を特徴マップ周辺の集約情報に適用します。その計算コストとストレージ コストは、非ローカルな方法よりもさらに高くなります。私たちのアプローチは、上記の研究における注意メカニズムの成功に触発されています。 EM アルゴリズムの観点から注意メカニズムを再考し、EM アルゴリズムの反復方法で注意マップを計算します。

3.予備知識

        提案手法を紹介する前に、まず 3 つの関連性の高い手法、つまり EM アルゴリズム、混合ガウス モデル、および非ローカル モジュールを確認します。

3.1. 期待値最大化アルゴリズム

        期待値最大化 (EM) [7] アルゴリズムは、潜在変数モデルの最尤解を見つけることを目的としています。 X = {x1, x2,...,xN} を N 個の観測サンプルを含むデータセットとして示し、各データ点 xi は対応する潜在変数 zi を持ちます。 {X, Z} を完全データと呼び、その尤度関数は ln p(X, Z | θ) の形式になります。ここで、θ はモデルのすべてのパラメーターのセットです。実際には、事後分布 p(Z|X,θ) を通じてのみ Z の潜在変数の知識を得ることができます。 EM アルゴリズムは、E ステップと M ステップという 2 つのステップを通じて尤度 ln p(X, Z | θ) を最大化することを目的としています。ステップ E では、現在のパラメーター θold を使用して、p(X,Z|θ) で与えられる Z の事後分布を求めます。次に、事後分布を使用して、完全なデータ尤度 Qθ、θold の期待値を計算します。Qθ、θold = X z p Z|X、θoldln p (X, Z | θ) で求められます。 (1) 次に、ステップ M で、関数 θnew = arg max θQθ, θold を最大化することによって修正パラメータ θnew が決定されます。 (2) EM アルゴリズムは、収束条件が満たされるまでステップ E と M を交互に実行します。

3.2. 混合ガウスモデル

実際のアプリケーションでは、Σk を単位行列 I に置き換えるだけでよく、上記の式で Σk を省略できます。

3.3. 非ローカル

        非ローカルモジュール [31] の機能はセルフアテンション機構と同じです。これは次のように表すことができます: ここで、f(・,・) は一般的なカーネル関数を表し、C(x) は正規化係数、xi は位置 i の固有ベクトルを表します。このモジュールは畳み込みニューラル ネットワーク (CNN) の特徴マップに適用されているため、式 (5) の N(xn|µk, Σk) が xn と µk の間の特定のカーネル関数であると考えると、式 (8) は次の式となります。 (9) 特定のデザイン。したがって、GMM の観点からは、非ローカル モジュールは E ステップと M ステップなしで X を再推定するだけです。具体的には、μ は非ローカル モジュールで選択された X にすぎません。 GMM では、ガウス基底は手動で選択され、通常は K ≪ N を満たします。ただし、非ローカル モジュールでは、ベースはデータ自体になるように選択されるため、K = N となります。非ローカル モジュールには 2 つの明らかな欠点があります。まず、データは低次元多様体であるため、基数が多すぎます。第二に、計算オーバーヘッドが高く、メモリコストも高くなります。

4. 最大限の注意を払うことを期待する

        注意メカニズムの高い計算複雑性と非ローカルモジュールの制限を考慮して、我々は最初に自己注意の強化版である期待最大化注意(EMA)法を提案する。すべてのデータ ポイントをカーディナリティとして選択する非ローカル モジュールとは異なり、EM 反復を使用してコンパクトなカーディナリティのセットを見つけます。表記を簡素化するために、入力特徴マップを再形成します。私たちが提案する EMA は、責任推定 (AE)、尤度最大化 (AM)、データ再推定 (AR) の 3 つの操作で構成されます。簡単に言えば、与えられた入力AM はこの推定値を使用して、ベース µ を M ステップとして更新します。 AE ステップと AM ステップは、事前に指定された反復回数だけ交互に実行されます。次に、AR は収束した µ と Z を使用して、元の X を Y に再構成して出力します。

EM ステップの反復により、完全なデータ尤度 ln p(X,Z) が単調に増加することが示されています。 ln p(X) は Z を周辺化することで推定できるため、ln p(X,Z) の最大化は ln p(X) を最大化するための代用となります。したがって、AE と AM を繰り返すことで、更新された Z と µ によって元のデータ X をより適切に再構築できます。再構成された X~ は、X の重要なセマンティクスを可能な限り多く捉えることができます。さらに、非ローカル モジュールと比較して、EMA は入力画像のピクセルのカーディナリティのコンパクトなセットを見つけます。コンパクトさは重要です。 K ≪ N なので、X~ は X の部分空間にあります。このメカニズムにより、多くの不要なノイズが除去され、各ピクセルの最終的な分類がより扱いやすくなります。さらに、この演算により、複雑さ (空間と時間) が O(N^2) から O(NKT) に軽減されます。ここで、T は AE と AM の反復回数です。 EM アルゴリズムの収束性も保証されています。私たちの実験では、EMA は良好な結果を得るために 3 回の反復のみを必要としていることに注目してください。したがって、T は小さな定数と考えることができ、これは複雑さがわずか O(NK) であることを意味します。

図 2: 提案された EMAU の全体構造。重要なコンポーネントは EMA オペレーターで、AE と AM が交互に実行されます。 EMA 演算子に加えて、EMA の最初と最後に 2 つの 1×1 畳み込みを追加し、出力と元の入力を合計して残差のようなブロックを形成します。スクリーンで見るのが一番いい。

4.1. 責任の評価

        責任推定 (AE) は、EM アルゴリズムの E ステップとして使用されます。このステップでは、znk の期待値を計算します。これは、xn に対する k 番目の基数 µ の責任に対応します (1≤k≤K および 1≤n≤N)。 µk が与えられた場合の xn の事後確率は、p(xn|µk)=K(xn,µk) のように表します。ここで、K は一般的なカーネル関数を表します。ここで、式 (5) をより一般的な形式に再定式化できます。         K(a,b) には、内積 a⊤b、指数内積 exp(a など) のオプションがいくつかあります。 ⊤ b)、ユークリッド距離 ka−bk2/2、RBF カーネル exp[−ka−bk2/σ2] など。これらの関数の選択は、非ローカル モジュールと比較して、最終結果にほとんど影響を与えません。したがって、私たちの論文では、単純に指数内積 exp(a⊤b) を採用します。実験では、式 (11) は行列乗算とソフトマックス層として実装できます。つまり、t 回目の反復では、AE の操作は次のように表すことができます。

4.2. 尤度関数の最大化

        尤度最大化 (AM) は、EM アルゴリズムの M ステップとして使用されます。 AM は推定された Z を使用して、完全なデータの可能性を最大化することで µ を更新します。基数を X と同じ埋め込み空間に維持するために、X の加重和を使用して基数 µ を更新します。したがって、μk の更新は次のようになります。

        AM の t 回目の反復内。式 (12) で λ→∞ を変更すると、{zn1, zn2,...,znK} はワンホット埋め込みになることに注意してください。この場合、各ピクセルは 1 つのベースのみに割り当てられます。そして、ベースは、それに割り当てられたピクセルの平均によって更新されます。これは、K-means クラスタリング アルゴリズム [10] が行うことです。したがって、AE と AM の反復は、K 平均法クラスタリングのソフト バージョンと考えることもできます。

4.3. データの再評価

        EMA は AE と AM を交互に合計 T 回実行します。この後、最終的な µ(T) と Z(T) を使用して X を再推定します。式 (8) を使用して新しい X、つまり X~ を構築します。これは、X~=Z(T)μ(T) として表されます。 (14) X~ はコンパクトな基数集合から構成されるため、入力 X と比較して低ランクの特性を持ちます。図 2 に X~ の例を示します。明らかに、AR からの X~ 出力は特徴空間内で非常にコンパクトであり、オブジェクト内の特徴の分散は入力の分散よりも小さくなります。

5.EMAユニット

        提案された EMA をディープ ニューラル ネットワークとより適切に組み合わせるために、期待最大化アテンション ユニット (EMAU) をさらに提案し、それをセマンティック セグメンテーション タスクに適用します。このセクションでは、EMAU について詳しく説明します。まず EMAU の全体的な構造を紹介し、次にカーディナリティの維持と正規化のメカニズムについて説明します。

5.1.EMAユニットの構造

        EMAU の全体構造を図 2 に示します。 EMAU は一見 ResNet のボトルネック構造に似ていますが、重い 3×3 畳み込みを EMA 演算に置き換えます。まず、ReLU 活性化を行わない最初の畳み込みが追加され、入力の値の範囲が (0, +∞) から (−∞, +∞) に変換されます。この変換は非常に重要です。そうでないと、推定された µ(T) も [0, +∞) の範囲になり、一般的な畳み込みパラメーターと比較して容量が半分になります。最後に、1×1 畳み込みを挿入して、再推定された X~ を X の残差空間に変換します。 AE、AM、AR の各ステップの計算量は O(NKC) です。 K ≪ C に設定したため、AE と AM の数回の反復と 1 つの AR は、C の入力および出力チャネル番号による 1×1 の畳み込みと同じ桁にしかなりません。 2 つの 1×1 畳み込みの追加計算により、EMAU の全体的な FLOP は、同じ数の入出力チャネルで 3×3 畳み込みを実行するモジュールの約 1/3 になります。さらに、EMA によって維持されるパラメータは KC としてのみカウントされます。

5.2.基本的なメンテナンス

        EM アルゴリズムのもう 1 つの問題は、ベースの初期化です。 EM アルゴリズムでは収束が保証されています。これは、完全なデータの可能性が制限されており、反復ごとに E ステップと M ステップが現在の下限を増加させるためです。ただし、グローバル最大値への収束は保証されません。したがって、反復前の基底の初期値は非常に重要です。上記では、EMA を使用して画像を処理する方法についてのみ説明しました。ただし、コンピューター ビジョン タスクの場合、データセットには数千の画像が含まれます。各画像 X は異なるピクセル特徴分布を持っているため、ある画像で計算された μ を使用して他の画像の特徴マップを再構成することは適切ではありません。したがって、各画像に対して EMA を実行します。

        最初のミニバッチでは、Kaiming の初期化 [13] を使用して µ(0) を初期化します。この初期化では、行列の乗算を 1×1 の畳み込みとして扱います。次のミニバッチの場合、簡単なオプションは、標準の逆伝播を使用して µ(0) を更新することです。ただし、AE と AM の反復はリカレント ニューラル ネットワーク (RNN) に拡張できるため、それらを介して伝播される勾配は消失または爆発の問題に遭遇します。したがって、μ(0) の更新は不安定であり、EMA ユニットのトレーニング プロセスがクラッシュする可能性があります。この論文では、トレーニング中に移動平均を使用して µ(0) を更新します。画像を反復処理した後、結果の µ(T) は µ(0) のバイアスされた更新として見ることができます。バイアスは画像サンプリング プロセスから生じます。偏りを少なくするために、まずミニバッチ全体で µ(T) を平均して µ ̄(T) を取得します。次に、μ(0) を次のように更新します。 μ(0)←αμ(0)+(1−α)μ ̄(T) (15) ここで、α∈[0,1] は運動量です。推論では、μ(0) は変更されません。この移動平均メカニズムはバッチ正規化 (BN) [16] にも適しています。

5.3. 基本的な標準化

        上のサブセクションでは、各ミニバッチ µ(0) のメンテナンスを完了しました。ただし、RNN の欠陥により、AE および AM の反復における µ(t) の安定した更新はまだ保証されていません。上記の移動平均メカニズムでは、μ ̄(T) が μ(0) と大きく異なっていないことが必要です。そうでない場合は、バックプロパゲーションと同様に崩壊します。この要件は、μ(t) の値の範囲 (1≤t≤T) も制限します。これを行うには、μ(t) に正規化を適用する必要があります。一見すると、バッチ正規化 (BN) またはレイヤー正規化 (LN) [1] が良い選択のように思えます。ただし、これらの正規化方法は各基底 µ(kt) の方向を変更するため、そのプロパティと意味論的な意味が変わります。各基底ベクトルの方向を変更しないようにするには、各 µ(kt) をその長さで割るユークリッド正規化 (L2Norm) を選択します。これを適用すると、µ(t) は K 次元の和集合超球上にあり、その上に nµ(0)k、µ(1)k、...、µ(kT)o の系列が軌道を形成します。

5.4. 二重注意との比較

        A2Net [6] は、出力 Y が次のように計算されるデュアル アテンション ブロック (A2 ブロック) を提案しました: Y = hφ(X, Wφ)sfm(θ(X,Wθ))⊤isfm(ρ(X,Wρ)) , ( 16) ここで、sfm はソフトマックス関数を表します。 φ、θ、ρ は、それぞれコンボリューション カーネル Wφ、Wθ、Wρ を使用した 3 つの 1 × 1 コンボリューションを表します。 θ と ρ の間でパラメータを共有する場合、Wθ と Wρ の両方を µ としてラベル付けできます。 sfm(θ(X,Wθ)) は式 (5) と同じように Z を計算するだけであり、[・] 内にある変数が µ を更新することがわかります。 A2 ブロックのプロセス全体は、反復が 1 回だけの EMA と同等です。ブロック A2 の Wθ は逆伝播によって更新され、EMAU は移動平均によって更新されます。要約すると、デュアル アテンション ブロックは EMAU の特殊な形式とみなすことができます。

図 3: EMAU 基底ベクトル維持戦略 (左) と正規化 (右) のアブレーション研究。実験は、PASCAL VOC データセットに対して ResNet-50 を使用し、バッチサイズ 12、トレーニング出力ストライド 16 で実施されました。トレーニング反復数 T は 3 に設定されます。最高の視聴画面。

6. 実験

        提案された EMAU を評価するために、PASCAL VOC データセット [9]、PASCAL Context データセット [24]、および COCO Stuff データセット [3] に対して広範な実験を実施しました。このセクションでは、まず実装の詳細を紹介します。次に、アブレーション研究を実施して、PASCAL VOC データセットに対する提案手法の優位性を検証します。最後に、PASCAL Context データセットと COCO Stuff データセットに関する結果を報告します。

6.1. 実装の詳細

        ImageNet [28] で事前トレーニングされた ResNet [14] をバックボーン ネットワークとして使用します。以前の研究 [37、4、5] に従って、多項式学習率戦略を採用します。この戦略では、各反復後に初期学習率に (1-iter/合計 iter) 0.9 が乗算されます。すべてのデータセットの初期学習率は 0.009 に設定されます。運動量と重量減衰係数はそれぞれ 0.9 と 0.0001 に設定されます。データ拡張では、一般的なスケーリング (0.5 から 2.0)、トリミング、画像反転を適用してトレーニング データを強化します。すべてのデータセットの入力サイズは 513×513 に設定されます。すべての実験で、同時バッチ正規化とマルチグリッド [4] が採用されました。評価には、一般的に使用される平均交差対和集合比メトリックを採用します。バックボーン ネットワークの出力ストライドは、PASCAL VOC および PASCAL Context でトレーニングされた場合は 16 に設定され、COCO Stuff でトレーニングされてすべてのデータセットで評価された場合は 8 に設定されました。トレーニングプロセスをスピードアップするために、我々はすべてのアブレーションスタディを ResNet-50 [14] でバッチサイズ 12 で実行します。最先端のモデルと比較したすべてのモデルについて、バッチ サイズ 16 の ResNet-101 でトレーニングしました。 PASCAL VOC と COCO Stuff で 30,000 回の反復、PASCAL Context で 15,000 回の反復でトレーニングします。 3×3 畳み込みを使用してチャネル数を 2,048 から 512 に減らし、その上に EMAU をスタックします。ネットワーク全体を EMANet と呼びます。学習のデフォルト値として、基底数 K を 64、λ を 1、反復数 T を 3 に設定します。

図 4: 反復数 T のアブレーション研究。実験は、PASCAL VOC データセットに対して ResNet-50 を使用し、トレーニング出力ストライド 16、バッチ サイズ 12 で実施されました。

6.2. PASCAL VOC データセットの結果

6.2.1.基本的な保守と標準化

        このセクションでは、まずさまざまなメンテナンス µ(0) 戦略のパフォーマンスを比較します。トレーニングでは T=3、評価では 1≤T≤8 に設定しました。図 3 の左側に示されているように、AE と AM の反復回数が増加するにつれて、すべての戦略のパフォーマンスが向上します。 T ≥ 4 の場合、より多くの反復によるゲインは重要ではなくなります。移動平均はそれらすべての中で最もパフォーマンスが優れています。すべての反復で最高のパフォーマンスを達成し、mIoU に関しては他の方法よりも少なくとも 0.9 優れています。驚くべきことに、バックプロパゲーション更新は、更新がない場合と比べて利点が見られず、T ≥ 3 の場合にはパフォーマンスが低下することさえあります。次に、上記のように正規化なし、LN および L2Norm を使用した場合のパフォーマンスを比較します。図 3 の右側から、LN は正規化しない場合よりもさらに悪いことが明らかです。それは、同様の RNN 構造の勾配問題を部分的に軽減できるためです。 LN と正規化なしのパフォーマンスは、反復回数 T とほとんど相関がありません。対照的に、L2Norm のパフォーマンスは反復回数が増えるにつれて向上し、T ≥ 3 の場合、LN および正規化なしのパフォーマンスを上回ります。

6.2.2. 反復回数のアブレーション研究

        図 3 から、評価プロセス中、反復回数が増えると EMAU のパフォーマンスが向上し、T > 4 になるとゲインがわずかになることがわかります。このサブセクションでは、トレーニング中の T の影響についても研究します。図 4 に Ttrain と T eval のパフォーマンス マトリックスをプロットします。図 4 から明らかなように、Ttrain が何であっても、反復が増えるにつれて mIoU は単調に増加します。最終的には一定の値に収束します。ただし、このルールはトレーニングには適用されません。 mIoU は Ttrain=3 でピークに達し、反復が増えるにつれて減少します。この現象は、EMAU の RNN のような動作によって引き起こされる可能性があります。移動平均と L2Norm はこの問題をある程度軽減できますが、問題は依然として存在します。また、5.4 節で述べた EMAU の特殊な形式とみなせる A2 ブロック [6] についても実験を行いました。同様に、非ローカル モジュールも、より多くのカーディナリティと Ttrain=1 を含む、AM ステップのない特別な形式の EMAU とみなすこともできます。同じバックボーン ネットワークとトレーニング スケジューラの下で、Ttrain = 1 および T eval = 1 の場合、A2 ブロックは mIoU で 77.41% を達成し、非ローカル モジュールは mIoU で 77.78% を達成し、EMANet は 77.34% を達成します。これら 3 つの結果にはわずかな違いがありますが、私たちの分析と一致しています。

表 1: ResNet-101 と PASCAL VOC の出力ストライド 8 を使用した DeeplabV3/V3+ と PSANet の詳細な mIoU (%) 比較。 FLOP とメモリは入力サイズ 513×513 を使用して計算されます。 SS: テスト中のシングルスケール入力。 MS: マルチスケール入力。 Flip: 左右を反転する入力を追加します。 EMANet(256) と EMANet(512) は、それぞれ入力チャネル番号 256 と 512 の EMANet を表します。

表 2: PASCAL VOC テスト セットの比較。

表 3: PASCAL Context テスト セットの既存の手法との比較。 「+」は COCO Stuff の事前トレーニングを示します。 表 4: COCO Stuff テスト セットの比較。

6.2.3. 最先端の手法との比較

        まず、検証セット上の 3 つのベースライン モデル、つまり DeeplabV3、DeeplabV3+、PSANet と EMANet を徹底的に比較しました。表 1 に、mIoU、FLOP、メモリ コスト、パラメータの数を報告します。 EMANet は、これら 3 つのベースライン モデルよりもパフォーマンスが大幅に優れていることがわかります。さらに、EMANet では計算とメモリの負担が大幅に軽減されます。さらに、私たちの方法を PASCAL VOC テスト セットの既存の方法と比較します。以前の方法 [4、5] に従って、COCO、VOC trainaug、および VOC trainval セットで EMANet を順番にトレーニングします。基本学習率をそれぞれ 0.009、0.001、0.0001 に設定しました。 COCO では 150,000 回の反復を実行し、最後の 2 ラウンドでは 30,000 回の反復を実行しました。テストセットを推論する際には、マルチスケールテストと左右反転を利用します。表 2 に示すように、当社の EMANet は PASCAL VOC で新記録を樹立し、DeeplabV3 の同じバックボーンと比較して mIoU を 2.0% 改善しています [4]。当社の EMANet は、ResNet-101 バックボーンを使用するネットワークの中で最高のパフォーマンスを示し、以前の最高の結果を 0.9% 改善しました。このベンチマークは競争力が非常に高いため、これは非常に重要です。さらに、一部の大規模なバックボーン ネットワークに基づく方法と同等のパフォーマンスを実現します。 図 5: 最後の反復中の責任 Z の視覚化。最初の 2 行は、PASCAL VOC 検証セットの 2 つの例を示しています。最後の 2 行は、PASCAL コンテキスト検証セットの 2 つの例を示しています。 z・i は、最後の反復ですべてのピクセルに割り当てられた i 番目の基底の責任を表します。 i、j、k、および l は、1 ≤ i、j、k、l ≤ K である、ランダムに選択された 4 つのインデックスです。スクリーンで見るのが一番いい。

6.3. PASCAL Context データセットの結果

        私たちが提案した EMANet の一般化能力を検証するために、PASCAL Context データ セットで実験を実施しました。 PASCAL Context の定量的な結果を表 3 に示します。私たちの知る限りでは、ResNet-101 に基づく EMANet は、PASCAL Context データセット上で最高のパフォーマンスを実現します。追加データ (COCO スタッフ) で事前トレーニングを行ったとしても、SGR+ は依然として EMANet には及ばない。

6.4. COCO スタッフデータセットの実験結果

        私たちの方法の有効性をさらに評価するために、COCO Stuff データセットでも実験を実施しました。以前の最先端の方法との比較結果を表 4 に示します。特に、EMANet は mIoU で 39.9% を達成し、以前の方法を大幅に上回りました。

6.5. 基本的な責任の可視化

        私たちが提案する EMAU をより深く理解するために、図 5 の反復責​​任マッピング Z を視覚化します。画像ごとに、4 つの基底 (i、j、k、l) をランダムに選択し、最後の反復におけるすべてのピクセルに対する対応する責任を示します。明らかに、各基底はイメージの抽象概念に対応します。反復 AE と AM が進むにつれて、抽象的な概念がよりコンパクトかつ明確になります。これまで見てきたように、これらのベースは、単に前景と背景に焦点を当てるのではなく、いくつかの特定のセマンティクスに収束します。具体的には、最初の 2 行のベースは、人間、ワイングラス、カトラリー、プロフィールなどの特定のセマンティクスに焦点を当てています。基礎の最後の 2 行は、帆船、山、飛行機、車線に焦点を当てています。

7. まとめ

        この論文では、新しい注意メカニズム、つまり期待最大化アテンション (EMA) を提案します。これは、EM アルゴリズムを繰り返し実行することによって、よりコンパクトな基底セットを計算します。 EMA の再構成された出力は低ランクであり、入力の変化に対して堅牢です。提案された手法を、既存の CNN にわずかなコストで簡単に挿入できる軽量モジュールに形式化します。多くのベンチマーク データセットに対する広範な実験により、提案された EMAU の有効性と効率性が実証されています。

おすすめ

転載: blog.csdn.net/ADICDFHL/article/details/133762407