第 24 章: WeaklySupervised セマンティック セグメンテーションの情報ボトルネックの軽減—WeaklySupervised Semantic Segmentation の情報ボトルネックの軽減

0. 概要

        弱教師セマンティック セグメンテーションは、カテゴリ ラベルを通じてピクセル レベルの位置特定を生成します。ただし、これらのラベルを使用してトレーニングされた分類器は、多くの場合、ターゲット オブジェクトの小さな識別可能な領域にのみ焦点を当てます。この現象は、情報ボトルネック原理を使用して説明されます。ディープ ニューラル ネットワークの最後の層は、シグモイドまたはソフトマックス活性化関数を通じて情報ボトルネックを引き起こし、その結果、タスク関連情報のサブセットのみが出力層に渡されます。我々はまずこの議論をおもちゃの模擬実験で裏付け、次に最後の活性化関数を削除することで情報のボトルネックを軽減する方法を提案します。さらに、非識別領域から分類子への情報の転送をさらに促進する新しいプーリング方法を導入します。私たちの実験による評価では、この簡単な変更により、PASCAL VOC 2012 および MS COCO 2014 データセットのローカライゼーション マップの品質が大幅に向上し、弱く監視されたセマンティック セグメンテーションにおける最先端のパフォーマンスが実証されたことが示されています。コードは次の場所にあります: GitHub - jbeomlee93/RIB: 弱監視セマンティック セグメンテーションの情報ボトルネックの削減 (NeurIPS 2021)

1 はじめに

        セマンティック セグメンテーションは、ピクセル レベルで割り当てられたセマンティック ラベルを使用して画像内のオブジェクトを識別するタスクです。ディープ ニューラル ネットワーク (DNN) の開発により、セマンティック セグメンテーションが大幅に進歩しました。セマンティック セグメンテーション用に DNN をトレーニングするには、ピクセル レベルのラベルが付いた多数の画像を含むデータセットが必要です。ただし、このようなデータセットの準備にはかなりの労力が必要です。たとえば、Cityscapes データセット内の 1 つの画像に対してピクセル レベルのアノテーションを生成するには 90 分以上かかりました。ピクセルレベルのラベルへの高い依存性は、弱教師学習によって軽減できます。

        弱教師セマンティック セグメンテーションの目標は、ピクセル レベルのラベルよりもターゲット オブジェクトの位置に関する情報が少ないが、取得コストが低い弱いアノテーションを使用してセグメンテーション ネットワークをトレーニングすることです。弱い監視は、落書き、境界ボックス、または画像レベルのカテゴリ ラベルの形をとることがあります。この研究では、画像レベルのクラス ラベルに焦点を当てます。これは、画像レベルのクラス ラベルが弱い監視に最も安価で最も一般的なオプションであるためです。クラス ラベルを使用するほとんどのメソッドは、トレーニングされた分類器 (CAM や Grad-CAM など) からのローカリゼーション (属性) マップを利用して、セグメンテーション ネットワークをトレーニングするための偽のグラウンド トゥルースを生成します。ただし、これらのマップは、分類において差別化の役割を果たすターゲット オブジェクトの小さな領域を識別するだけであり、ターゲット オブジェクト全体が占める領域を識別できないため、これらのアトリビューション マップはセマンティック セグメンテーション ネットワークのトレーニングには適していません。この現象を情報ボトルネック原理を使って説明します。

        情報ボトルネック理論は、連続した DNN レイヤーにおける情報の流れを分析します。つまり、入力情報は、DNN の各レイヤーを通過する際に可能な限り圧縮され、タスクに関連する情報は可能な限り保持されます。これは、分類に最適な表現を取得する場合には有利ですが、結果として得られる分類子の属性マップを弱教師セマンティック セグメンテーションに適用する場合には不利になります。情報ボトルネックにより、ターゲット オブジェクトの非識別情報が分類ロジックで考慮されることが妨げられるため、属性図はターゲット オブジェクトの小さな識別領域のみに焦点を当てます。

        DNN の最終層では、双方向飽和活性化関数 (シグモイド、ソフトマックスなど) が使用されるため、情報ボトルネックが顕著になると考えられます。 DNN の最終層を再学習する際に最後の活性化関数を削除することで情報ボトルネックを軽減する方法を提案します。さらに、識別特徴ではなく非識別特徴に埋め込まれたより多くの情報を DNN の最後の層で処理できるようにする新しいプーリング方法を導入します。したがって、私たちの方法で取得された分類子の属性マップには、ターゲットオブジェクトに関するより多くの情報が含まれています。

        この研究の主な貢献は次のように要約されます。まず、情報ボトルネックは主に DNN の最後の層で発生し、その結果、トレーニングされた分類器から取得される属性マップがターゲット オブジェクトの小さな識別領域に限定されることを強調します。第 2 に、既存のトレーニング スキームを変更するだけで、この情報ボトルネックを軽減する方法を提案します。第三に、私たちの方法は、トレーニングされた分類子から得られるローカリゼーション マップの品質を大幅に向上させ、弱く教師付きのセマンティック セグメンテーションに対する PASCAL VOC 2012 および MS COCO 2014 データセットでの最先端のパフォーマンスを実証します。

2. 事前の準備作業

2.1. 情報のボトルネック

        2 つの確率変数 X および Y が与えられると、相互情報量 I(X; Y) は 2 つの変数間の相互依存性を定量化します。データ処理不等式 (DPI) [13] は、マルコフ連鎖 X → Y → Z を満たす任意の 3 つの変数 X、Y、Z の相互情報量が I(X; Y) ≥ I(X; Z) を満たすと推論します。 DNN の各層は前の層からの入力のみを処理します。これは、DNN 層がマルコフ連鎖を形成することを意味します。したがって、これらの層を通る情報の流れは DPI で表すことができます。具体的には、L 層 DNN が、与えられた入力 X から中間特徴 Tl (1 ≤ l ≤ L) を介して出力 Y^ を生成するとき、マルコフ連鎖 X → T1 → · · · → TL → Y ^ と、対応する DPI 連鎖を形成します。は次のように表現できます。

        これは、入力 X の情報が DNN の層を通過するときに圧縮されることを意味します。分類ネットワークのトレーニングは、分類に必要な情報をできるだけ多く保持する入力の最大圧縮された特徴を抽出することと解釈できます。これらの特徴は、最小限の十分な特徴 (つまり、識別情報) と呼ばれることがよくあります。最小限の十分な特徴 (つまり、最適な表現 T∗) は、相互情報量 I(X; T) と I(T; Y) (圧縮と分類) の間の情報ボトルネックのトレードオフによって取得できます [54, 15]。言い換えると、T∗ = argminT I(X; T) − βI(T; Y)、ここで β≥0 はラグランジュ乗数です。 Shwartz-Ziv らは、最適な表現 T∗ を見つけるプロセスに圧縮段階があることを観察しました: l が固定されている場合、観察される I(X, Tl) は最初の数エポックでは着実に増加しますが、後のエポックでは減少します。 [49]。 Saxe らは、圧縮段階は主に双方向飽和非線形関数 (tanh やシグモイドなど) を備えた DNN で発生するが、一方向飽和非線形関数 (ReLU など) を備えた DNN では発生しないと考えています [46]。これは、一方向飽和非線形関数を備えた DNN は、双方向飽和非線形関数を備えた DNN よりも情報ボトルネックが少ないことを意味します。これは、双方向飽和非線形関数の勾配飽和からも理解できます。勾配が特定の値を超える入力に関連する場合、勾配はゼロ近くで飽和します [8]。したがって、バックプロパゲーション中、特定の値を超える特徴はゼロに近い勾配を持ち、分類へのさらなる寄与が制限されます。

2.2. クラス活性化図

        クラス アクティベーション マップ (CAM) [66] は、分類子が焦点を当てる画像領域を識別します。 CAM は、最終分類層の前にグローバル平均プーリング (GAP) を使用する畳み込みニューラル ネットワークに基づいています。これは、最後の特徴マップの各チャネルの分類スコアに対するクラス固有の寄与を考慮することによって実現されます。 θ = {θf, w} でパラメータ化された分類器が与えられると、f(・; θf) は GAP 前の特徴抽出器、w は最終分類層の重みであり、クラス c の CAM は画像 x から取得されます。次のようになります。 :

2.3.関連作品

弱く監視されたセマンティック セグメンテーション:弱く監視されたセマンティック セグメンテーション手法は、まず、トレーニングされた分類子から高品質のローカリゼーション マップを取得することによって初期シードを構築します。消去方法 [56、37、22] は、識別領域が消去された画像を分類器に入力することにより、分類器がオブジェクトの識別部分のみに焦点を合わせるのを防ぎます。ターゲット オブジェクトの複数のコンテキストは、異なる拡張畳み込み [31、57] または DNN の異なる層から得られた複数の属性マップを組み合わせたり、画像間の意味論的な類似性と相違点を考慮したりすることによって考慮できます [17、51]。 Zhang et al. [62] は、画像、背景、クラスラベル間の因果関係を分析し、分類における混乱バイアスを排除するために CONTA を提案しました。分類ネットワークによって取得された位置マップはターゲット オブジェクトの境界を正確に表現できないため、PSA [3] や IRN [2] などの後続の境界リファインメント手法を使用して、上記の方法で取得した初期シードをリファインすることができます。

情報ボトルネック:Tishby et al. [54] と Shwartz et al. [49] は、情報ボトルネック理論を使用して DNN の内部動作原理を分析しています。情報ボトルネックの概念は、多くの研究分野に適用されています。 Dubois ら [15] と Achille ら [1] は、情報のボトルネックを利用して DNN から最適な表現を取得します。 DICE [45] は、情報ボトルネック原理に基づいたモデル統合方法を提案しました。この方法は、特徴と入力の間の不必要な相互情報、および個別にトレーニングされた DNN によって生成された特徴間で共有される冗長な情報を削減することを目的としています。 Jeon ら [26] は、情報ボトルネック原理を使用して、生成モデルの分離表現学習を研究しています [19]。 ying et al. [60] は、メタ学習における記憶の問題に対処するために、情報理論に基づいて正則化目標を設計しました。情報ボトルネック原理は、分類器の視覚的顕著性マップを生成するためにも使用できます。 Zhmoginov et al. [65] は情報ボトルネックのトレードオフを通じて分類器の重要な領域を見つけ、Schulz et al. [47] は中間特徴マップにノイズを追加することで情報の流れを制限し、画像領域に含まれる情報量を定量化します。

3. 提案手法

        クラスラベルを使用した弱教師セマンティックセグメンテーション手法では、CAM [66] または Grad-CAM [48] を使用して分類子からピクセルレベルのローカリゼーションマップを生成しますが、そのようなローカリゼーションマップはターゲットオブジェクトの小さな領域しか識別できません。 3.1 節で情報ボトルネック理論を用いてこの現象を解析し、3.2 節でこの問題を解決する RIB 手法を提案します。次に、セクション 3.3 で、RIB によって改善されたローカリゼーション マップを使用してセグメンテーション ネットワークをトレーニングする方法を説明します。

3.1.動機

        セクション 2.1 で述べたように、両側性飽和非線形性を持つ DNN 層は、片側性飽和非線形性を持つ層よりも大きな情報ボトルネックを持っています。 ResNet [21] や DenseNet [23] などの一般的な DNN アーキテクチャの中間層は、片側飽和非線形性である ReLU 活性化関数と結合されています。ただし、これらのネットワークの最後の層は、両側性飽和非線形性 (シグモイドやソフトマックスなど) によってアクティブ化され、クラス確率 p は、最終的な特徴マップ TL と最終的な分類層 w を使用して計算されます。つまり、 p = sigmoid(w |ギャップ(TL))。したがって、w でパラメータ化された最後の層には明らかなボトルネックがあり、最後の特徴 TL から実際の分類予測に転送される情報量は制限されます。

        これらの議論は、既存の手法からの観察に似ています。 Saxe et al. [46] によって提供された情報プレーンは、情報の圧縮が他の層よりも最後の層でより重要であることを示しています。 Bae et al. [5] は、分類器の最終的な特徴マップにはターゲット オブジェクトに関する豊富な情報が含まれているものの、最終的な分類層ではほとんどの情報が除外されるため、CAM はターゲット オブジェクトの領域全体を識別できないことを観察しました。この観察は、DNN の最後の層に情報ボトルネックが出現することを経験的に裏付けています。この現象をより詳しく見るために、私たちはおもちゃの実験を計画しました。 MNIST データセット [30] から数字「2」または「8」を含む画像を収集します。これらの画像の小さなサブセット (10%) については、数字「2」と「8」を含む画像にそれぞれ円 ( ) と四角 ( ) をランダムに追加します (図 1(a) を参照)。画像を数字「2」または「8」に分類する場合、その数字に対応するピクセルは識別領域 (RD) であり、追加された円または四角に対応するピクセルは識別領域ではありませんが、カテゴリ領域 (RND) に関連します。 )、背景に対応するピクセルはカテゴリー独立領域 (RBG) です。

        5 つの畳み込み層と最後の完全接続層でニューラル ネットワークをトレーニングしました。入力画像 x に関する各特徴 Tl の勾配マップ Gl を取得します。 Gl = ∇x P u,v Tl(u, v)、ここで、u と v は特徴 Tl の空間インデックスとチャネル インデックスです。最終分類層 (l = 6)、G6 = ∇xy c.この勾配マップは、画像の各ピクセルが各特徴にどの程度寄与しているかを表すため、入力画像から連続する畳み込み層の特徴マップにどの程度の情報が渡されるかを調べるために使用できます。 Gl の例を図 1(b) に示します。入力画像が畳み込み層を通過すると、入力に対する勾配の総量が減少し、情報ボトルネックの発生を示します。具体的には、RBG の傾きが早く小さくなります (G1 → G2)。これは、タスクに関係のない情報が急速に圧縮されることを意味します。 G1 から G5 まで、RD または RND の勾配は徐々に減少します。ただし、最後の層(G5→G6)では勾配量の減少がより顕著であり、特にRND(赤枠内)の勾配はほとんど消えています。これは、DNN の最後の層に重大な情報ボトルネックがあるという私たちの主張を裏付けるものですが、RND では非差別的な情報が特に圧縮されていることを強調しています。

        定量的な分析を行いました。領域 R の高勾配比 (HGR) を、領域 R 内の勾配が 0.3 を超えるピクセルのピクセル総数に対する比率として定義します。 HGR は、入力画像の領域 R から各特徴に転送される情報量を定量化します。各層の各領域のHGR値の傾向を図1(c)に示します。観察された傾向は上記の経験的観察と同様であり、やはり最後の層 (赤いボックス) で発生する RND の重大な情報ボトルネックを裏付けています。情報のボトルネックにより、トレーニングされた分類器から取得された位置特定マップが対象オブジェクトの狭い領域に集中していると考えられます。式 2 によると、CAM には最終分類重み wc によって処理された情報のみが含まれます。しかし、情報ボトルネックのため、フィーチャ内の情報の一部のみが wc の最後の層を通過し、残りの非識別情報の大部分は無視され、CAM はターゲット オブジェクトの非識別領域を識別できません。 。このような CAM を使用してセマンティック セグメンテーション ネットワークをトレーニングすることは、ターゲット オブジェクトの領域全体を認識する必要があるため、理想的ではありません。したがって、情報のボトルネックを軽減することで、分類とローカリゼーションの間のギャップを埋めることを目指しています。

図 1: (a) おもちゃの画像の例。 (b) 勾配グラフGkの例。 (c) 100 枚の画像に基づいて平均化された、RD、RND、RBG の各層の HGR 値のプロット。

3.2. 情報のボトルネックを軽減する

        セクション 3.1 では、特に DNN の最後の層で両側飽和活性化関数が使用されているため、入力画像内の情報が圧縮されていることを観察しました。そこで、DNN の最終層で使用されるシグモイドまたはソフトマックス活性化関数を単純に削除することで、最終層の情報ボトルネックを軽減する方法を提案します。弱教師セマンティック セグメンテーションのデフォルトであるマルチクラス マルチラベル分類子に焦点を当てます。入力画像 x と、対応するワンホット クラス ラベル t = [t1, · · · , tC] が与えられたとします。ここで、tc ∈ {0, 1} (1 ≤ c ≤ C) はクラス c の指標です。 C はすべてのカテゴリのセットです。既存の方法ではシグモイド バイナリ クロスエントロピー損失 (LBCE) を使用してマルチラベル分類器を学習しますが、私たちの方法ではこれを、最終的なシグモイド活性化関数に依存しない別の損失関数 LRIB に置き換えます。

        ここで、m は境界、yc は画像 x の分類ロジットです。ただし、LRIB を使用して分類器を最初からトレーニングすると、勾配が飽和できないため、トレーニングが不安定になります (付録を参照)。したがって、最初に LBCE を使用して初期分類器をトレーニングします。そのトレーニングされた重みは θ0 として示され、指定された画像 x について、重みをボトルネックのないモデルに調整します。具体的には、総反復回数から計算された LRIB を使用して初期モデルを微調整します。λ は微調整の学習率です。この微調整プロセスを RIB と呼びます。 RIB を使用すると、x の情報ボトルネックが軽減され、非識別領域を含む対象オブジェクトのより多くの領域を識別できる CAM を取得できます。すべてのトレーニング画像に対して RIB プロセスを繰り返して CAM を取得します。ただし、特定の画像 x に合わせて調整されたモデルは、簡単に x に過剰適合する可能性があります。したがって、RIB プロセスをさらに安定させるために、各 RIB 反復で x 以外の B-1 個のサンプルをランダムに選択することにより、サイズ B のバッチを構築します。各反復では、B-1 サンプルがランダムに選択されますが、x は変更されないことに注意してください。

RIB の有効性:セクション 3.1 で説明したおもちゃの実験と同じ分類子に RIB を適用することで、RIB の有効性を実証します。図2に、各RIB反復におけるG6のRD、RND、RBGのHGR値の例(a)とグラフ(b)を示します。 HGR 値は 100 枚の画像の平均として計算されます。 RIB プロセス中、RBG の HGR 値は比較的安定していましたが、RD と RND の HGR 値は大幅に増加しました。これは、RIB プロセスが実際に情報のボトルネックを軽減できることを示しており、それによって RD および RND に対応するより多くの情報が最終分類層によって確実に処理されるようになります。

識別領域からの情報の転送を制限する方法: Zhang et al. [64] は、分類ロジット y と CAM の関係、つまり y = GAP を示しました。 (カム)。これは、RIB を通じて y c を増加させると、CAM 内のピクセル値も増加することを意味します。 CAM がより広範囲の対象オブジェクト領域を識別できるようにするには、識別領域ではなく非識別領域のピクセル スコアを高めることが重要です。したがって、RIB プロセスに新しいプーリング方法を導入し、これまで少量の情報を分類ロジットに提供していた特徴が分類にさらに貢献できるようにします。私たちは、グローバル非差別領域プーリング (GNDRP) を提案します。特徴マップ Tl 内のすべての空間位置の値を集計する GAP とは異なり、GNDRP は、次のように、CAM スコアがしきい値 τ より低い空間位置の値のみを選択的に集計します。

        他の弱く監視されたセマンティック セグメンテーション手法では、より良いローカリゼーション マップを取得するために GAP 以外の新しいプーリング手法も考慮されています [4、27、44]。前の研究で導入されたプーリング方法により、分類器は識別部分にさらに注意を払うようになります。対照的に、GNDRP は高度に活性化された領域を除外し、非識別領域のさらなる活性化を促進します。

最終的なローカライゼーション マップを取得する:各 RIB 反復 k で分類器から取得したすべての CAM を集約することにより、最終的なローカライゼーション マップ M を取得します: M = Σ(0 ≤k≤K) ) CAM(x; θk)。

図 2: 各 RIB 反復における G6 の RD、RND、および RBG の分析。

表 1: PASCAL VOC および MS COCO トレーニング画像の mIoU (%) に基づく、初期シード (Seed)、CRF 付きシード (CRF)、および擬似グラウンド トゥルース マスク (Mask) の比較。 † は Zhang et al. [62] によって報告された結果を示し、‡ は我々が得た結果を示します。

3.3. 弱く監視されたセマンティックセグメンテーション

        CAM [66] は分類器によって生成されたダウンサンプリングされた中間特徴から取得されるため、元の画像のサイズにアップサンプリングする必要があります。したがって、ターゲット オブジェクトの位置を大まかに特定する傾向があり、その境界を正確に表現することができません。多くの弱教師セマンティック セグメンテーション手法 [7、6、55、62、40、31] は、確立されたシード最適化手法 [25、3、2、27、10] を使用して初期シードを変更することにより、疑似グラウンド トゥルース マスクを生成します。同様に、最先端のシード最適化手法である IRN [2] をラフ マップ M に適用することで、擬似グラウンド トゥルース マスクを取得します。さらに、画像レベルのクラスラベルにはターゲットオブジェクトの形状に関する事前知識がないため、既存の方法では顕著性ターゲットマスクの監視が一般的に使用されます[59、31、22、38]。顕著性ターゲット マスクの監視は、擬似グラウンド トゥルース マスクを最適化する方法に適用することもできます。擬似ラベルの前景ピクセルを背景として識別するとき、または背景ピクセルをこのマップ上で前景として識別するときに、セグメンテーションを実行します。これらのピクセルは、ネットワークのトレーニング中に無視されます。

4. 実験

4.1. 実験設定

データセットと評価指標:手法を定量的および定性的に評価するために、PASCAL VOC 2012 [16] および MS COCO 2014 [39] データセットに対して実験を実施しました。弱教師セマンティック セグメンテーション [3、2、31、62] の一般的な手法に従って、Hariharan ら [20] によって強化された PASCAL VOC 2012 データセットを使用します。 MS COCO 2014 データセットには、80 カテゴリのオブジェクトを含む約 82,000 のトレーニング画像が含まれています。 PASCAL VOC 2012 データセットの 1,449 枚の検証画像と 1,456 枚のテスト画像、および MS COCO 2014 データセットの 40,504 枚の検証画像で、平均交差オーバー和集合 (mIoU) 値を計算することで、この方法を評価しました。

再現性。 私たちは、Ahn et al. [2] の手順に従って CAM [66] を実装し、実装には PyTorch フレームワーク [43] を使用しました。分類器のバックボーン ネットワークとして ResNet-50 [21] を使用します。 8×10−6 の学習率と 20 のバッチ サイズを使用して、K = 10 回の反復で分類器を微調整しました。境界 m を 600 に設定します。 GNDRP の場合、τ を 0.4 に設定します。最終的なセマンティック セグメンテーションには、[42] によって提供される DeepLab-v2-ResNet101 の PyTorch 実装を使用しました。 ImageNet データセット [14] で事前トレーニングされた初期モデルを使用します。 MS COCO 2014 データセットの場合、このデータセット内の画像の寸法を考慮して、PASCAL VOC 2012 データセットで使用される 321 × 321 ではなく、481 × 481 のクロップ サイズにトレーニング画像をクロップします。  図 3: (a) PASCAL VOC 2012 トレーニング画像と (b) MS COCO 2014 トレーニング画像の RIB プロセス中に取得された位置マップの例。

4.2. 弱く監視されたセマンティックセグメンテーション

4.2.1. 初期シードと偽のグラウンドトゥルースの品質

PASCAL VOC 2012 データセット: 表 1 では、私たちのメソッドとその他の現状から生成された初期シードと擬似グランド トゥルース マスクの mIoU 値を報告します。 -アートテクニック。 SEAM [55]に従って、マップ M の前景と背景を区別するために一連のしきい値を評価し、最適な初期シードを決定します。私たちの最初のシードは、元の CAM (比較に使用したベースライン) と比較して 7.7% の改善を示し、同時に他のメソッドの最初のシードよりも優れたパフォーマンスを示しました。私たちの初期シードは SEAM の初期シードよりも優れていることに注意してください。SEAM は、補助セルフアテンション モジュール内のピクセル間の関係を考慮することにより、初期 CAM をピクセル レベルでさらに最適化します。

        条件付きランダムフィールド (CRF) [28] に基づく後処理手法を適用して、Chang et al. [7]、SEAM [55]、IRN [2] および我々の手法から得られた初期シードに対してピクセルレベルのリファインメントを実行しました。 。 CRF を適用すると、SEAM を除くすべてのシードが平均して 5% 以上改善されます。 CRF は SEAM を 1.4% 改善するだけですが、これは妥当な値です。この異常に小さな改善は、セルフ アテンション モジュールがすでに CAM のシードを最適化しているためであると考えることができます。私たちのメソッドで生成されたシードを CRF で精製すると、SEAM のシードよりも 6.1% 向上し、最近のすべての競合手法を大幅に上回りました。

        種子の洗練によって得られると、他の方法を使用して得られたものと比較されました。比較されたメソッドのほとんどは、PSA [3] または IRN [2] を使用して初期シードを最適化します。公平な比較のために、2 つのシード改良手法を使用して擬似グラウンド トゥルース マスクを生成します。表 1 は、私たちの方法で得られたマスクが PSA [3] と比較して 68.6 mIoU、IRN [2] と比較して 70.6 mIoU を達成し、他の方法よりも大幅に優れていることを示しています。

MS COCO 2014 データセット: 表 1 は、MS 上の私たちの方法およびその他の最先端の方法によって取得された初期シードと擬似グラウンド トゥルース マスクの mIoU を示しています。 COCO 2014 データセットの値。公式コードをベースライン パフォーマンスとして使用して、IRN [2] の結果を取得しました。私たちの方法は、ベースライン IRN [2] の初期シードと擬似グラウンド トゥルース マスクを改善し、mIoU 値をそれぞれ 3.0% と 2.7% 改善します。

        図 3 は、PASCAL VOC 2012 および MS COCO 2014 データセットに対する RIB プロセスを通じて段階的に改良された位置マップの例を示しています。さらに多くのサンプルが付録にあります。

4.2.2. 弱く監視されたセマンティックセグメンテーションのパフォーマンス

PASCAL VOC 2012 データセット: 表 2 は、PASCAL VOC 2012 の検証画像とテスト画像に対して、私たちの方法と最近導入されたその他の弱教師セマンティック セグメンテーション方法によって予測されたセグメンテーション マップを示しています。mIoU 値、これらのメソッドは、境界ボックス ラベルまたはイメージ レベルのクラス ラベルを使用します。表 2 のすべての結果は、ResNet ベースのバックボーン ネットワーク [21] を使用して得られます。私たちの方法は、PASCAL VOC 2012 セマンティック セグメンテーション ベンチマークで検証画像とテスト画像でそれぞれ 68.3 と 68.6 の mIoU 値を達成し、弱い監視として画像レベルのクラス ラベルを使用するすべての方法を上回っています。特に、私たちのメソッドは、競合他社の中で最もパフォーマンスの高いメソッドである CONTA [62] を上回り、mIoU 値 66.1 を達成しています。ただし、CONTA は IRN [2] よりも優れていることが知られている SEAM [55] に依存しています。 CONTA がより公正な比較のために IRN を使用すると、その mIoU 値は 65.3 に低下しますが、私たちの方法では 3.0% の改善を超えています。

        表 3 は、私たちの方法を、追加の顕著なオブジェクトの監視を使用する他の最近の方法と比較しています。私たちは、Li et al. [38] および Yao et al. [59] によって使用される顕著オブジェクト監視を使用します。私たちの方法は、検証画像とテスト画像でそれぞれ 70.2 と 70.0 の mIoU 値を達成し、同じレベルの監督下で導入されたすべての最先端の方法を上回っています。図 4(a) は、顕著性の監視がある場合とない場合の、私たちの方法によって予測されたセグメンテーション マップの例を示しています。顕著性監視によって提供される境界情報により、私たちの方法はより正確な境界 (黄色のボックス) を生成することができます。ただし、顕著性監視を使用する場合、画像内の非顕著なオブジェクトは無視されることがよくありますが、RIB はそれらを正常に識別します (たとえば、図 4(a) の最初の列の「ソファ」と「人々」)。この経験的な発見は、正確な境界と目立たないオブジェクトを同時に識別できる将来の研究の可能性を刺激します。

MS COCO 2014 データセット: 表 4 は、MS COCO 2014 検証画像に対するこのメソッドのパフォーマンスを他の最近のメソッドと比較しています。ベースライン IRN [2] と比較して、私たちの方法は mIoU スコアを 2.4%p 改善し、他の最近の競合方法を大幅に上回っています [11、62、58]。 CONTA [62] と比較すると、CONTA [62] で報告された IRN の結果は、我々が得た結果とは異なります。したがって、相対的な改善を比較します。CONTA は IRN と比較して 0.8%p の改善 (32.6 → 33.4) を達成しましたが、私たちの方法は 2.4%p の改善 (41.4 → 43.8) を達成しました。図 4(b) は、MS COCO 2014 検証画像上の私たちの方法の予測セグメンテーション マップの例を示しています。

図 4: IRN [2] と (a) PASCAL VOC 2012 検証画像および (b) MS COCO 2014 検証画像に対する私たちの方法による予測セグメンテーション マスクの例。

表 2: PASCAL VOC 2012 検証イメージとテスト イメージでのセマンティック セグメンテーションのパフォーマンスの比較。

表 3: 明示的なローカリゼーション キューを使用した PASCAL VOC 2012 検証画像とテスト画像でのセマンティック セグメンテーションのパフォーマンスの比較。 S: 顕著なオブジェクト、SI: 顕著なインスタンス。

表 4: MS COCO 検証イメージでのセマンティック セグメンテーションのパフォーマンスの比較。

表 5: 初期シードの mIoU スコアの比較: (a) 最後の層に異なる活性化関数を使用した比較、(b) 比較に m と λ の異なる値を使用、(c) 最後の層に異なる τ の値を使用比較。

4.3.アブレーション研究

        このセクションでは、PASCAL VOC 2012 データセットに対してさまざまなアブレーション研究を実施してメソッドを分析し、メソッドの各コンポーネントの有効性に関する詳細情報を提供します。

RIB プロセスに対する反復回数 K の影響: RIB プロセスの有効性に対する反復回数 K の影響を分析しました。図 5 は、ベースライン CAM 法によって取得された初期シードの mIoU スコアと、GAP または GNDRP を使用した RIB プロセスの各反復の mIoU スコアを示しています。 RIB プロセスが進むにつれて、どのプーリング方法が使用されるかに関係なく、ローカリゼーション マップが大幅に改善されます。ただし、GAP を使用した RIB のパフォーマンス向上には限界があり、その後の反復ではわずかに低下することさえあります (K > 5)。これは、GAP を使用すると、すでに十分な分類情報を提供する特徴を分類にさらに関与させることができるためです。私たちが提案する GNDRP は、これらの識別領域の分類への寄与の増大を制限するため、GNDRP を使用する RIB は効果的に非識別情報を分類にさらに関与させることができ、その結果、後続の反復でより優れたローカリゼーション マップが得られます。 K の値を 10 (または 20) より大きく変更しても、mIoU の低下は 0.8% 未満であることがわかり、適切な K 値を選択するのは難しくないことがわかります。

微調整に LRIB を使用する:LRIB の有効性を検証するために、さまざまな双方向飽和活性化関数を使用してモデルを微調整し、BCE 損失を使用して微調整します。表 5(a) は、シグモイド、タンハー、ソフトサインの活性化と LRIB を使用した微調整によって得られた初期シードの mIoU スコアを示しています。アフィン変換を介して、tanh と Softsign の出力を 0 と 1 の間の値に調整します。双方向飽和活性化関数を使用した微調整により、初期シードがある程度改善され、サンプルごとの適応の有効性が実証されていますが、情報ボトルネックが残っているため、パフォーマンスの向上は限られています。 Softsign アクティベーション関数は、tanh や sigmoid よりも優れたローカリゼーション マップを提供することは注目に値します。これは、他の関数 (付録を参照) と比較して、softsign の勾配が高い値でゼロに達するため、情報のボトルネックが少ないためであると考えられます。当社の LRIB は情報ボトルネックを効果的に解決し、最適なパフォーマンスを実現します。

ハイパーパラメータに対する感度分析:RIB プロセスに関与するハイパーパラメータに対する初期シードの mIoU の感度を分析しました。表 5(b) は、m 値と λ 値のさまざまな組み合わせを使用して取得された初期シードの mIoU 値を示しています。全体として、m と λ の値が小さくなり、RIB プロセスの強度が弱まると、わずかに低いパフォーマンスが観察されます。 m と λ が十分に大きい場合、RIB プロセスのパフォーマンスは競争力があります。表 5(c) は、GNDRP に関係するしきい値 τ の影響を分析しています。 τ を 0.3 から 0.5 に増加させても、mIoU の変化は 1% 未満であるため、RIB プロセスは τ の変化に対して堅牢であると結論付けられます。

 

図 5: 初期シードの mIoU ごとの GAP または GNDRP を使用した RIB プロセスの分析。

表 6: PASCAL VOC 2012 トレーニング画像の精度 (Preci.)、再現率、および F1 スコアの比較。

表 7: 「ボート」および「電車」カテゴリの初期シードの mIoU (%)

4.4. 誤相関分析

        自然画像では、特定のカテゴリのオブジェクトが主に特定の背景に一緒に表示される場合、ターゲット オブジェクトと背景の間に偽の相関関係が発生する可能性があります [36, 62] (海上の船や線路上の列車など)。画像レベルのカテゴリ ラベルはターゲット オブジェクトの明確な位置特定の手がかりを提供できないため、これらのラベルを使用してトレーニングされた分類器は偽の相関の影響を受けやすくなります。分類器から得られる位置特定マップでは、誤って関連する背景も強調表示される可能性があり、それによって精度が低下します。これは長年の問題であり、弱く監視されたセマンティック セグメンテーションやオブジェクトのローカライゼーションでよく発生します。

        RIB は、いくつかの偽の背景をアクティブにすることもあります。ただし、表 6 に示すように、私たちの方法の精度、再現率、および F1 スコアを他の最近の方法の結果と比較すると、前景に属することが判明した領域の数が大幅に多いことがわかります。 Chang et al. [7] は高い再現率を達成しましたが、精度は大幅に低下しました。 SEAM [55] は、セクション 4.2.1 で述べた追加モジュールにピクセルレベルの改良を実装することで精度の損失を回避します。私たちの方法では、外部モジュールを使用せずにベースライン IRN [2] の精度と再現率が向上します。

        スプリアス相関のコンテキストをさらに分析するために、私たちの方法および他の最近の方法のシード改善に関するクラスレベルの結果を提示します。背景と前景に擬似的な相関関係がある代表的なカテゴリとして「船」と「電車」の2つを選択した(海上の船と線路上の電車)。表 7 は、偽の前景と背景の相関関係が存在することが知られているクラスであっても、RIB によってローカリゼーション品質 (mIoU) を向上できることを示しています。

5. まとめ

        この研究では、画像レベルのカテゴリ ラベルに基づいた弱教師セマンティック セグメンテーションにおける主な課題に取り組みます。情報ボトルネック原理を通じて、私たちはまず、分類器から取得された位置特定マップが対象オブジェクトの小さな領域しか識別できない理由を分析しました。私たちの分析では、入力画像と出力分類の間で転送される情報の量は、主に DNN の最後の層によって決定されることが指摘されています。次に、既存のトレーニング スキームに 2 つの簡単な変更を加えることで、情報のボトルネックを軽減します。DNN の最後の非線形活性化関数を削除し、新しいプーリング方法を導入します。私たちの方法は、分類器から得られる位置特定マップを大幅に改善し、PASCAL VOC 2012 および MS COCO 2014 データセットで最先端のパフォーマンスを実証します。社会的影響: この作品は次のような社会的影響を与える可能性があります。ピクセルレベルの注釈を必要としないオブジェクトのセグメンテーションにより、研究や商業開発のためのリソースが節約されます。これは、専門家の注釈が高価な医学などの分野で特に役立ちます。ただし、サービスの一部として画像注釈を提供している企業もあります。弱教師学習によって DNN のラベルへの依存が軽減される場合、これらの企業はビジネス モデルを変更する必要があるかもしれません。

おすすめ

転載: blog.csdn.net/ADICDFHL/article/details/132000715