クロスドメインの少数ショット分類のための説明ガイド付きトレーニング
公式アカウント:EDPJ
目次
0. まとめ
クロスドメインの少数ショット分類タスク (CD-FSC) が直面する課題は、主に、各カテゴリにラベル付けされたサンプル (ラベル付けされたデータ) がほとんどなく、トレーニング セットとテスト セットが異なるドメインに属していることに起因します。本稿では、既存の FCS に基づく新しいトレーニング方法を提案します。FSC モデルが予測するときに得られた説明を使用し、この値はモデルの中間特徴マップで使用されます。まず、各レイヤーの関連性の伝播を調整して、FSC モデルの予測を説明します。次に、著者は、モデルにとらわれない説明に基づくトレーニング戦略を改善しました。予測に重要な特徴を動的に探して強調します。この研究は、新しい説明方法を提案することを目的としているのではなく、トレーニング段階での説明の新しい使用法に焦点を当てています。
0.1 キーワードと用語の説明
- クロスドメイン (クロスドメイン): ソースドメインで学習したモデル (例: 認識)、別の異なるターゲットドメイン用
- 少数ショット (少数のサンプル): 事前トレーニング (事前トレーニング) されたモデルの場合、タスク (クエリ セット) を完了するために少量のラベル付きデータ (サポート セット) のみが表示されます。
- N-way K-shot: 数ショット学習の設定。サポート セットには合計 N 個のカテゴリがあり、各カテゴリには K 個のラベル付きデータがあります。
- 関連性 (重要度): この論文で使用されている方法は、予測 (分類) にとって重要な特徴を強調し、予測にとって重要でない特徴を弱めることです。私の意見では、これは式 (2) に示すように、その機能が特定のカテゴリに属しているという信頼度を示す信頼度とも呼ばれるべきです。
- BP: この記事では、関連性を裏から表に伝達するバック プロパゲーションを使用し、最終的に初期の特徴の関連性を取得します。実際、それは信念伝播とも呼ばれます。
- 説明 (解釈): BP を通じて、説明とも呼ばれる初期の特徴の関連性が取得されます。これは、予測が成功した場合、カテゴリに対応する特徴も予測にとって最も重要であり、対応する関連性も最大であるためです。これは、このクラスが予測され、他のクラスが予測されない理由も説明しています。
- 情報のボトルネック : 重要でない情報を破棄し、重要な情報を保持 . この論文で使用されている方法もこの理論に基づいています。ただし、特定のラウンド (エピソード) 予測にとって重要ではない破棄された情報が、他のラウンドの予測にとって重要である可能性があり、オーバーフィッティングにつながります。そのため、本作の手法は一部の情報を切り捨てますが、過剰にはなりません。
1 はじめに
人間は、少数のサンプルを見ただけで、新しいオブジェクトを認識することができます。ただし、一般的な分類モデルのトレーニングと微調整には、大量のラベル付きデータが必要です。一方、FSC は、少数のサンプルに基づいて新しいカテゴリを分類できます。モデルがデプロイされた後、人間は、最初にトレーニングされたモデルでは見られなかった新しいカテゴリの少数のサンプルにラベルを付けます。テスト データは、トレーニング データと同じドメインのデータセットから取得されます。FSC が直面している課題は、ソース ドメインからターゲット ドメインへの一般化です。たとえば、人間は少数のサンプルで鳥や植物を識別することができますが、鳥の訓練に基づく既存の FSC では、さまざまな種類の植物を正確に識別できない可能性があります。
この問題を解決すると、ソース ドメインへの過適合が回避されます。この記事では、CD-FSC を改善します。説明により、モデルがより優れた機能表現を得ることができます。説明の方法は、勾配型、Shapley 型、LRP、LIME です。彼らは、特徴マップの各次元のスコアを計算し、最終的な予測に対するその重要性を記録します。
多くの研究がモデル予測を説明する分野で大きな進歩を遂げていますが、それらは通常、テスト段階で使用され、トレーニング段階では使用されません。例: 予測監査 (監査)、より包括的な説明加重ドキュメント表現、およびデータセットのバイアスの特定。
このホワイト ペーパーの FSC モデルでは、LRP 法を使用します。LRP は、CNN、RNN、GNN、およびクラスタリングで使用されています。ニューラル ネットワーク内のターゲット ラベルの関連性を逆伝播し、ネットワーク内のニューロンに関連性を割り当てます。Relevance の符号と大きさは、予測に対するニューロンの寄与を反映しています。
上の図は、入力画像の LRP 説明ヒートマップ (ヒートマップ) (ターゲット ラベルが 5 つ) です。使用されるモデルは、5 方向 5 ショット (5 カテゴリ、カテゴリごとに 5 サンプル) の設定で miniImagenet でトレーニングされた RelationNet です。最初の行はサポート画像のサンプルです。他の 2 行は、2 つのクエリ画像の説明ヒートマップです。どちらの分類も正しく、ヒートマップは異なるターゲット ラベルに基づいて生成されます。赤/青のピクセルは、それぞれ正/負の LRP 説明スコアを表します。色の濃さは、説明スコアの値を表します。図に示すように、クエリ イメージとサポート イメージの類似度が高いほど、赤いピクセルが多いほど赤くなり、その逆も同様です。
中央の特徴マップの LRP 関連性は、LRP 加重特徴マップを構築するための重みとして使用されます。このステップは、予測により関連する特徴次元を強化し、小さくて予測に関連する特徴次元を削減します。LRP によって重み付けされた特徴は、トレーニングのためにネットワークに供給されます。LRP の説明はサンプル ラベルのペアごとに計算されるため、トレーニング中に、説明によって導かれるトレーニングによって、ラベルに依存する重み付けメカニズムが追加されます。このメカニズムにより、ソース ドメインの過剰適合を減らすことができます。
このホワイト ペーパーの説明ガイド付きトレーニング戦略は、モデル (モデルに依存しない) によって制限されず、次のような他の CD-FSC と組み合わせることができます。
2. 関連研究
2.1 少数ショット分類(FSC)
少数ショット学習には、最適化ベースとメトリクス ベースの 2 つの方向性があります。前者は、新しいカテゴリにすばやく転送できる初期化パラメーターを学習するか、モデル パラメーターの更新方法を学習するメタ オプティマイザーを設計します。後者は距離メトリックを学習し、サポート イメージをクエリ イメージと比較して、クエリを最も近いカテゴリに割り当てます。次のような他の方法も注目に値します。
- モデルに条件付きタスク レイヤーを追加します (タスク条件付きタスク)。
- 新しいカテゴリの分類子のパラメーターを動的に更新します。
- マルチモーダル情報を組み合わせる (例: カテゴリ ラベルの単語埋め込み)。
- 新しいサンプルを幻覚させることによるトレーニング データの増強。
- ラベル付けされていないトレーニング データを使用した半教師あり学習。
- モデルに自己監視を追加するメカニズム。
ただし、これらの方法は、依然としてドメイン移行の問題に直面する必要があります。
2.2 クロスドメイン数ショット分類(CD-FSC)
既存の FSC メソッドに基づいて、多数の CD-FSC メソッドが生成されています。
- LFT はトレーニング中にノイズ分布を学習し、それを中間特徴マップに追加して、より多様な特徴を生成し、モデルの一般化パフォーマンスを向上させます。
- 複数のエンコーダーを結合し、各エンコーダーの画像特徴に対してバッチ スペクトル正則化 (BSR)を使用します: バッチ内の特徴行列の特異値 (特異値) を制限して、学習した特徴が異なるドメインで同様のスペクトルを持つようにします (スペクトル)。つまり、モデルとソース ドメインの過剰適合を回避し、それによってターゲット ドメインでの一般化のパフォーマンスを向上させます。
- 一次MAMLおよびメトリックベースのGNNと組み合わせた方法。
- プロトタイプのトリプレット損失を使用してクラス間距離を増やし、マージンの大きいコサイン損失を使用してクラス内距離を減らします。関連する別の研究では、特に浅い特徴エンコーダーの場合、クラス内分散の削減が FSC に利益をもたらすことが示されています。
2.3 FSCの説明
FSC モデルは CNN を使用して画像の特徴をエンコードでき、多くのメトリックベースの方法ではニューラル ネットワークを使用して距離メトリックを学習できます。ノンパラメトリック距離メトリックを使用する FSC モデルの場合、研究では K 平均分類器をニューラル ネットワーク構造に変換し、LRP を使用して説明を取得しました。この論文では、合理的なパフォーマンス、ハイパーパラメータの理解、LIME や Shapley 型の方法と比較して合理的なトレーニング速度という理由で LRP を使用しています。
3. 説明付きトレーニング
3.1 CD-FSC 構造
K ウェイ N ショット タスクの場合、K カテゴリと各カテゴリの N ラベル付きサンプルを含むサポート セットがトレーニング用に与えられ、 S カテゴリと同じクエリ セットがテストに使用されます 。CD-FSC タスク: エピソードと呼ばれるベース ドメインからランダムにサンプリングされ、FSC モデルのトレーニングに使用されます。次に、 別のドメインでサンプリングされ、モデルのテストに使用されます。
図中の青いパスがFSCの研修、赤いパスが説明の仕方(青いパスの完成後)です。
サポート セット S とクエリ セット Q は CNN によってエンコードされ、分類前に処理する必要があるサポート イメージの特徴 とクエリ イメージの特徴 を取得するための拡張レイヤーが含まれる場合があります。次に例を示します。
- カテゴリ average に基づいて、平均クラス表現がペアと連結されます。
- 注意によって重み付けされたサポート/クエリ画像機能を生成するための注意モジュールを設計します。
- GNN を適用して、ガーフ構造を持つ特徴を取得します。
分類器は、最適化ベース (ニューラル ネットワーク) メソッドまたはメトリック ベース (コサイン類似度、ユークリッド距離、マハラノビス距離) メソッドを使用して、処理された特徴に基づいて予測 (分類) します。予測結果は p です。
Explain モジュールは、予測 p を説明し、LRP の重みを計算するために使用されるpの説明を生成します。
LRP によって重み付けされた特徴が分類器に送られ、予測が更新されます。
3.2 トレーニング
ステップ 1 : forward-pass に基づいてモデルの予測 p を取得する
ステップ 2 : 分類子について説明します。各ラベルの LRP 関連性を初期化し、LRP を使用して分類子を説明します。上図のExplainブロックのように、分類器の入力の説明を得ることができます 。
ニューラル ネットワークを分類器の FSC モデルとして使用すると、各ラベルの関連性をその発生確率 ( logits ) で初期化できます。メトリックベースのモデルの場合、すべてのラベルの予測値が正であるため、これらのラベルについて同様の説明が得られます。
コサイン類似度を例にとると、まず式 (1) を使用して各カテゴリの確率を計算します。
その中には、クエリ サンプルとカテゴリ k のコサイン類似度があります。分類器に供給される処理済みの特徴です。最大確率を強制するために使用される一定のスケーリング パラメータです。上記の式で定義された確率に基づいて、カテゴリ c の関連性は次のように表されます。
当時、それは本当でした。つまり、クラス ラベルの確率がランダムな推測の確率よりも大きい場合、そのクラス ラベルは正の関連性を持ちます。次に、バックプロパゲーション (BP) が 分類器に渡され、最終的に関連性が生成されます 。レイヤーのフォワード パス (FP) を考慮すると、次のように表されます。
このうち、は第 1 層のニューロンの指標であり、は活性化関数です。はニューロンの関連性を示し、 は寄与の関連性を示します。ここでは、2 つの LRP の BP メカニズムに依存します 。
1)
その中には、除算が間違っていないことを確認するための小さな正の数があります。
2)
その中で、BPに対する正の関連性の比率が制御されます。.
関連性は、それに流れるすべての関連性の寄与の合計です。
を得るために、この論文では線形層と畳み込み層を使用します。その最大絶対値によって正規化されます。
ステップ 3: LRP 重み付けの機能。予測相関の高い特徴を強化し、予測相関の低い特徴を弱めるために、LRP 重み付けと LRP 重み付け特徴が定義されます。
要素ごとの積はどこにありますか。正規化後、、肯定的な関連性を持つ機能が拡大され、否定的な関連性を持つ機能が弱められるためです。
ステップ 4:最後に、LRP 加重特徴を分類器に渡して、説明に基づく予測を生成します。
その中にクロスエントロピー損失があります。は、使用される情報の量を制御する正の係数です。
4.実験
この実験は、RelationNet (RN) と 2 つの最新モデルである相互注意ネットワーク (CAN)、GNN で実行されます。CD-FSC 構造でのこれら 3 つのモデルの対応する設定は次のとおりです。
また、説明付きトレーニングはLFTと組み合わせており、パフォーマンスの向上はLFTとの互換性を示しています。
4.1 データセットとモデルの準備
5 つのデータセット: miniImagenet、CUB、Cars、Places、Plantae。miniImagenet はトレーニング セットと検証セットとして使用され、残りの 4 つはテスト セットとして使用されます。
RN と CAN の画像エンコーダは、それぞれ ResNet10 と ResNet12 です。3 つのモデルはすべて、5 方向 5 ショットおよび 5 方向 1 ショットの設定でトレーニングされています。すべての実験で使用される LRP BP パラメーターは次のとおりです。
式 (9) total loss の値を変更することにより、次のことが観察されます: RN と GNN、パラメータ トレーニング可能な分類器を使用する 2 つのモデルの場合、モデルの収束を困難にすることに完全に依存し、わずかなゲインしか得られません。 CAN の場合、コサイン類似度などのノンパラメトリック分類子を使用するモデルは影響を受けません。これは、悪い分類子を説明してもほとんど意味がなく、特に少数ショットの場合、分類子のパラメーターが最初から通常の方向から歪められる可能性があるためです。そのため、トレーニングを安定させ、ワンショットの割合を増やすためには、それと組み合わせる必要があります。RN と GNN の場合、5 方向 1 ショットの場合は に設定し、5 方向 5 ショットの場合は に設定します。CAN の場合、式 (1) のコサイン類似度。
テスト時には、ランダムにサンプリングされた 2000 のエピソード (エピソード) が、エピソードごとに 16 のクエリ画像で実行されました。
4.2 評価
より包括的な分析には、伝達的推論 (伝達推論/伝達的学習) を使用します。テスト フェーズでは、高い信頼度で分類されたクエリ画像がサポート画像として使用され、サポート セットが強化されます。これは反復プロセスです。この実験では、2 回の反復でトランスダクティブを実装します。最初の反復には 35 のクエリ画像があり、2 番目の反復には 70 があります。GNN は一定数のサポート イメージを必要とするため、RN と CAN では伝達的推論のみを使用してください。
上の画像は RN と CAN のデータです. 画像の T は伝達的推論を意味します. この方法でサポート画像を追加すると、実際にパフォーマンスが向上します.
上の写真はGNNデータについてです。miniImagenet はトレーニングと検証のセットで、残りの 4 つはテスト セットです。著者は、miniImagenet での結果と比較して、他のデータセットでのパフォーマンスが十分ではない理由を以下に示しています。他のエピソードで。
私の個人的な意見を教えてください。
まず、miniImagenet のデータが CUB および Places コレクションのデータとより相関している可能性があります。その結果、次のようになります。異なる設定では、これら 2 つのデータセットのパフォーマンスは、他の 2 つのデータセットよりも大幅に優れています。
2番目: 元のCN、CAN、およびGNNと比較すると、LRPに基づく改善されたパフォーマンスはほとんど、またはまったく改善されていません。関連資料で、これが原因である可能性があることを確認しました。著者が実際に行ったことは、CD-FSC が直面するクロスドメインおよび少数サンプルの問題を実際に解決するのではなく、比較的優れた機能を取得することでした。(著者が紹介で述べたように)
4.3 説明指導訓練とLFTの組み合わせ
LFT モデルは、擬似的に見えるドメインと擬似的に見えないドメインでトレーニングされます。この実験では、miniImagenet が擬似的に見えるドメインであり、他の 4 つのセットのうち 3 つが擬似的に見えないドメインであり、1 つのセットをテスト用に残します。疑似見えないドメインは特徴変換レイヤーをトレーニングするために使用され、疑似見えたドメインはモデル内の他のトレーニング可能なパラメーターを更新するために使用されます。特徴変換レイヤーのパラメーターが固定されている場合、FT が取得されます。決定された中間レイヤーに固定分布のノイズが追加されます。
上の図からわかるように、さまざまなモジュールを徐々に追加することで、パフォーマンスが徐々に向上しています。
4.4 説明指導訓練の効果分析
このアプローチは、情報のボトルネック フレームワークに由来します。識別分類器をトレーニングすると、無関係な機能を除外することを学習します。情報の削除とは、これらの情報に関連付けられているチャネル (チャネル) がアクティブ化されていないことを意味します。
従来の分類タスクは、固定されたカテゴリのみを分類するため、無関係な情報を削除しても効果がありません。FSC の場合、さまざまなエピソードでカテゴリが変更されます。あるエピソードでは役に立たない情報が、他のエピソードでは重要になる可能性があるため、検証セットと比較してテスト セットのパフォーマンスが低下する可能性があります。
分類器が過剰適合しており、間違ったクラス ラベルを予測することが多い場合、説明に基づくトレーニングは、誤って予測されたクラスに関連する特徴を特定し、それらを強化します。その後の損失は、これらの強化された特徴にさらにペナルティを課します。これにより、中間機能が特定のクラスに偏ることがなくなり、一般化のパフォーマンスが向上します。
実験結果は、説明ガイド付きトレーニングが過度の情報の削除を回避できることを示しており、それによってソースドメインのオーバーフィッティングを回避しています。
4.5 LRPの定量分析
このセクションでは、入力画像の LRP の説明がヒートマップとして視覚化されます。ヒートマップから、画像のどの部分が予測に使用されているかを簡単に観察できます。
上の図の最初の行はサポート イメージであり、クエリ イメージごとに注意ヒートマップと LRP ヒートマップが提供されます。正しく分類された Q1 と Q3 の場合、正しくラベル付けされた LRP ヒートマップは関連する機能を強調表示します。特に、LRP ヒートマップはバスの窓の特徴とマラミュートの頭の特徴を捉えることができます。
他の誤ってラベル付けされた LRP ヒートマップはより否定的な証拠を示していますが、クエリ画像と解釈されたラベルの間に類似点を見つけることができます。たとえば、Q3: マラミュートのラベルを解釈すると、LRP ヒートマップは円形構造内のテクスチャを強調表示します。
5. 参考
Sun J、Lapuschkin S、Samek W、他。クロスドメインの少数ショット分類のための説明ガイド付きトレーニング[C]//2020 第 25 回パターン認識に関する国際会議 (ICPR)。IEEE、2021: 7609-7616。