NIPS2019《少数ショット分類のためのクロスアテンションネットワーク》

ここに画像の説明を挿入します
生理研2019に掲載されました!
論文リンク: https://proceedings.neurips.cc/paper/2019/file/01894d6f048493d2cacde3c579c315a3-Paper.pdf
コードリンク: https://github.com/blue-blue272/fewshot-CAN

1. 動機

ここに画像の説明を挿入します
有望ではあるものの、抽出された特徴の認識可能性に十分な注意を払っている人はほとんどいません。通常、サポート クラスとラベルのないクエリ サンプルから個別に特徴を抽出するため、特徴は十分に識別できません。一方では、サポート/クエリ セット内のテスト イメージは不可視クラスからのものであるため、その機能はターゲット オブジェクトにはほとんど使用できません具体的には、複数のオブジェクトを含むテスト画像の場合、抽出された特徴は、トレーニング セット内のラベル付きサンプルが多数ある既知のクラスのオブジェクトに焦点を当て、未認識のクラスのオブジェクトを無視することができます。上の図 1© および (d) に示すように、テスト クラスのカーテンからの 2 つの画像では、抽出された特徴は、図 1 (a) および (b) の人や椅子など、トレーニング クラスに関連するオブジェクトに関する情報のみをキャプチャします。一方、データ量が少ないという問題により、各テスト クラスの特徴は実際のクラス分布を表しません。これは、非常に少数のラベル サポート サンプルによって取得されるためです要約すると、独立した特徴表現は、小規模なサンプルの分類では失敗する可能性があります。

2. 貢献

この研究では、小さなサンプル分類の特徴識別性を向上させるために、新しいクロス アテンション ネットワーク (CAN) が提案されています。
1) まず、不可視クラス問題を解決するためにクロス アテンション モジュール (CAM) が導入されますクロスアテンションのアイデアは、人間の少数ショット学習行動からインスピレーションを得ています。未発見のクラスからサンプルを特定するために、人間はまず、ラベル付きサンプルとラベルなしサンプルのペアの中から最も関連性の高い領域を特定する傾向があります。同様に、クラス特徴マップとクエリ例特徴マップが与えられると、CAM はターゲット オブジェクトを強調表示するために各特徴のクロス アテンション マップを生成します。この目的を達成するために、相関推定法とメタフュージョン法が使用されます。これにより、テスト サンプル内のターゲット オブジェクトに注目が集まり、クロス アテンション マップによって重み付けされた特徴がより識別しやすくなります。図 1 (e) に​​示すように、CAM によって抽出された特徴を使用して、ターゲット オブジェクトの画面領域を大まかに特定できます。
2) 次に、ラベルフリーのクエリセット全体を利用して、データ量が少ない問題を軽減する直接推論アルゴリズムを導入しますこのアルゴリズムは、クエリ サンプルのラベルを繰り返し予測し、擬似ラベル付きクエリ サンプルを選択してサポート セットを拡張します。各クラスのサポート サンプルが多いほど、結果として得られるクラスの特徴がより代表的になるため、データ不足の問題が軽減されます。

3. 方法

3.1 問題の定義

フューショット分類には通常、トレーニング セット、サポート セット、クエリ セットが含まれます。トレーニング セットには、多数のクラスとラベル付きサンプルが含まれています。いくつかのラベル付きサンプルのサポート セットとラベルなしサンプルのクエリ セットは同じラベル空間を共有し、ラベル空間はトレーニング セットのラベル空間に接続されていません。少数ショット分類の目的は、トレーニング セットとサポート セットを考慮して、ラベルのないクエリ サンプルを分類することです。サポート セットが C クラスと各クラスの K 個のラベル付きサンプルで構成されている場合、ターゲットの少数ショット問題は C ウェイ K ショットと呼ばれます。
既存の経験に基づいて、この記事では、効果的な少数サンプル学習方法であることが証明されているエピソード トレーニング メカニズムも使用します。トレーニングで使用されるエピソードは、テストの設定をシミュレートします。各エピソードはランダムにサンプリングされたCCで構成されていますクラスCと各クラスKKサポートグループとしてラベル付けされたK個のサンプル S = { ( xas , yas ) } a = 1 ns ( ns = C × K ) \mathcal{S} = \{ (x^s_a, y^s_a)\}^{n_s} _ {a=1} (n_s = C \times K)S={ ( xあるsyあるs) }a = 1ns( ns=C×K )CCクラスCの残りのサンプルのごく一部がクエリセットとして使用されます。 Q = { ( xbq , ybq ) } b = 1 nq \mathcal{Q} = \{ (x^q_b, y^q_b)\}^{ n_q}_{ b=1}Q={ ( xbqybq) }b = 1nq構成。\mathcal{S}^k を S kしますSkはk番目として表されますkクラスのサポートされるサブセット各サポートクラスの表現方法S k \mathcal{S}^kSkとクエリサンプルxbqx^q_bバツbqであり、それらの間の類似性を測定することは、少数ショットの分類における重要な問題です。

3.2 クロスアテンションモジュール

この作業では、メトリック学習を通じて、サポート クラスとクエリ サンプルのペアごとに適切な特徴表現を取得します。本稿では、クラス特徴とクエリ特徴の間の意味相関をモデル化することで対象オブジェクトに注意を引き、その後のマッチングを容易にするクロスアテンションモジュール(CAM)を提案する。
ここに画像の説明を挿入します
CAM は上の (a) に示されています。クラス特徴マップP k ∈ R c × h × w P^k \in \mathbb{R}^{c \times h \times w}PkRc × h × wはサポートサンプルS k ( k ∈ { 1 , 2 , ⋯ , C } ) \mathcal{S}^k (k \in \{ 1, 2, \cdots, C\}) から得られます。Sk (k{ 1 2 C } )、特徴マップQ b ∈ R c × h × w Q^b \in \mathbb{R}^{c \times h \times w} をクエリするときQbRc × h × wはクエリ サンプルxbq ( b ∈ { 1 , 2 , ⋯ , nq } ) x^q_b (b \in \{ 1, 2, \cdots, n_q\}) からのものです。バツbq( b{ 1 2 nq} )ここでcc_はぁはぁwwwはそれぞれ、特徴マップのチャネル番号、高さ、幅です。CAM はP k ( Q b ) P^k (Q^b)Pk (Qb )クロス アテンション マップA p (A q) A^p (A^q) をp (Aq ) を使用し、次にA p ( A q ) A^p (A^q)p (Aq )より識別的な特徴表現を実現するために特徴マップに重み付けを行いますP ˉ bk ( Q ˉ kb ) \bar{P}^k_b (\bar{Q}^b_k)Pˉb(

おすすめ

転載: blog.csdn.net/weixin_43994864/article/details/123349370