記憶と転移学習を組み合わせた少数ショット学習

出典: 「コンピュータ エンジニアリングとアプリケーション」

著者: Liu Bing、Yang Juan、Wang Ronggui、Xue Lixia

まとめ

少数ショット学習は視覚認識において興味深い分野であり、少量のデータで新しい視覚概念を学習することを目的としています。少数ショット問題に対処するために、いくつかのメタ学習手法は、多数の補助タスクから伝達可能な知識を学習し、それをターゲットタスクに適用することを提案しています。知識をより適切に伝達するために、記憶ベースの転移学習方法が提案されています。重みの一部を凍結重みと学習可能重みに分解する重み分解戦略が提案されており、転移学習では凍結重みを固定し、学習可能重みのみを更新することでモデルが学習する必要があるパラメータを削減します。追加のメモリ モジュールは、以前のタスクの経験を保存するために使用され、新しいタスクを学習するときに、これらの経験はモデルのパラメータ状態を初期化するために使用され、より適切な転移学習を実行します。miniImageNet、tieredImageNet、および CUB データセットの実験結果は、この方法が他の高度な方法と比較して、小規模なサンプル分類タスクにおいて競合する、またはそれ以上のパフォーマンスを達成していることを示しています。

キーワード

少数ショット学習、転移学習、記憶モジュール、メタ学習

近年、ディープラーニングは、画像分類 [1-3]、物体検出 [4-6]、機械翻訳 [7-8] などの人工知能タスクにおいて目覚ましい進歩を遂げています。一部の画像分野では、ディープモデルの分類、検出、認識能力が人間の能力に近づいているか、それを超えています。ただし、これらの成果はすべて、効果的なディープ モデルのトレーニングには大量のラベル付きサンプルが必要であるという制限に依存しています。トレーニング サンプルが不十分な場合、ディープ モデルは過剰適合の問題を引き起こす傾向があり、その結果、学習が失敗します。少数のサンプルから学習することは、ディープモデルにとっては非常に難しい作業ですが、人間にとっては非常に簡単なプロセスであり、「虎」という視覚的な概念を獲得できます。これにヒントを得て、少数ショット学習が誕生しました。少数ショット学習タスクは、トレーニング プロセス中に、これまでに見たことのないカテゴリについて、これらのカテゴリのサンプル数が少ない場合でも、優れた識別力を持つ分類器を学習できることを意味します。小サンプル学習は、サンプル サイズが限られている場合のディープ モデルの学習に焦点を当てているため、診断を支援するために医療画像内のまれなケースを識別して分類したり、大規模な監視や容疑者の検索と特定などに広く使用されています。偵察に役立つビデオにあります。これらのタスクには明らかな共通点があります。つまり、効果的な分類器を学習するために使用されるのは少数のラベル付きサンプルだけであり、数百万、さらには数千万のラベル付きデータは必要ありません。さらに、小規模サンプルの学習により、サンプルのラベル付けの作業負荷も大幅に軽減されます。そこで、少数のラベル付きサンプルから新しい視覚概念を学習することを目的とした少数ショット学習が注目を集めています。

フューショット学習手法は、データ拡張、メトリクス学習、メタ学習の 3 つのカテゴリに大別できます。少数ショット学習における最も根本的な問題はトレーニング サンプルの不足であるため、データ拡張手法では、現在のトレーニング データをいくつかの追加情報で拡張しようとします。いくつかの典型的な方法[9]は、サンプルを特徴ドメインにマッピングし、データを意味論的空間にマッピングし、追加の意味論的情報でデータを強化するなど、特徴ドメイン内でそれらを強化することを提案しています。しかし、データ拡張法によって生成されたサンプルと元のサンプルの間には視覚的な類似性があり、サンプル不足によるモデルの過学習問題を根本的に解決することは困難です。メトリクス学習法の考え方は比較的単純です. サンプルと特徴間のマッピング関係を学習することで, サンプルを共通の特徴空間にマッピングします. この特徴空間では, サンプルは類似度によって測定されます. サンプル距離は比較的近く,異なるカテゴリのサンプル間の距離が比較的長いため、クエリ サンプルは最も近いカテゴリを見つけることによって分類されます。ただし、サンプル サイズが極端に制限されているため、高品質の特徴空間を学習することは非常に困難です。メトリクス学習方法とは異なり、メタ学習方法はタスクレベルの方法です。メタ学習手法では、基本学習器とメタ学習器が連携して最適なパラメータ状態を取得し、そのパラメータ状態に基づいて、モデルは少ないサンプルの反復学習で新しいカテゴリを獲得できます。具体的には、学習プロセス中、ベース学習者は各独立したタスクから知識を迅速に取得し、この知識をメタ学習者に転送します。メタ学習者は、最適なパラメータ状態に到達するために多数のタスクに関する全体的な知識を蓄積します。このパラメータ状態を使用して、基本学習者のパラメータを更新すると、この時点で基本学習者は新しいタスクを迅速に学習できるため、小規模なサンプル学習に適しています。

メタ学習の代表的な手法は MAML (modelagnostic metal-learning) [10] である。MAML の 1 回の反復で、基本学習者は複数の独立したタスクを学習し、各タスクでエラーによって生成された勾配情報がメタ学習者に渡され、メタ学習者はこれらのタスクの勾配情報を蓄積することで経験的リスクを取得します。勾配を最小化し、次にメタ学習器パラメータを最適化し、最後に次の反復ラウンドで更新されたメタ学習器パラメータを使用して基本学習器を初期化します。メタ学習者は多数のタスクの全体的な知識を学習するため、メタ学習者のパラメータは、各タスクが収束したときに迅速に一般化する機能を備えています。基本学習者を初期化します。微調整により、基本学習者は新しいタスクを迅速に学習できます。

ただし、基本学習器を微調整することで MAML が学習する方法は依然として困難であり、2 つの要因が MAML の有効性を制限していると考えられています。まず第一に、小サンプル学習では、基本的な学習者は新しいタスクを素早く一般化する能力を持っていますが、微調整が必​​要なパラメータの量と比較すると、微調整に使用されるサンプルはまだ小さすぎます。微調整の結果が悪くなります。第二に、基本学習者の初期化状態は、多数のタスクに関してメタ学習者によって学習された全体的な傾向ですが、特定のタスクでは最適な状態ではありません。特に新しいタスクが全体的な傾向から逸脱している場合、初期化状態は最適化されません。基本学習者の状態 新しいタスクの微調整をサポートするには十分ではありません。

これら 2 つの問題を解決するために、記憶ベースの転移学習手法が提案されており、本論文では次のようなイノベーションを提案しています。

  • (1) 基本学習器で微調整するにはパラメータが多すぎるという問題を解決するために、重み分解戦略が提案されています。具体的には、いくつかの畳み込み層の重みを分解し、汎化能力のある部分を汎化重みとして使用し、タスクに敏感な部分を敏感な重みとして使用します。事前にトレーニングされた重みを一般化重みとして修正し、新しいタスクを学習するために機密性の高い重みのみを微調整します。このような分解戦略は、小規模サンプルの学習において非常に意味があります。汎化重みにより、学習プロセス中にモデルが常に汎化能力を備え、過剰適合を回避できます。同時に、適切なパラメータの数が必要です。 -tuned が大幅に減少するということは、学習プロセスが収束しやすくなることを意味します。

  • (2) 追加のメモリ モジュールを使用して、基本学習器をより効率的に初期化します。メタ学習段階では、モデルは機密重みを微調整することで新しいタスクを学習し、メモリ モジュールを使用してタスク情報を機密重み情報に関連付け、メモリに保存し、ネットワークがタスクを学習するときに同期して更新します。新しいタスクに遭遇するたびに、メモリ モジュールは現在のタスクに従ってメモリ内で最も関連性の高いタスクを検索して、最も関連性の高いタスクに対応する敏感な重みを取得し、その敏感な重みを使用して現在のモデルのパラメータを初期化します。初期化パラメータがタスクに関連するようにすることで、新しいタスクが全体の傾向から逸脱した場合に、初期化状態で微調整をサポートすることが困難になる状況を効果的に回避し、微調整効果をさらに向上させます。

1 数ショット学習

1.1  小規模サンプルの学習方法

少数ショット学習問題の研究は、主にデータ拡張、計量学習、メタ学習の方向に進んでいます。最近では、分類性能の向上により変換学習も注目を集めています。

小規模サンプル学習の主な問題は、十分なトレーニング サンプルが不足していることです。そのため、データ拡張手法は、小規模サンプルの問題を解決する最も自然な方法です。トリミング、回転、ノイズの追加などの標準的なデータ強調手法により、生成された画像は元の画像との視覚的な類似性が高く、小サンプル学習での作業は困難です。 、データ強化方法では、多くの場合、トレーニング データを拡張するための移転可能な知識を取得するために追加のデータが必要になります。Zhangら[11]は、2つの特徴抽出器を使用して画像の前景特徴と背景特徴をそれぞれ抽出し、異なる前景と背景を組み合わせてより多くの合成画像を生成して、データセットの拡張を実現することを提案しました。Wang et al. [12] は、特徴ドメインにジェネレーターを構築し、特徴にノイズを追加することで新しいインスタンスを生成しました。Chen et al. [9] はさらに視覚的特徴を意味空間にマッピングし、意味空間内の意味情報を利用してデータ拡張を実行し、拡張データを視覚空間にマッピングし直すことでさらに拡張されたサンプルを取得しました。

メトリクス学習方法では、サンプルを低次元の埋め込み空間にマッピングします。この空間では、サンプルの特徴がより識別しやすくなり、メトリクスによってサンプルが分類されます。Koch et al. [13] は、シャム ネットワーク構造を利用して 2 つの入力サンプル間の類似性を学習し、類似性スコアをソートすることで分類を実現しています。Vinyals et al. [14] は、サンプルの埋め込み空間へのマッピング プロセスにアテンション メカニズムを追加し、エピソード トレーニング戦略を初めて提案しました。Snell et al. [15] は、埋め込み空間では、各カテゴリが独自のカテゴリ プロトタイプで表現され、各カテゴリ プロトタイプ間のユークリッド距離を各カテゴリとの類似度として計算することによってクエリ サンプルが計算され、最終的にそれに基づいて分類されることを提案しました。類似性について。Sung et al. [16] は、固定メトリックの代わりに距離メトリックを学習するためにニューラル ネットワークを採用しています。Li et al. [17] は、クエリ サンプルと個々のカテゴリ間のローカル記述子を比較することにより、最も近いカテゴリを見つけます。Li et al. [18] は、共分散行列を使用して各カテゴリを表し、距離を測定するための共分散計量を提案しました。

メタ学習手法は、関連する一連のタスクを学習することによって、それらのタスクの本質的な法則を要約し、新しいタスクに直面したときに、獲得した知識に従って即座に適合および一般化することができます。Finn et al. [10] は、メタ学習器を使用してタスクの全体的な傾向を蓄積し、基本学習器のパラメータを更新し、基本学習器が新しい学習タスクに遭遇したときにすぐに適応できるようにしました。Ravi et al. [19] は、LSTM ベースのメタ学習器を使用して勾配降下法のプロセスをシミュレートし、LSTM はセル状態を通じて分類子ネットワークのパラメーターを更新し、最終的に新しいタスクで分類子ネットワークの更新をガイドします。Li et al. [20] は、基本学習器の勾配降下プロセスを学習するだけでなく、基本学習器の更新方向と学習率も学習することを提案しました。

変換学習方法では、予測対象のすべてのサンプルをネットワークに送信し、同時に予測を行って、すべてのサンプル (ラベル付きサンプルとラベルなしサンプルを含む) 間の関係を学習することを提案します。Liu et al. [21] は、ラベルがラベル付きサンプルからラベルなしサンプルに渡される変換推論にすべてのサンプルを利用します。Ye et al. [22] は、より適切に分類するために、セルフ アテンション メカニズムを通じて、タスクに依存しないサンプルの特徴をタスクに関連したサンプルの特徴に変換することを提案しました。Li et al. [23] は、サンプル インスタンスとその隣接インスタンスの間の関係を使用して、サンプルの機能強化を実現します。

1.2   移行学習

転移学習の目標は、いくつかのタスクで学んだ知識や経験を、関連する別のタスクに適用することです。ディープ モデルの場合、転移学習への実証済みのアプローチは、ファインチューニングと呼ばれる、事前トレーニングされたモデルを新しいタスクに適用することです。小規模なサンプル学習では、転移学習は、多数のタスクで事前トレーニングされたモデルを微調整することにより、新しいタスクでの迅速な学習を実現します。これらのタスク間には、共有特徴、類似した意味論的属性、または関連するコンテキスト情報など、特定の相関関係が存在する必要があります。計量学習 [14-15] では、ソース データ ドメインで学習した計量空間を新しいカテゴリに転送することで有望な結果が達成されています。メタ学習法 [10, 19] も転移学習に依存することが多く、メタ学習者がタスク間の知識を獲得した後、ベース学習者が新しいタスクを学習するように導くプロセスでは、多くの場合、微調整手法が採用されます。たとえば、MAML では、反復ごとにメタ学習者が基本学習者の初期化をガイドし、新しいタスクに遭遇すると、基本学習者は微調整を通じてこのタスクにすぐに適応します。

1.3  メモリネットワーク

小規模サンプル学習では、小規模サンプル問題を解決する際のメタ学習手法の中心的な考え方は、ソース データ ドメイン上の移転可能な知識を使用して新しいクラスの学習を支援することであるため、メモリ ネットワークがよく使用されます。メタ学習法における知識伝達の媒体として。メモリ ネットワークのアプリケーションの 1 つは、ネットワークの学習を支援するアテンション モジュールとしてです。たとえば、MN (マッチング ネット) [14] は、LSTM に基づくアテンション メカニズムを提供し、クエリ サンプルとトレーニング サンプルの間の接続をマイニングし、埋め込み空間でクエリ サンプルをより識別できるようにします。メモリ ネットワークのもう 1 つの用途は、情報を保存するメモリ モジュールとして、トレーニング中に事前知識をメモリ モジュールに保存し、テスト中にこの情報を使用して予測を行うことです。Santoro et al. [24] は、特徴ベクトルの正確な分類を達成するために、ニューラル チューリング マシン (NTM) を使用して特徴情報を対応するラベルに関連付けることを提案しました。He et al. [25] は、学習プロセス中に多数の特徴とラベルをメモリに保存し、新しいクラスを学習するときにメモリ内の情報を使用して現在のタスクの特徴を強化することを提案しました。

2つの方法

メモリベースの移行学習方法の中心となるアイデアは、メモリ モジュールを使用してメタ学習者 (分類子) に最適な初期化状態を提供し、新しいタスクでの迅速な学習を実現することです。図 1 は全体的なネットワーク構造です。サポート セット サンプルは、特徴エクストラクターを通過した後、対応する特徴表現を出力します。その後、メモリ モジュール内で、すべての特徴表現がタスク レベルの表現にダウンサンプリングされます。タスク表現を受信した後、読み取りコントローラーは、最も関連する重み情報。これにより、分類子ネットワーク内の機密重みを効果的に初期化できます。最後に、簡単な微調整の後、敏感な重みが一般化重みと連携して、サンプルの特徴を分類するための分類ネットワークの重みを形成します。各タスクの学習が完了すると、更新された感性重み情報と現在のタスク情報がペアになってメモリに保存されます。

図 1 記憶ベースの転移学習手法の全体的な枠組み

2.1   問題の定義

N ウェイ K ショットの小サンプル分類タスクの場合、各タスク T は 2 つのインスタンスのセット、サポート セットとクエリ セットで構成されます。このうち、サポート セット S={( x1,1,y1),( x1,2,y1),…,( xN,K,yN )} は、N カテゴリのカテゴリごとに K 個のラベル付きインスタンスで構成されます。ここで、xi ,j は i 番目のカテゴリの j 番目のサンプルを表し、yi ∈{ }1,2,…,N はそれが属するカテゴリを表し、クエリセット Q={q1,q2,…,qN×M}同じサポート セットで構成されます。サポート セット S を除く、 の N カテゴリからのサンプルは、ラベルのないインスタンス、つまり S ∩Q=∅ で構成され、qi は i 番目のクエリ サンプルを表します。少数ショット学習の最終目標は、サポート セット S の事前知識をマイニングし、それを使用してクエリ セット Q 内のサンプルのカテゴリを予測することです。

ただし、トレーニング サンプルが極端に不足しているため、直接予測する方法は過剰適合の重大なリスクに直面します。一般的な解決策は、補助メタトレーニング セット Dbase を使用して移転可能な知識を学習し、ネットワークの汎化能力を向上させることです。Dbase は、Nbase カテゴリに属する​​多数のラベル付きサンプルで構成され、ターゲットの少数ショット タスクのラベル空間とは素です (つまり、Nbase ∩Ntarget=∅)。同時に、ネットワークはエピソード トレーニング戦略 [14] を使用してトレーニングされます。この戦略は、少数ショット学習に関する論文で広く使用されており、良好な結果を達成しています。つまり、メタトレーニング プロセスでは、エピソード T^ ごとに、Nbase カテゴリから N カテゴリがサンプリングされ、カテゴリごとに K 個のラベル付きサンプルがサポート セット Ŝ としてサンプリングされ、これらのカテゴリ内の Ŝ を除く一部のサンプルがQ̂ともみなされます。明らかに、各トレーニング エピソードは、N ウェイ K ショットのターゲットとなる小さなサンプル タスクを模倣しています。モデルをトレーニングするときの目的は次のように定義されます。

このうち、θ はモデルのパラメータであり、Pθ( y|x,Ŝ ) はサンプル x がカテゴリ y に属する確率を表します。多数のエピソードを学習した後、モデルは適切に一般化されます。

2.2   重量分解

少数ショット学習では、多くの手法が事前トレーニング済みモデルの微調整に依存して高速学習を実現します。しかし、微調整が必​​要なパラメータの量に比べて、利用可能なデータの量はまだ少なすぎるため、微調整の効果は多くの場合限定的です。この問題を解決するために、重み分解戦略が提案されています。 。具体的には、ネットワーク内のいくつかの畳み込み層の重みは、一般化重みと敏感な重みに分解されます。事前トレーニング プロセスでは、ネットワークは機密重みを無視し、一般化重みのパラメーターのみを学習します。タスクを多数回繰り返すと、一般化重みは強力な一般化能力を持ちます。メタトレーニング プロセス中、ネットワークは汎化重みを凍結し、機密重みのパラメーターのみを学習し、機密重みと汎化重みの共同作用を通じて特定のタスクに適合します。

分類器の畳み込み層の重みを、一般化重み φ と感度重み W の 2 つの部分に分解します。事前トレーニング段階では、他の少数ショット学習方法と公平に比較​​するために、モデルは少数ショット学習のトレーニング セットでのみ事前トレーニングされます。たとえば、miniImageNet [14] データセットでは、トレーニング セット Dbase に合計 64 のカテゴリが含まれており、各カテゴリには 600 のサンプルがあり、モデルは事前トレーニング中に 64 カテゴリの分類ネットワークをトレーニングします。まず、特徴抽出パラメータ θ と分類パラメータ φ がランダムに初期化され、次に勾配降下法によって最適化されます。

ここで、α は学習率、l はクロスエントロピー損失です。この段階では、特徴抽出パラメータ θ と分類パラメータ φ が学習され、検証セット上でネットワークの汎化能力が検証されます。事前トレーニング後、θ と φ は汎化重みとして固定されます。メタトレーニング プロセス中、特徴抽出パラメータは変更されず、分類パラメータは一般化重み φ と感度重み W で構成されます。

メタトレーニング フェーズでは、分類器は汎化重みを凍結し、その後、ラベル付きサポート セット S を使用して敏感な重み W を微調整し、勾配降下法によって W を最適化します。

ここで、β は学習率、l はクロスエントロピー損失です。W を微調整することで、W をタスクに関連させます。重み更新の概念図を図2に示します。

図2 重み更新の模式図

2.3   メモリモジュール

N ウェイ K ショットの設定の下で、サポート セット S が与えられると、サンプル xn,k に対して、特徴抽出器は対応する特徴マップ en,k ∈RD を出力します。タスク内のすべてのサンプルの特徴マップで構成される特徴マップ e ∈ RN×K×D は、タスク レベルで e をダウンサンプリングするためのダウンサンプリング モジュールの入力として使用されます。

2.4   トレーニングプロセス

事前トレーニング段階では、モデルは Dbase トレーニング セットに対して従来の分類タスクを実行し、式 (2) によって最適化し、検証セットに最も効果のあるモデルを保持し、その重みを汎化重みとして固定します。メタトレーニング フェーズでは、エピソード トレーニング戦略に従って、各エピソードが Dbase 内の N ウェイ K ショット バッチをランダムにサンプリングし、トレーニングのためにネットワークに送信します。特徴抽出器を通過した後、式 (4) に従ってタスク レベルの特徴が取得され、式 (5) および式 (6) に従って最も関連性の高いタスクのインデックスがメモリ内で検索され、敏感なタスクのインデックスがメモリ内で検索されます。関連するタスクに対応する重み情報がインデックスに従って抽出され、再形成された後、それを使用して分類ネットワークの敏感な重みを初期化します。次に、式 (3) に従って、分類ネットワークが微調整されます。最後に、タスク レベルの特徴がタスク情報として使用され、微調整された機密重みが機密重み情報として再形成されてキーと値のペアが形成され、メモリに保存されてエピソードの学習が完了します。

上記のトレーニング プロセス中に、小規模サンプルのテスト シナリオを模倣することを目的として、各トレーニング バッチは N-way K ショットのメタテスト フォームに完全に一致するように設定されます。ただし、このマッチング メカニズムは、トレーニングされたモデルが N ウェイ K ショットのシナリオにのみ適していることを意味し、N ウェイ K' ショットの状況に一般化するのは困難です。したがって、K' ショット上のネットワークの一般化を強化するために、混合トレーニング戦略が提案されます。つまり、メタトレーニング段階では、各トレーニング バッチは異なる数のショットで構成され、統一された構造はさまざまな推論段階に適応することを学び、ショットのタスクを学びました。メモリ モジュールでは、タスク レベルでダウンサンプリングした後、N ウェイ K ショット サンプルで構成される特徴表現 e ∈ RN×K×D が RN×C の統一形式に圧縮されるため、メモリは任意の形式を受け入れることができます。ショット数のタスク。したがって、ハイブリッド トレーニング戦略を実行する場合でも、ネットワークは入力バッチ内のショットの数に関係なく統合モデルのままです。

3つの実験

3.1   データセット

miniImageNet データセットは、ImageNet [26] データセットのサブセットであり、少数ショット学習で広く使用されています。100 の異なるカテゴリがあり、それぞれに 600 枚の画像が含まれています。以前の研究 [19] で広く使用されていた設定に従って、64 のカテゴリもトレーニング セットとしてデータ セットから分割され、16 のカテゴリが検証セットとして使用され、残りの 20 のカテゴリがテスト セットとして使用されます。

tieredImageNet [27] データセットも ImageNet データセットのサブセットであり、miniImageNet とは異なり、より新しくて大規模なデータセットです。データ量の点では、608 のカテゴリが含まれており、各カテゴリには平均 1,281 のサンプルがあります。意味構造の点では、データセットを 34 の親カテゴリに分割して、カテゴリ間の意味上のギャップを確保します。小サンプル学習では、最上位レベルの 34 の親クラスは、トレーニング セットとして 20 の親クラス (最終カテゴリ 351 に対応)、検証セットとしての 6 の親クラス (最終カテゴリ 97 に対応)、および 8 の親クラスに分割されます。テスト セットとして (160 の最終カテゴリに対応)。意味階層に基づくこの分割方法により、異なるセット内のデータが意味的に無関係になり、モデルの一般化パフォーマンスをテストできます。

CUB [28] データセットは、鳥に関するきめの細かい分類データセットです。鳥の種類に対応する 200 の鳥カテゴリが含まれており、合計 11,788 枚の画像が含まれています。前の設定 [29] によれば、トレーニング セットとして 100 のカテゴリ、検証セットとして 50 のカテゴリ、テスト セットとして 50 のカテゴリが選択されています。CUB データセット内のすべての画像について、前処理操作として、提供されたターゲット ボックスに従ってターゲット領域がトリミングされます [27]。

最後に、すべてのデータセットの画像を 84×84 ピクセルのサイズに統一してネットワークに入力します。

3.2   実験のセットアップ

比較の公平性のために、汎用の 4 層畳み込みネットワークが特徴抽出器として使用されます。これには 4 つの畳み込みブロックが含まれます。各畳み込みブロックは、3×3 畳み込み、バッチ正規化 [30]、LeakyReLU 非線形の 64 チャネルで構成されます。アクティベーション機能と2×2の最大プーリング構成。分類器部分では、同様の畳み込みブロックが使用され、全結合分類層が使用され、より多くのチャネル レベルの情報を取得するために、より多くのチャネル コンボリューション カーネルが使用されます。

ネットワークは、Adam アルゴリズム [31] を使用してトレーニングされます。事前トレーニング段階では、初期学習率は 0.1 に設定され、10 エポックごとに学習率は 0.1 倍に減少します。メタトレーニングでは汎化重みを固定し、敏感な重みのみを学習しますが、このとき学習率を0.001に設定し、各タスクを100回反復して移行学習を行います。メタテスト プロセスでは、モデルの精度を計算するために 600 エポックがテストされ、各エポックでカテゴリごとに 15 個のサンプルが選択されてクエリ セットが形成されます。

3.3   実験結果

miniImageNet、tieredImageNet、CUB データセットの比較実験を実施します。MbTL 手法の有効性を検証するために、MbTL 手法は、マッチング ネット[14]、MAML[10]、メタ学習者 LSTM[19]、プロトティピカル ネット[15]、関係ネットワーク[ 16]、TPN[21]、DN4[17]、CovaMNet[18]、MNE[23]、FEAT[22]。Table1、Table2、Table3 は分類結果です。ここでのモデルの特徴抽出器はすべて従来の 4 層畳み込みブロックを使用しています。出力特徴マップのチャネル数は 64 と 32 で、Conv-4-64 と Conv-4-64 を使用しています。それぞれ 4 ~ 32 でマークされており、最良の効果は太字でマークされています。私たちの方法はほとんどの少数ショット学習方法よりも大幅に優れており、tieredImageNet および CUB データセットでは、5 方向 1 ショット設定と 5 方向 5 ショット設定の両方で最良の分類結果を達成していることがわかります。

表 1 は、miniImageNet データセットでの実験結果を示しています。TPN と比較すると、この論文の方法は、5 ウェイ 1 ショット設定ではほぼ 0.8 パーセント ポイント、5 ウェイ 5 ショット設定ではほぼ 2.7 パーセント ポイント改善されています。MNE と FEAT を比較すると、5 ウェイ 1 ショットの設定では、同じメモリベースの MNE が最良の結果を達成していますが、5 ウェイ 5 ショットの設定では、本稿の方法がわずかに優れています。表 2 は、CUB データセットでの実験結果を示しています。5 ウェイ 1 ショット設定では、CovaMNet と比較して、この論文の方法では 16 パーセント近くの大幅な改善が見られます。5 ウェイ 5 ショット設定では、DN4 と比較して、この論文の方法では依然として約 7.5 パーセント ポイントの大幅な改善が見られます。これらの結果は、私たちの方法が詳細な分類にも有効であることを示しています。表 3 は、tieredImageNet データセットでの実験結果を示しています。TPN および MNE と比較すると、5 ウェイ 1 ショットの設定では、本論文の手法は約 1 パーセントポイントの改善があり、5 ウェイ 5 ショットの設定では、本論文の手法は3パーセントポイントの大幅な改善。

表 1 miniImageNet データセットにおけるさまざまな手法の精度

表 2 tieredImageNet データセットにおけるさまざまなメソッドの精度

表 3 CUB データセットにおけるさまざまな手法の精度

図 3 は、5 方向 1 ショット設定における miniImageNet、tieredImageNet、CUB データセット上のモデルのトレーニング損失、検証精度、テスト精度を示しています。エポックの反復とともに、全体的なトレーニング損失が徐々に減少し、それに応じて検証精度率が徐々に増加していることがわかります。事前トレーニングにより、モデルはより良い状態になり、トレーニング損失と検証精度の範囲は大きくありません。効果をテストする最大検証精度に対応するモデルを選択し、テストセットにテスト効果を与えます。

図 3 トレーニング損失、検証精度、テスト精度

3.4   アブレーション実験

この論文の方法の有効性を検証し、重み分解とメモリ モジュールの効果をさらに評価するために、一連のアブレーション実験が miniImageNet、tieredImageNet、および CUB で実行されました。アブレーション実験の結果を表 4 に示します。

表 4 アブレーション実験

 3.4.1 重み分解の影響

重み分解戦略の効果を検証するために、メモリ モジュールは一時的にシールドされ、結果への影響が排除されます。表4に示すように、「MAML」の微調整方法は基本学習器(分類器)のすべての重みパラメータを微調整するのに対し、「MAML+重み分解」はまず基本学習器(分類器)の重みを分解します。一般化重みと機密重みに分割し、一般化重みを凍結し、機密重みのみを微調整することで新しいタスクを学習します。「MAML+重み分解」は、「MAML」と比較して、miniImageNet データセットでは重み分解戦略が 1 ショットと 5 ショットでそれぞれ 2.78 パーセント ポイントと 4.14 パーセント ポイント増加しました。tieredImageNet データセットでは、重み分解戦略が1 ショットと 5 ショットでは、それぞれ 2.99 パーセント ポイントと 1.07 パーセント ポイント増加しました。重み分解戦略は、基本学習器 (分類器) を微調整するのに効果的であると結論付けることができます。

 3.4.2 メモリモジュールの影響

ネットワークの学習プロセス中に、メモリ モジュールはタスク情報と機密重み情報を保存し、後続のタスクでは、ネットワークはメモリ モジュール内の事前知識を読み取ることで、移行学習を迅速に実行できます。表 4 に示すように、「MAML + 重み分解 + メモリ モジュール」が本論文の手法であり、「MAML + 重み分解」と比較して、1 ショットと 5 ショットでは miniImageNet データセットが 4.82 パーセント ポイント、5.30 パーセント ポイント改善されています。データ セットはそれぞれ 6.26 パーセント ポイントと 5.46 パーセント ポイント増加し、CUB データ セットはそれぞれ 3.93 パーセント ポイントと 6.41 パーセント ポイント増加しました。メモリ モジュールは、分類器により良い初期化状態を提供することで、モデルの微調整にプラスの効果をもたらしていることがわかります。

4 結論

この論文では、少数ショット学習問題に対処するために、メモリモジュールベースのメタ学習方法を提案します。従来のメタ学習方法と比較して、2 つの改善が加えられています。まず、基本学習器の微調整プロセスで微調整するにはパラメータが多すぎることを考慮して、基本学習器の重みを凍結重みと学習可能重みに分解する重み分解戦略を提案します。重みはモデルの精度を確保するために使用されます。汎化能力、学習重みは新しいタスクを学習するために使用できます。このような戦略は、小さなサンプルの学習でより効果的です。第二に、基礎学習器の不十分な初期化状態に対して、メモリモジュールを使用して前のタスクと重み情報を保存し、現在のタスクに従ってメモリ内の事前知識を読み取って、基礎学習器をより効果的に初期化することで、学習を支援します。基本学習者は新しいタスクをすぐに学びます。実験結果から、miniImageNet、tieredImageNet、および CUB データセットの他の方法と比較して、より高度な方法と比較して、この方法は小規模サンプルの分類および詳細な分類タスクで競合するパフォーマンスを達成しました。

免責事項:公式アカウントに転載された記事や写真は、参考や議論のための非営利の教育および科学研究を目的としたものであり、彼らの見解を支持したり、その内容の信頼性を確認したりするものではありません。著作権は原著作者に帰属しますので、転載原稿に著作権等の問題があった場合は、速やかに削除のご連絡をお願いします。

おすすめ

転載: blog.csdn.net/renhongxia1/article/details/131041109