漸進的学習の概要

次の記事は NewBeeNLP、著者 Maple Xiaoqi からのものです

1.漸進的学習の概念

1.1 増分学習とは何ですか?

人間には知識を継続的に取得、適応、伝達する生涯にわたる能力があり、生涯を通じて学んだことを徐々に忘れる傾向がありますが、新しい知識の学習が壊滅的な結果になることはまれです。すでに学習した知識に影響を与えることを増分学習と呼びます。

具体的には、 「増分学習の能力とは、現実世界の継続的な情報の流れを継続的に処理し、古い知識を保持または統合して最適化しながら新しい知識を吸収する能力です。 .能力。」

インクリメンタルラーニングには20年以上の研究の歴史がありますが、インクリメンタルラーニングの起源は認知神経科学における記憶と忘却のメカニズムの研究にあるため、多くの論文のアイデアは認知科学の発展からインスピレーションを受けています。生物学と認知科学を指向した増分学習のレビューについては、ニューラル ネットワークによる継続的な生涯学習: レビュー[1]を参照してください。

1.2 なぜ段階的な学習が必要なのか

機械学習の分野では、増分学習はモデル トレーニングにおける一般的な欠陥、「壊滅的な忘却」 の解決に取り組んでいます。つまり、一般的な機械学習モデル (特にバックプロパゲーションに基づく深層学習手法) が新しいタスクでトレーニングされると、通常、古いタスクでのパフォーマンスが大幅に低下します。

壊滅的な忘却の主な理由の 1 つは、「従来のモデルは、データの分布が固定または定常であり、トレーニング サンプルが独立していて同一に分布していると想定している」ため、モデルはすべてのタスクについて同じデータを何度も確認できることです。しかし、データが連続データストリームになると、トレーニングデータの分布は非定常となり、モデルが非定常データ分布から知識を継続的に取得すると、新しい知識が古い知識と干渉し、その結果、急激な減少が発生します。モデルのパフォーマンスが低下したり、以前に学習した知識を完全に上書きしたり忘れたりすることさえあります。

壊滅的な忘却を克服するために、モデルが、一方では新しいデータからの新しい知識を統合し、既存の知識を洗練する能力(可塑性)を実証し、他方では、新しい入力による重大な干渉を防ぐことを期待します。既存の知識 (安定性)。これら 2 つの相反するニーズは、安定性と可塑性のジレンマとして知られるものを構成します。

壊滅的な忘却に対する最も単純かつ粗雑な解決策は、既知のデータをすべて使用して、時間の経過に伴うデータ分布の変化に適応するようにネットワーク パラメーターを再トレーニングすることです。モデルを最初からトレーニングすると壊滅的な忘却問題は完全に解決されますが、この方法は非常に非効率であり、モデルがリアルタイムで新しいデータを学習するのを大きく妨げます。増分学習の主な目標は、限られたコンピューティング リソースとストレージ リソースの条件下で、安定性と可塑性のジレンマにおいて最も効果的なバランス ポイントを見つけることです。

1.3 増分学習の特徴

増分学習、継続学習 (Continual Learning)、生涯学習 (Lifelong Learning) の概念はほぼ同等です。どちらも継続的なデータ ストリームでモデルをトレーニングします。時間が経つにつれて、より多くのデータが徐々に利用可能になります。同時に、古いデータはストレージの制限やプライバシー保護などの理由により、徐々に利用できなくなる可能性があり、学習タスクの種類と数は事前に定義されていません (分類タスクのカテゴリの数など)。

ただし、増分学習にはまだ特に明確な定義がないため、オンライン学習、転移学習、マルチタスク学習などの概念と混同されやすいです。 "インクリメンタル学習とオンライン学習の違いに特に注意してください。オンライン学習では通常、各サンプルは 1 回のみ使用でき、データはすべて同じタスクからのものである必要がありますが、インクリメンタル学習はマルチタスクですが、現在のタスクを実行できます。次のタスクに移動する前に複数回処理されます。タスク データ」。上の図は、増分学習と他の学習パラダイムの違いを示しています。一般に、増分学習には次の特徴があります。

  • 新しい知識を学習する際、以前に学習した知識のほとんどを保持できます。つまり、モデルは古いタスクと新しいタスクの両方で適切に実行できます。
  • 計算能力とメモリは固定されるか、カテゴリの数が増加するにつれて徐々に増加する必要があり、あるタスクの学習が完了すると、そのタスクの観測サンプルがすべて破棄されることが理想的な状況です。
  • モデルは、新しいタスクと新しいデータから新しい知識を継続的に学習でき、新しいタスクが異なるタイミングで出現した場合でもトレーニング可能です。

増分学習の問題の複雑さと課題の多様性のため、増分学習については特定の状況でのみ議論されることがよくあります。画像分類モデルを例にとると、モデルが新しい画像と新しいカテゴリを段階的に学習する機能を備えていることが望まれますが、前者は転移学習に関連しているため、タスク増分学習はより困難です。現在、深層学習コミュニティによって主に検討されている増分学習パラダイム。

「この記事では、近年最も注目を集めている増分学習パラダイムについて主に説明します。」。増分学習のより広範かつ詳細な紹介については、モノグラフを参照してください。 「生涯にわたる機械学習」[2]。

2. 増分学習の実装方法

増分学習は継続的な学習プロセスです。このプロセスでは、モデルが前のタスクを学習していると仮定します。そのタスクと対応するデータに直面したとき、古いタスクから学習した事前確率を使用したいと考えます。知識支援学習、そして学習した知識でモデルを更新します。このプロセスでは、次の損失関数を最小化するパラメータを現在のタスクで見つける必要があります。

古いデータが部分的または完全に表示されない場合。

段階的学習方法の種類はさまざまに分類されますが、この記事では次の 3 つのパラダイムに分類します。

  • 正則化
  • リプレイ
  • パラメータの分離

その中でも、正則化と再生に基づく増分学習パラダイムがより注目されており、増分学習の真の目的に近いのですが、パラメータ分離パラダイムはより多くのパラメータと計算量を導入する必要があるため、通常はより単純な目的でしか使用できません。タスク、段階的な学習。他の除算方法と増分学習のさまざまなカテゴリの長所と短所の比較については、視覚タスクのためのクラス増分学習アルゴリズムの包括的な研究 [3] を参照してください。以下では、正則化と増分学習に基づく古典的な増分学習の方法のみを紹介します。再生と関連する進行状況。

2.1 正則化に基づく増分学習

正則化に基づく増分学習の主なアイデアは、「新しいタスクの損失関数に制約を課すことによって、古い知識が新しい知識によって上書きされないように保護する」ことです。このタイプの方法では、通常、古いデータを使用する必要はありません。モデルを作成する したがって、すでに学習したタスクを復習することは、最も洗練されたタイプの増分学習方法です。 Learning without Forgetting (ECCV 2016) [4] によって提案された LwF アルゴリズムは、深層学習に基づく増分学習のマイルストーンです。LwF アルゴリズムを紹介する前に、まず最も単純な増分学習手法のいくつかを理解します。

上の図は、マルチヘッド ネットワーク構造を持つモデルが新しいタスクを学習するためのさまざまな戦略を示しています。(a) はトレーニング済みの元の CNN ベースのモデルで、さまざまなタスクで共有される CNN パラメーターを表し、MLP を表します。元のタスクに関連するパラメータ。新しい分類タスクを追加するときに、ランダムに初期化された MLP パラメータを追加できます。に基づく学習方法には、次のカテゴリが含まれます。

  • 微調整: 微調整には古いタスクのパラメーターやサンプルのガイダンスがないため、古いタスクでのモデルのパフォーマンスはほぼ確実に低下します。つまり、致命的な忘却が発生します。
  • 共同トレーニング: 共同トレーニングは、既知のすべてのデータでモデルを再トレーニングすることと同等であり、これが最も効果的であるため、通常は「増分学習のパフォーマンスの上限」と考えられていますが、トレーニング コストが高すぎます。
  • 特徴抽出: 特徴抽出はトレーニングのみを目的としており、共有パラメータは更新されません。古いタスクでのモデルのパフォーマンスには影響しませんが、新しいタスクの一意の特徴表現や新しいタスクでのパフォーマンスを効果的にキャプチャすることはできません。通常は満足できません。

LwF アルゴリズムは、共同トレーニングと微調整トレーニングの間のトレーニング手法であり、古いタスクのデータを使用せずに更新できるのが特徴です。 LwF アルゴリズムの主なアイデアは知識蒸留 [5] から来ており、新しいタスクに対する新しいモデルの予測を、新しいタスクに対する古いモデルの予測と同様にすることです。

具体的には、LwF アルゴリズムは、まず新しいタスクで古いモデルの予測値を取得し、新しいモデル出力の蒸留損失を損失関数に導入し、次に微調整手法を使用して新しいタスクでモデルをトレーニングします。古いモデルのパラメータにより、古いタスクでの新しいモデルのパフォーマンスが低下する原因となるため、新しいタスクのトレーニングの過剰調整が回避されます。アルゴリズム フローを以下の図に示します。ここでは、モデルの安定性と可塑性を比較検討するために使用されます。

ただし、この方法の欠点は、古いタスクと新しいタスクの相関関係に大きく依存することであり、タスクがあまりにも異なる場合、タスク間の混乱が発生し、学習タスクに応じてタスクの学習時間が増加することです。この数は直線的に増加し、同時に導入された正則化項は、新しいタスクにおけるモデルの最適化プロセスを効果的に制限できないことがよくあります。

LwF アルゴリズムの考え方を中心に多くの研究者が多くの改善戦略を提案しており、より有名なものとしては、Encoder Based Lifelong Learning (ICCV 2017) [6] によって提案された低次元特徴マッピングに基づく EBLL アルゴリズムや、壊滅的な問題の克服などがあります。ニューラル ネットワークにおける忘却 (PNAS 2017)[7] は、ベイジアン フレームワークに基づく EWC アルゴリズムを提案しました。EWC アルゴリズムは、実際には一般的な **「パラメーター制約」** メソッドに対応しており、パラメーターに関連する追加の規則的な損失が導入されます。

この損失により、新しいタスクをトレーニングすることによって取得される新しいモデル パラメーターが、さまざまなパラメーターの重要性に基づいて古いモデル パラメーターにできるだけ近くなることが促進されます。その後、Rotate your Networks: Better Weight Consolidation and Less Catastrophic Forgetting (ICPR 2018)[8] など、EWC を改善した多くの論文があります。

要約すると、正則化に基づく増分学習方法は、追加の損失を導入することで勾配を修正し、モデルによって学習された古い知識を保護し、特定の条件下で壊滅的な忘却を軽減する方法を提供します。ただし、現在の深層学習モデルはすべて過剰にパラメーター化されていますが、モデルの容量は最終的には制限されており、通常は依然として古いタスクと新しいタスクのパフォーマンスの間でトレードオフを行う必要があります。近年では、さまざまな正則化手法も多くの研究者によって提案されていますので、興味のある方は以下の論文を参照してください。

  • 暗記せずに学ぶ (CVPR 2019)[9]
  • リバランスによる統合分類子の段階的な学習 (CVPR 2019)[10]
  • ディープモデル統合によるクラス増分学習 (WACV 2020)[11]

2.2 再生に基づく増分学習

文字通り、リプレイに基づく増分学習の基本的な考え方は「過去を振り返り、新しいことを学ぶ」というもので、新しいタスクを学習させる際には、代表的な古いデータの一部が保持され、過去のタスクを振り返るモデルに使用されます。知識、したがって **「古いタスクのデータのどの部分を保持する必要があるか、古いデータを使用して新しいデータと一緒にモデルをトレーニングする方法」** が主な問題です。このタイプの方法では考慮する必要があります。

iCaRL: Incremental Classifier and Representation Learning (CVPR 2017)[12] は、再生に基づく最も古典的な増分学習モデルです。iCaRL の考え方は、実際には LwF に似ています。モデル パラメーターを更新するために蒸留損失も導入されますが、古いデータは一切使用できないという制限に加えて、iCaRL によって設計された損失関数は次のとおりです。

LwF は新しいデータをトレーニングするときに古いデータをまったく使用しませんが、iCaRL は新しいデータをトレーニングするときに古いタスクごとに代表的な古いデータの一部を保持します (iCaRL は、カテゴリ特徴の平均に近いサンプルがより代表的であると想定しています)。古いタスクでモデルによって学習されたデータの特徴を覚えておくとよいでしょう。

さらに、Experience Replay for Continual Learning (NIPS 2019) [13] は、このタイプのモデルは保持される古いデータの量を動的に調整できるため、データの数に応じて計算コストが線形に増加するという LwF アルゴリズムの欠点を回避できると指摘しました。タスクが増えます。 iCaRL アルゴリズムに基づいて改良された影響力のあるアルゴリズムには、エンドツーエンド増分学習 (ECCV 2018) [14] や大規模増分学習 (CVPR 2019) [15] などがあります。これらのモデルの損失関数は知識蒸留技術を利用しています。壊滅的な忘却の問題をさまざまな角度から軽減しようと試みていますが、壊滅的な忘却の問題は満足のいく解決には程遠いです。

iCaRL の増分学習法は古いタスクのパラメータを更新するため、保持されている古いデータにモデルが過剰適合する可能性があります。継続学習のための勾配エピソード記憶 (NIPS 2017) [16] は、この問題に対処するために勾配フラグメントを提案しました。メモリ アルゴリズム (GEM)、GEM は古いタスクのパラメーターに干渉することなく、新しいタスクのパラメーターのみを更新します。GEM は、新しいタスクの勾配更新方向を不等式制約の形で修正するため、モデルを最小化することができます。古いタスクの損失が増加する 新しいタスクの損失値を変更します。

その後の GEM 方向の改善には、A-GEM による効率的な生涯学習 (ICLR 2019) [17] やオンライン継続学習のための勾配ベースのサンプル選択 (NIPS 2019) [18] が含まれます。

さらに、増分学習に VAE と GAN の考え方を導入した著作もいくつかあり、例えば、変分継続学習 (ICLR 2018) [19] では、増分学習のベイズ的性質を指摘し、オンライン変分推論とモンテカルロを導入しました。増分学習の代わりに、Deep Generative Replay を使用した継続的学習 (NIPS 2017) [20] は、GAN をトレーニングして古いデータを生成することで、リプレイベースの手法の潜在的なデータプライバシーの問題を回避しますが、これは追加のパラメーターを備えた間接ストレージと本質的に同等です。古いデータですが、生成モデル自体がまだそれほど高いレベルに達しておらず、この種の方法の結果は満足のいくものではありません。

一般に、リプレイに基づく増分学習の主な欠点は、古い知識を思い出すために追加のコンピューティング リソースとストレージ スペースが必要になることです。タスクの種類が増え続けると、トレーニング コストが高くなるか、代表者の代表性が低下するかのどちらかになります。同時に、実際の本番環境においては、この方法では「データプライバシーの漏洩」という問題も発生する可能性があります。

3. 段階的学習の応用

増分学習の利点は、大量のトレーニング データを保持することなく、いつでも新しいデータをトレーニングできるため、ストレージとコンピューティングのオーバーヘッドが比較的小さいことです。同時に、効果的に回避することもできます。ユーザーのプライバシー漏洩の問題は、** モバイルにおいて非常に重要です。エッジ コンピューティングのシナリオは非常に価値があり、意味があります。 「しかし、現在の増分学習はまだ非常に未解決の研究問題です。大部分はまだ理論的探索段階にあります。学術界は多くの面で統一された合意に達していません。」多くの論文では、「導き出された結論は互いに矛盾することが多いため、段階的学習はまだ広く適用されておらず、細分化された分野では実装されていません。」** としています。

3.1 コンピュータビジョン

ほとんどの増分学習研究は画像分類タスクを対象としています。近年、多くの論文が強化学習をより複雑なターゲット検出タスクやセマンティック セグメンテーション タスクに拡張しています。代表的な研究の一部を以下に示します。

画像分類

  • DNN における壊滅的な忘却に関する包括的で応用指向の研究 (ICLR 2019)[21]
  • 視覚タスクのためのクラス増分学習アルゴリズムの包括的な研究[22]

ターゲットの検出

  • インクリメンタルな少数ショットオブジェクト検出 (CVPR 2020)[23]
  • 壊滅的な忘却を伴わない物体検出器の増分学習 (ICCV 2017)[24]

セマンティックセグメンテーション

  • セマンティック セグメンテーションにおける増分学習の背景のモデル化 (CVPR 2020)[25]
  • セマンティック セグメンテーションのための増分学習テクニック (ICCV ワークショップ 2019)[26]
  • 大規模なリモートセンシングデータのセマンティックセグメンテーションのための増分学習[27]

3.2 自然言語処理

増分学習に関する現在の研究は主にコンピュータ ビジョンを対象としており、自然言語処理の分野ではあまり注目されていません。その主な理由の 1 つは、現在の自然言語処理コミュニティの注目が BERT に代表される自己教師あり表現学習に主に集中しており、大規模な事前学習モデルの推進により、増分学習の応用価値があまり明らかになっていないことです。

  • LAMOL: 生涯言語学習のための言語モデリング (ICRL 2020)[28]
  • 生涯言語学習におけるエピソード記憶 (生理研 2019)[29]
  • コンセプターを使用した文表現の継続的学習 (NAACL 2019)[30]
  • 継続的な生涯学習による神経トピックモデリング (ICML 2020)[31]
  • インクリメンタル自然言語処理: 課題、戦略、および評価 (COLING 2018)[32]

3.3 ロボット

ロボットは、継続的な観察を通じて環境に適応し、環境と対話することを学習する必要があるため、増分学習の自然な応用シナリオです。増分学習は現実世界の環境を十分に説明できますが、ロボット工学自体の分野にはさらに多くの重要な問題があります. を解決する必要があるため、増分学習の応用例はあまりありません。

  • ロボット工学の継続学習: 定義、フレームワーク、学習戦略、機会、課題[33]
  • エンドツーエンドのビジョンベースのロボット操作の効率的な適応 (ICML ワークショップ 2020)[34]

4. 漸進的学習が直面する問題と課題

4.1 定量的な評価指標

インクリメンタル学習の一般的な評価指標には**「正確性、記憶力、伝達能力」**があり、このうち記憶能力と伝達能力はモデルの可塑性や安定性を測る指標ですが、これらの指標の具体的な式の定義は以下の通りです。物議を醸す。さまざまな増分学習方法が提案されていますが、アルゴリズムの有効性を評価するためのベンチマーク データセットや指標の選択については、幅広いコンセンサスがありません。

ポイントの 1 つは、増分学習では通常、モデルの安定性と可塑性のバランスをとるために追加のハイパーパラメータの導入が必要であるということです。これらのハイパーパラメータは通常、検証セットに基づいて最適化されます。"しかしこれは本質的に、増分学習では将来のデータを取得できないという因果律に違反しており、人々が過度に楽観的な結論を下すことになり、実験結果は実際の運用環境では再現できないことがよくあります。」

ハイパーパラメータ選択の問題を目的として、「継続学習調査: 分類タスクにおける忘却の克服 (2020) [35]」では、一般的な増分学習ハイパーパラメータ検索フレームワークを提案し、増分を比較するための一連の比較的公正な指標を設計しました。学習アルゴリズム、パフォーマンスいくつかの SOTA 増分学習アルゴリズムが報告されています。

これに基づいて、「クラス増分学習: 調査とパフォーマンス評価 (2020)[36]」では、複数のデータセットに対して最新の増分学習手法のいくつかを包括的に比較しました。著者は、正則化に基づく増分学習では、パフォーマンスが向上することを発見しました。最初に提案された LwF アルゴリズムは非常に堅牢です。その後改良された多くの手法は、条件によっては LwF アルゴリズムほど良くありません。さらに、データ制約に基づく手法 (LwF) は、実際にはパラメータ制約に基づく手法 (EWC) よりも優れたパフォーマンスを発揮するのが通常です。ただし、現在の研究の関心は後者に偏っています。インクリメンタル学習の評価指標やモデルの比較について議論・提案している論文は他にも以下にありますが、ここでは一つ一つ紹介しません。

  • DNN における壊滅的な忘却に関する包括的で応用指向の研究 (ICLR 2019)[37]
  • 忘れないでください。忘れるだけではありません: 継続学習のための新しい指標 (ICML ワークショップ 2020)[38]
  • 継続的な学習の堅牢な評価に向けて[39]

4.2 真の増分学習

増分学習自体は非常にオープンな概念です。現在、研究されているディープ ラーニングに基づく増分学習のほとんどは、**「教師あり分類、タスクベースの増分ネットワーク構造のフレームワーク」に限定されています。 「マルチヘッド設定での増分学習は、増分学習の問題の本当の難しさを隠します。」**。また、現在は教師あり学習が主に研究されていますが、より実環境に近い教師なし増分学習やその他の増分手法を検討することも非常に有意義です。 では、このドメイン固有のトレーニング スキームは通常、非常に動的で構造化されていない現実世界の環境に直接適用することはできません、と継続学習の堅牢な評価に向けて [40] が指摘しています。

現在の段階的学習方法では通常、「タスクの性質があまりにも異なってはいけないことが暗黙的に要求されます。」タスクの性質と難易度があまりにも異なる場合、ほとんどのパフォーマンスは低下します。増分学習法のパフォーマンスは大幅に低下し、単純なベースライン モデルのパフォーマンスよりもさらに低くなります。さらに、多くの研究では、「現時点では、どのような条件下でも適切に実行できる増分学習手法は存在しない」ことを示しており、ほとんどの増分学習手法は「モデル構造、データ プロパティ、ハイパーパラメーター設定に影響を受けやすい」**ため、すべてのタスク設定においてより堅牢な増分学習方法を探索することも意味があります。

気に入っていただけましたら、いいねやフォローをしてコミュニケーションをとってください。

おすすめ

転載: blog.csdn.net/chumingqian/article/details/134869454
おすすめ