HAT - タスクへの熱心な注意で壊滅的な物忘れを克服する翻訳

HAT: 課題への集中力による壊滅的な忘却の克服 (ICML、2018)
HAT: 課題への集中による壊滅的な忘却の克服

ポータル

ペーパー
コード

抽象的な抽象的な

壊滅的な忘却は、ニューラル ネットワークが次のタスクでトレーニングした後に、前のタスクで学習した情報を失うときに発生します。この問題は、逐次学習が可能な AI システムにとって依然として障害となっています。この論文では、現在のタスク学習に影響を与えることなく、以前のタスクからの情報を保存するタスクベースのハード アテンション メカニズムを提案します。

ハード アテンション マスクは、確率的勾配降下法を介してタスクごとに同時に学習され、この学習は前のマスクに条件付けされます。提案されたメカニズムが壊滅的な物忘れを減らすのに効果的であり、現在の物忘れ率が45%から80%減少することを示します。また、さまざまなハイパーパラメータの選択に対する堅牢性も示し、多くの監視機能を提供します。この方法には、学習した知識の安定性とコンパクトさを制御する可能性があり、オンライン学習やネットワーク圧縮アプリケーションにとっても魅力的であると考えられます。

1.はじめに

2.タスクに集中する タスクに集中する

2.1 動機 動機

提案されたアプローチを推進する主な観察は、タスク定義、より実際的にはその識別子がネットワークの機能にとって重要であるということです。鳥と犬の画像を区別するタスクを考えてみましょう。そうするためにネットワークを訓練するとき、ネットワークはいくつかの中間的な特徴セットを学習する可能性があります。2 番目のタスクが、同じデータを使用して茶色の動物と黒色の動物を区別することである場合 (茶色または黒色の鳥と犬のみが含まれていると仮定)、ネットワークは新しい特徴セットを学習する可能性がありますが、その一部は最初のタスクとは異なります。あまり重なりません。したがって、トレーニング データが両方のタスクで同じである場合、重要な違いはタスクの説明または識別子であるはずです。私たちの目的は、タスク識別子を使用して各レイヤーを条件付けする方法を学習し、後でこの学習した条件付けを利用して以前のタスクを忘れないようにすることです。

2.2 アーキテクチャ アーキテクチャ

現在のタスク t の条件を満たすために、階層的な注意メカニズムを採用します (図 1)。層 l のユニット 2 の出力 hl を考慮して、h0l = atl − hl を要素ごとに乗算します。ただし、通常のアテンション メカニズムとの重要な違いは、ATL が確率分布を形成するのではなく、ETL に埋め込まれた単層タスクのゲート バージョンであることです。ここで、σ(x) ∈ [0,1] はゲート関数、
ここに画像の説明を挿入
sは正のスケールパラメータです。実験ではシグモイド ゲーティングを使用しましたが、他のゲーティング メカニズムも使用できます。すべての層 l = 1, ...L−1 は、最後の層である層 L を除いて同様に動作します。ここで、atL はバイナリでハードコードされています。層 L はマルチヘッド出力と同等に動作し (Bakker & Heskes, 2003)、壊滅的な忘却の文脈でよく使用されます (例: Rusu et al., 2016; Li & Hoiem, 2017; Nguyen et al., 2017)。

ここに画像の説明を挿入
図 1. 提案されたアプローチの概略図: 前方
(上) および後方 (下) パス
提案された方法の概略図: 前方 (上) および後方 (下) パス。

式 1 のゲート メカニズムの背後にある考え方は、「抑制性シナプス」 (McCulloch & Pitts、1943) として機能するハードな、おそらくバイナリ アテンション マスクを形成することであり、これにより各層ユニットの出力をアクティブまたは非アクティブにすることができます。

この方法では、PathNet (Fernando et al., 2017) と同様に、新しいタスクを学習しながら保存できるレイヤー全体のパスを動的に作成および破棄します。ただし、PathNet とは異なり、HAT のパスはモジュールではなく、個々のユニットに基づいています。したがって、モジュール サイズを事前に割り当てる必要も、タスクごとのモジュールの最大数を設定する必要もありません。ネットワーク アーキテクチャが与えられると、HAT は学習して個々のユニット パスの寸法を自動的に決定し、最終的には個々のレイヤーの重みに影響を与えます。さらに、遺伝的アルゴリズムを使用して別の段階でパスを学習する代わりに、HAT はバックプロパゲーションと SGD を使用して、ネットワークの残りの部分と一緒にパスを学習します。

2.3 ネットワークトレーニング ネットワークトレーニング

新しいタスクを学習するときに前のタスクで学習した情報を保持するために、以前のすべてのタスクの累積的な注意に基づいて勾配を調整します。累積注意ベクトルを取得するには、タスク t を学習して atl を取得した後、
ここに画像の説明を挿入
要素ごとの最大値ベクトルとすべて 0 のベクトルを使用して ≤ 0 l に対して再帰計算が実行されます。これにより、以前のタスクに重要なユニットの注意値が保存され、将来のタスクのトレーニングを条件付けできるようになります。

タスク t + 1 のトレーニングを条件付けるために、現在の層と前の層の累積注意最小値とは対照的に、層 l の勾配 gl,ij を変更します。ここで、ユニット インデックス I と j は出力 ( l) と入力 (l) に対応します
ここに画像の説明を挿入
。 −1) 層。言い換えれば、層 l の勾配テンソルの次元に一致するようにベクトル a ≤ tl および a ≤ tl−1 を展開し、要素ごとの最小値、減算、乗算を実行します (図 1)。入力データが画像や音声などの複雑な信号で構成されている場合、入力データは考慮されません。ただし、これらのデータが独立または独立した特徴で構成されている場合は、いくつかのレイヤーの出力とみなして同じ方法を適用することもできます。

式 2 では、前のタスクにとって重要な重みの大幅な更新を防ぐためにマスクを作成していることに注意してください。

これは、HA t の開発中に公開された PackNet (Mallya & Lazebnik、2017) のアプローチに似ています。PackNet では、ヒューリスティックな選択と再トレーニングの後、バイナリ マスクが検出され、対応するネットワークの重みを固定するために適用されます。この点で、HAT は 3 つの重要な点で PackNet とは異なります。まず、マスクは単位ベースであり、重みベースのマスクは単位から自動的に導出されます。したがって、HAT は軽量構造も保管および維持します。第二に、マスクはヒューリスティックまたはルール駆動ではなく学習されます。したがって、HAT は圧縮率を事前に割り当てる必要がなく、トレーニング後のステップを通じてパラメータの重要性を決定する必要もありません。第三に、マスクは必ずしもバイナリである必要はなく、0 と 1 の間の中間値が許容されます。これは、一部の忘れを犠牲にして他のタスクを学習するために重みを再利用したい場合、または新しいタスクを思い出すために古いタスクを忘れて、よりオンライン モードで作業したい場合に便利です。

2.4 ハード アテンション トレーニング ハード アテンション トレーニング

完全なバイナリ アテンション ベクトル atl を取得するには、ユニット ステップ関数をゲートとして使用できます。ただし、埋め込み etl をバックプロパゲーションでトレーニングしたいため (図 1)、微分可能な関数を好みます。勾配が流れることを可能にする擬似ステップ関数を構築するには、正のスケーリング パラメーター s を持つシグモイド (式 1) を使用します。このスケーリングは、擬似ステップ関数の分極または「硬さ」、そして最終的には出力 ATL を制御するために導入されました。私たちの戦略は、トレーニング中に s をアニーリングし、勾配の流れを誘導し、テスト中に s = smax を設定し、smax ? を使用して式 1 を単位ステップ関数に近似することです。s→∞の場合はatl,i→{0,1}が得られ、s→0の場合はatl,i→1/2が得られることに注意してください。後者を使用して、すべてのネットワーク ユニットが均等にアクティブな状態でトレーニング エポックを開始し、エポック全体で徐々に二極化していきます。

トレーニング フェーズでは、s の値を段階的に線形にアニーリングします。
ここに画像の説明を挿入
ここで、b = 1, ... B はバッチ インデックス、B はエポック内のバッチの総数です。ハイパーパラメータ smax≥1 は、学習タスクの安定性、つまりネットワーク ユニットの可塑性を制御します。smax が 1 に近い場合、ゲート メカニズムは、特に atl の 2 値化を強制することなく、通常のシグモイド関数と同様に機能します。これによりユニットに可塑性がもたらされ、モデルは逆伝播フェーズ (セクション 2.3) 中に以前のタスクを忘れることができます。逆に、smax が大きい場合、ゲート機構は単位ステップ関数として動作し始めます。

これにより、以前に学習したタスクに安定性がもたらされ、バックプロパゲーション段階での対応する重みの変更が防止されます。

2.5勾配補償の埋め込み 勾配補償の埋め込み

予備的な分析では、埋め込み etl はあまり変化せず、これらの重み全体で勾配の大きさが弱いことが経験的に観察されます。いくつかの調査の後、問題の主な部分は導入されたアニーリング スキーム (式 3) によるものであることがわかりました。etl の勾配に対するアニーリング スキームの影響を説明するために、標準シグモイド etl,i ∈ [−6,6] の有効範囲にわたる埋め込み etl,i の一様分布を考えます。アニーリングを行わずに s = 1 に設定すると、1 エポック後に、ベル型の形状を持ち、シグモイド範囲全体に及ぶ累積勾配が得られます (図 2)。対照的に、s = smax に設定すると、スケールは大きくなりますが、範囲は低くなります (図 2 の etl, i ∈ (−1,1))。アニーリングされたバージョン s は分布の中央に位置し、範囲が s = 1 より低く、サイズが s = smax より小さくなります。

理想的な状況は、理想的には s = 1 の範囲にわたる広い範囲と、理想的には s = smax での活性領域の大きさに比例する大きな累積大きさを持つことです。これを達成するために、etl を更新する前に勾配補正を適用します。

ここに画像の説明を挿入
図2。et の勾配 q に対するアニーリング s の影響が示されています。

基本的に、勾配補償を埋め込むというアイデアは、アニールされたシグモイドの影響を除去し、前のセグメントによって励起された望ましい範囲と大きさを人為的に課すことです。これを行うには、勾配 ql,i をアニーリングされたシグモイドの導関数で除算し、必要な補償を乗算します。
ここに画像の説明を挿入
数値安定性を確保するために、|setl,i|≤50 をクランプし、etl,i が標準シグモイドに留まるように制約します。アクティブ範囲内の etl,i∈[−6,6]。とにかく、これらの制限に達すると ql,i → 0 になります。つまり、擬似ステップ関数の定数領域内にいます。また、式 3 より、s の最小値が 0 に等しくないことにも注意してください。

2.6低容量使用の促進 低容量使用の促進

「アクティブな」ハード アテンション値 atl,i (つまり atl,i → 1) がタスク t に使用される単位を直接決定することを認識することが重要です。したがって、将来のタスクのためにモデルの容量を確保するために、ベクトルのセット At = {at1,...atL−1} に焦点を当てます。この目的を達成するために、タスク t−1 までの注意ベクトルの累積セットを考慮した正則化項を損失関数 L に追加します。ここで、c は正則化定数、正則化項、Nl は正則化の数に対応します
ここに画像の説明を挿入

ここに画像の説明を挿入
単位。式 5 は、At での重み付けおよび正規化された L1 正則化に対応することに注意してください。

これにより、以前のタスクに参加したユニットを正規化することができなくなり、現在のタスクで制約なく再利用できるようになります。ハイパーパラメータ c ≥ 0 は、各タスクが消費する容量を制御します (式 4)。ある意味、これは学習されたモデルのコンパクトさに影響を与える圧縮定数と考えることができます。 c が高くなるほど、アクティブ アテンション値 atl,i の数が減り、結果として得られるネットワークがよりスパースになります。すべてのタスクにグローバル c を設定し、HAT が個々のタスクに最適な圧縮に適応できるようにします。

Yoon et al. (2018) は、壊滅的な忘却の状況でネットワークの疎性を促進するために L1 正則化を使用することも検討しており、HA t の開発時に動的拡張ネットワーク (DEN) が導入されました。DEN では、単純な L1 正則化が、L2 転送、しきい値処理、「セマンティック ドリフト」測定などのかなりの数のヒューリスティックと組み合わされ、いわゆる「選択的再トレーニング」フェーズですべてのネットワークの重みに適用されます。HAT では、アテンション値に対してアテンション加重 L1 正則化を使用します。これは、メソッドの単一トレーニング ステージとは独立した部分です。HAT はネットワークの重みを考慮せず、ユニットの注意に焦点を当てます。

3.関連作品

4.実験

5。結論

タスクの埋め込みに焦点を当てることで、新しいタスクを学習しながら以前のタスクの情報を保存できるハード アテンション メカニズム HAT を紹介します。このハード アテンション メカニズムは、ベース ネットワークに小さな重みセットを追加し、バックプロパゲーションとバニラ SGD を使用して無視できるオーバーヘッドでメイン モデルと一緒にトレーニングされるという意味で軽量です。複数のデータセットと最先端の手法を使用した一連の実験を通じて、画像分類の観点から壊滅的な忘却を制御するアプローチの有効性を実証します。HAT には、学習された知識の安定性とコンパクトさを直感的に表す 2 つのハイパーパラメータしかなく、それらの調整が良好なパフォーマンスにとって重要ではないことを示しています。さらに、HAT は、タスクとレイヤー間で使用されるネットワーク容量、タスク間でのセルの再利用、特定のタスク用にトレーニングされたモデルの圧縮性を監視する可能性を提供します。私たちの方法がオンライン学習やネットワーク圧縮設定にも役立つことを願っています
。ここで提案されているハード・アテンション・メカニズムは、壊滅的な忘却の問題以外にも応用できる可能性があります。

おすすめ

転載: blog.csdn.net/m0_37690430/article/details/128563223