ディープラーニングの基本的な学習-注意メカニズム (コンピューター ビジョンにおける)

アテンションのメカニズムについてはインターネット上で多くの説明を見たので、以下に私なりにまとめてみます。偉い人による寄り道
以下はいくつかの記事へのリンクです
深層学習におけるアテンション モデルの追加コンピュータ ビジョンにおけるアテンション メカニズム
画像
処理におけるアテンション メカニズムアテンションの概要アテンション メカニズム詳細なアテンション メカニズム
空間的アテンション メカニズムとチャネル アテンション メカニズムの概要詳細な(非常に包括的な) 概要 - 画像内のアテンション メカニズム処理


アテンション メカニズムは、コンピューティング リソースをより重要なタスクに割り当て、コンピューティング能力が限られている場合の情報過負荷の問題を解決するリソース割り当てスキームです。一般に、ニューラル ネットワークでは、より多くのモデル パラメーターがトレーニングされるほど、より多くのモデル パラメーターが保存されます。アテンションのメカニズムを導入することで、重要な情報により多くの「注意」を集中させたり、他の情報への注意を減らしたり、無関係な情報を除外したりすることができるため、前述の過負荷の問題は解決されます。課題を解決し、業務処理の効率や精度も向上させることができます。
注意メカニズムの本質は、ネットワークによって独自に学習された一連の重み係数と、無関係な背景領域を抑制しながら関心領域を強調する「動的重み付け」方法です。ここ数年、画像処理、音声認識、自然言語処理におけるメカニズムの応用が注目されています。この記事では、画像に対するアテンション メカニズムの適用に焦点を当てます。

1. 注意メカニズムの一般的な理解

注意メカニズムの命名方法は、実際には人間の注意の命名方法を使用します。

1.1 画像例 1

ここに画像の説明を挿入
図にあるように、図中の赤い部分は、人の顔や記事のタイトル、段落の冒頭など、人が習慣的に注目している部分です。
人間の視覚は、全体的な画像をすばやくスキャンして、一般に注意の焦点と呼ばれる焦点を合わせる必要があるターゲット領域を取得し、その後、この領域により多くの注意リソースを投資して、必要なターゲットに関するより詳細な情報を取得します。そして他の無駄な情報を抑制します。
深層学習における注意メカニズムは、人間の選択的視覚注意メカニズムと本質的に似ており、その中心的な目標は、多数の情報の中から現在のタスクの目標にとってより重要な情報を選択することです。

1.2 画像例2

ここに画像の説明を挿入
注意(注意)は、実は非常に一般的ですが、見落とされがちな事実です。たとえば、鳥が空を飛んでいくと、多くの場合、注意はその鳥を追い、空は自然に視覚システムの背景(背景)情報になります。
ここに画像の説明を挿入
ニューラル ネットワークの場合、ニューラル ネットワークによって抽出された特徴はネットワーク自体と何の違いもありません。この図のように、特定の特徴に特別な注意を払うことはありません。鳥 では、実際には写真全体の情報は空の割合が大きいので、これは鳥ではなく空の写真だと考えることになります。

1.3 コンピュータビジョンにおける注意メカニズム

コンピューター ビジョンにおけるアテンション メカニズムの基本的な考え方は、システムに注意を学習させ、無関係な情報を無視して重要な情報に集中できるようにすることです。
たとえば、日常生活の中で、私たちはコーヒーショップに座って携帯電話をいじっていますが、携帯電話に集中していると、外の世界が何を話しているのか基本的にわかりません。会話をはっきりと聞くことができます。

視覚も同様で、パッと見ただけでは気づきにくい情報もありますが、過去に注目すると細部が印象に残ります。

ニューラル ネットワークのアテンション メカニズムは、コンピューティング リソースをより重要なタスクに割り当て、コンピューティング能力が限られている場合の情報過負荷の問題を解決するリソース割り当てスキームです。ニューラルネットワークの学習では、一般にモデルのパラメータが多いほどモデルの表現力が高まり、モデルに格納される情報量が増加しますが、情報過負荷が問題となります。次に、アテンションメカニズムを導入し、多数の入力情報の中から現在のタスクにとってより重要な情報に焦点を当て、他の情報への注意を減らし、無関係な情報を除外することによって、情報過多の問題を解決し、効率を高めることができます。タスク処理の効率と精度を向上させることができます。

これは人間の視覚的注意のメカニズムに似ています。全体的な画像をスキャンすることによって、焦点を合わせる必要があるターゲット領域が取得され、ターゲットに関連するより詳細な情報を取得するためにこの領域により多くの注意リソースが投資されますが、その領域は無視されます。その他、関係のない情報。このメカニズムにより、限られた注意リソースを使用して、大量の情報から価値の高い情報を迅速に選別することができます。

今日の深層学習の発展に伴い、注意メカニズムを備えたニューラル ネットワークを構築することがより重要になっています。この種のニューラル ネットワークは、一方では注意メカニズムを独立して学習でき、他方では、注意メカニズムは支援することができます。ニューラル ネットワークから見た世界を理解する

2. 注意メカニズムの分類

ここでは、注意メカニズムの基本的な分類を簡単に紹介します。
近年、深層学習と視覚的注意メカニズムの組み合わせに関する研究のほとんどは、マスクを使用して注意メカニズムを形成することに焦点を当てています。マスクの原理は、新しい重みの別の層を通じて画像データ内の主要な特徴を識別することです。学習とトレーニングを通じて、ディープ ニューラル ネットワークは、新しい画像ごとに注意を払う必要がある領域を学習できます。注意です。

この種の考え方は、ソフト アテンション (Soft-attention) とハード アテンション (Hard-attention) の 2 つの異なるタイプの注意に進化しました。注意の領域を分類すると、異なる次元 (たとえば
ここに画像の説明を挿入
、チャンネル、スペース、時間、カテゴリなど)、次のタイプに分類できます。
ここに画像の説明を挿入

このうち、
ソフトアテンションのアテンションドメイン:空間ドメイン、チャネルドメイン、混合ドメイン、セルフアテンション(セルフアテンション)、
ハードアテンションによって実現されるアテンションドメイン:時間ドメイン(タイムドメイン)

具体的に言うと、以下の各カテゴリーは実際には大きな部分ですが、ここでは最も浅いレベルから基本的な理解を説明するだけです。

3. ハード・アテンションとそれに対応する注意領域

端的に言えば、ハード アテンションは、どの領域に注目し、どの領域に注目しないのかという 0/1 の問題です。画像におけるハード アテンションの適用は、長年知られています。
) ソフト アテンションとの違いは、まず第一に、強い注意はより焦点が絞られている、つまり画像内のすべての点に注意が及ぶ可能性があるのに対し、強い注意はランダムな予測プロセスであり、動的な変化を強調することです。もちろん、最も重要なことは、強い注意は微分不可能な注意であり、訓練プロセスは強化学習を通じて行われることがよくあります。

簡単に言うと、ハード アテンション メカニズムは微分不可能であり、通常は強化学習によって実装され、収入関数のインセンティブを通じて、モデルは特定の部分の詳細にさらに注意を払うことができます。

3.1 時間注意(時間注意)

コンピュータビジョンが単一の画像のみを認識する場合、時間領域の概念は存在しないため、この概念は実際には比較的大きなものですが、いくつかの記事では、リカレントニューラルネットワーク(RNN)に基づく注意メカニズムであるリカレントアテンションモデルが提案されています。

RNN モデルが適している場面は、データに時間的特性がある場合で、例えば、自然言語処理ではアテンション機構の生成に RNN を使用する方が優れています。自然言語処理はテキスト分析であるため、実際には、テキストの生成の背後には時間的な相関関係があり、たとえば、ある単語の後に別の単語が続くなど、時間的な依存関係が存在します。

画像データ自体は自然なタイミング特性を持たず、画像は多くの場合、ある時点のサンプルです。しかし、ビデオ データでは RNN の方が優れたデータ モデルであるため、RNN を使用して認識の注意を引くことができます。

RNN モデルは、以前に紹介した空間ドメイン、チャネル ドメイン、および混合ドメインに時間の新しい次元を追加するため、意図的に時間ドメインに注意を向けています。この次元の生成は、実際にはサンプリング ポイントのタイミング特性に基づいています。

回帰的注意モデルでは、注意メカニズムを画像上の領域点のサンプリングとみなして、このサンプリング点が注意を必要とする点となります。そして、このモデルにおけるアテンションは、もはや微分可能なアテンション情報ではないため、これはハード アテンション モデルでもあります。このモデルの学習には強化学習を使用して学習する必要があり、学習時間が長くなります。

4. ソフト アテンションとそれに対応するアテンション ドメイン

ソフト アテンション メカニズムは単純に [0,1] 間の連続分布問題であり、各領域に対する注目度は 0 ~ 1 のスコアで表されます。
ソフト アテンションの重要な点は、この種の注意は領域またはチャネルにより多くの注意を払うこと、およびソフト アテンションは決定論的な注意であることです。学習後、ネットワークを通じて直接生成できます。最も重要な点は、ソフト アテンションが微分可能であることです。とても重要な場所です。微分可能な注意は、ニューラル ネットワークを通じて勾配を計算し、順方向伝播と逆方向フィードバックを通じて注意の重みを学習できます。

簡単に言えば、ソフト アテンション メカニズムは微分可能かつ連続的な勾配降下法によって実装されます。ニューラル ネットワークでは、ソフト アテンションの重みは、順伝播および逆伝播を通じて学習および調整できます。

4.1 チャンネルアテンション(チャンネルアテンション)

チャネル アテンションの目的は、異なるチャネル間の相関関係 (特徴マップ) を示し、ネットワーク学習を通じて各特徴チャネルの重要性を自動的に取得し、最終的に各チャネルに異なる重み係数を割り当てることで、重要な特徴を強化し、重要でない特徴を抑制することです。

チャネル領域におけるアテンションメカニズムの原理は非常に単純であり、基本的な信号変換の観点から理解できます。信号システム解析では、実際にはあらゆる信号を正弦波の線形結合として記述することができ、時間周波数変換後、時間領域の連続正弦波信号を周波数信号値に置き換えることができます。
ここに画像の説明を挿入
畳み込みニューラル ネットワークでは、各画像は最初に (R、G、B) 3 つのチャネルで表され、異なる畳み込みカーネルを通過した後、各チャネルは 64 コアの畳み込みを使用して画像の各特徴などの新しい信号を生成します。各チャネルに対して、64 個の新しいチャネル (H、W、64) の行列が生成されます。ここで、H と W は、それぞれ画像特徴の高さと幅を表します。

各チャネルの特徴は、実際には、時間周波数変換と同様に、さまざまなコンボリューション カーネル上の画像のコンポーネントを表し、コンボリューション カーネルのコンボリューションは信号のフーリエ変換に似ているため、この特徴は変換できます。 1 つのチャネルの信号は 64 個のコンボリューション カーネル上の信号成分に分解されます。

ここに画像の説明を挿入
各信号はカーネル関数のコンポーネントに分解できるため、新しい 64 チャネルは多かれ少なかれキー情報に寄与する必要があります。各チャネルの信号に重みを追加して、チャネルとチャネル間の相関関係を表すと、重要な情報、重みが大きいほど、相関性が高くなります。つまり、より注意を払う必要があるチャネルです。

この分野の代表的な研究はSE-Netで、これは機能の再調整を通じてチャネル間の機能応答を適応的に調整します。さらに、Inception ブロックと SE ブロックからインスピレーションを得た有名な SK-Net もあり、マルチスケールの特徴表現の観点から、複数の畳み込みカーネル ブランチを導入することで、異なるスケールの特徴マップを学習します注意を払うことで、ネットワークは重要な規模の機能にさらに集中できるようになります。さらに、ECA-Netがあります。これは、1 次元のスパース畳み込み演算を使用して、SE モジュールに含まれる全結合層演算を最適化し、パラメーターの量を大幅に削減し、同等のパフォーマンスを維持します。パラメータの量を圧縮し、計算効率を向上させるために、SE-Net は「最初に次元削減、次に次元増加」の戦略を採用し、2 つの多層パーセプトロンを使用して、異なるチャネル間の相関関係、つまり現在の各機能を学習します。グラフは他の機能マップと相互作用し、密な接続になります。ECA-Net はこの接続方法を簡素化し、現在のチャネルがその k ドメイン チャネルとのみ情報を交換するようにします。
ここに画像の説明を挿入

4.1.1 秒

その中で、SENet (Sequeeze and Excitation Net) は、2017 ImageNet 分類コンテストのチャンピオン ネットワークです。これは本質的にチャネルベースの注意モデルです。各機能チャネルの重要性をモデル化し、さまざまなタスクに対してさまざまなチャネルを強化または抑制します。 . の模式図は以下の通りです。
ここに画像の説明を挿入

まず、一番左は元の入力画像の特徴 X であり、画像を畳み込み変換するなどの変換の後、新しい特徴信号 U が生成されます。U には C 個のチャネルがあり、アテンション モジュールを通じて各チャネルの重みを学習し、それによってチャネル ドメインのアテンションを生成したいと考えています。

中央のモジュールは SENet の革新的な部分であり、アテンション メカニズム モジュールです。この注意メカニズムは、圧迫、興奮、注意の 3 つの部分に分かれています。

  1. Squeeze (スクイーズ)
    ここに画像の説明を挿入
    この関数が各チャネルのすべての特徴値を加算して平均し、グローバル平均を作成することは明らかであり、これはグローバル平均プーリングの数式表現でもあります。

  2. 励起
    ここに画像の説明を挿入
    デルタ関数は ReLU、σ はシグモイド活性化関数です。W1 と W2 の次元は、
    写真
    写真
    トレーニングを通じてこれら 2 つの重みを学習し、チャネルの各層をアクティブにするための 1 次元の励起重みを取得することです。

  3. スケーリング機能
    ここに画像の説明を挿入
    このステップは実際にはスケーリング プロセスであり、主要なチャネル ドメインへの注目を高めるために、さまざまなチャネルの値にさまざまな重みが乗算されます。

4.2 空間的注意

空間的注意は、キー領域の特徴表現を改善することを目的としています。基本的に、元の画像の空間情報は空間変換モジュールを通じて別の空間に変換され、キー情報は保持され、位置ごとに重みマスク (マスク) が生成され、出力は、関心のある特定のオブジェクト領域が強調される一方、無関係な背景領域が弱められるように重み付けされます。

画像内のすべての領域が同じようにタスクに寄与するわけではありません。分類タスクの本体など、タスクに関連する領域のみを考慮する必要があります。空間注意モデルは、処理のためにネットワーク内で最も重要な部分を見つけることです。

この分野でのより優れた研究は CBAM です。これは、元のチャネル アテンションに基づいており、空間アテンション モジュール (SAM) を接続します。SAM は、チャネル ベースのグローバル平均プーリングおよびグローバル最大プーリング操作に基づいて、異なる情報を表す 2 つの特徴マップを生成します。マージ後、大きな受容野を持つ 7×7 畳み込みが特徴融合に使用され、最後にシグモイド操作が行われます。ターゲット領域を強調できるように、元の入力特徴マップに重畳して戻されるウェイト マップを生成します。一般に、空間アテンションでは各チャネルの特徴が同等に扱われるため、チャネル間の情報の相互作用は無視されますが、チャネル アテンションではチャネル内の情報をグローバルに直接処理するため、空間内の情報の相互作用は無視されやすいです。 。著者は最終的に、最初のチャネルとその後の空間の方法が、最初の空間とその後のチャネルまたは平行チャネル空間の方法よりも優れていることを実験を通じて確認しました。さらに、同様の改良されたモジュールには、A2-Net によって提案された Double Attendee モジュールや、SE-Net からインスピレーションを得たバリアント アテンション モジュール scSE などがあります。
ここに画像の説明を挿入

4.2.1 STNネットワーク

Google DeepMindが提案したSTNネットワーク(Spatial Transformer Network)は、入力の変形を学習することでタスクに適した前処理演算を完了する空間ベースのアテンションモデルであり、そのネットワーク構造は以下のとおりです。アフィン変換係数の生成に使用されます
ここに画像の説明を挿入
。入力は C×H×W 次元の画像、出力は空間変換係数です。そのサイズは学習する変換の種類によって異なります。アフィン変換の場合は、 6次元ベクトル。

このようなネットワークが完成すると、次のような効果が得られます。
ここに画像の説明を挿入

つまり、ターゲットの位置を特定し、回転などの操作を実行して、入力サンプルを学習しやすくします。これはワンステップで調整されたソリューションです

ターゲットの位置決めとアフィン変換調整を 1 ステップで完了する Spatial Transformer Networks と比較して、Dynamic Capacity Networks は、低パフォーマンスのサブネットワーク (粗いモデル) と高性能のサブネットワーク (ファイン モデル) の 2 つのサブネットワークを使用します。 )。

以下の図の操作 fc のように、低パフォーマンスのサブネットワーク (粗いモデル) を使用して、画像全体を処理し、関心領域の位置を特定します。
高性能サブネットワーク (ファイン モデル) は、次の図の操作 ff に示すように、関心領域を絞り込みます。
両方を併用すると、計算コストを削減し、精度を高めることができます。
ここに画像の説明を挿入

ほとんどの場合、対象領域は画像のごく一部にすぎないため、空間的注意の本質は、ターゲットを特定し、いくつかの変換を実行するか、重みを取得することです。

具体的な説明については、コンピュータビジョンにおけるアテンションの仕組み(ビジュアルアテンション)を参照してください。

スペーストランスフォーマーモデルの実験結果
たとえば、このスペーストランスフォーマーモデルの実験結果図は次のとおりです。

  • 列 (a) は元の画像情報で、最初の手書き数字 7 には変形がなく、2 番目の手書き数字 5 には一定の回転変化があり、3 番目の手書き数字 6 にはノイズ信号が追加されています。
  • (b) 列内の色付きの境界線は、学習された空間変換器の境界ボックスです
    。各ボックスは実際には、対応する画像から学習された空間変換器です。
  • 列(c)は
    空間変換器によって変換された特徴マップで、7のキー領域が選択され、5はポジ画像に回転され、6のノイズ情報は認識されないことがわかります。

最後に、これらの変換された特徴マップを使用して、列 (d) の手書きの数字の値を予測できます。

空間トランスフォーマーは、実際には注意メカニズムの実現です。訓練された空間トランスフォーマーは、画像情報内で注意を払う必要がある領域を見つけることができ、同時に、このトランスフォーマーは回転および回転の機能も持つことができるためです。ズーム変換により、画像のローカル部分の重要な情報が変換され、ボックスによって抽出されます。

4.3 混合注意(混合注意)

最初の 2 つの注目領域の設計思想を理解した後、簡単な比較を行ってください。
まず、空間領域のアテンションはチャネル領域の情報を無視し、各チャネルの画像特徴を同等に扱います。このアプローチにより、空間領域変換方法は元の画像特徴抽出段階に限定され、他の領域にも適用されます。ニューラル ネットワーク層 層はあまり解釈可能ではありません。

チャネル ドメインの注意点は、チャネル内の情報をグローバルに直接プールし、各チャネル内のローカルな情報を無視することですが、このアプローチは実際には比較的乱暴な動作です。したがって、2 つのアイデアを組み合わせることで、混合ドメインの注意メカニズム モデルを設計できます。

CBAM の正式名称は Convolutional Block Attendee Module で、ECCV2018 で公開されたアテンション機構の代表作の 1 つです。この論文では、著者らはネットワーク アーキテクチャにおける注意を研究し、どこに焦点を当てるべきかを示すだけでなく、注意の表現を改善します。目標は、アテンション メカニズムを使用して重要な機能に焦点を当て、不要な機能を抑制することで表現力を高めることです。空間次元とチャネル次元の両方で意味のある特徴を強調するために、チャネルと空間の注意モジュールを順番に適用して、それぞれチャネル次元と空間次元で何に、どこに焦点を当てるべきかを学習します。さらに、ネットワーク内の情報の流れは、どの情報を強調するか抑制するかを知ることによっても役立ちます。パラメータの数を減らしながらパフォーマンスを向上させました。

主要なネットワーク アーキテクチャも非常にシンプルで、1 つはチャネル アテンション モジュール、もう 1 つは空間アテンション モジュールであり、CBAM はチャネル アテンション モジュールと空間アテンション モジュールを連続して統合します。
ここに画像の説明を挿入

4.4 自己注意

セルフ アテンション メカニズムはアテンション メカニズムを改良したもので、外部情報への依存を減らし、データや特徴の内部相関をより適切に捕捉します。

ニューラルネットワークでは、畳み込み層が畳み込みカーネルと元の特徴の線形結合を通じて出力特徴を取得することが知られていますが、畳み込みカーネルは通常ローカルであるため、受容野を増やすためには畳み込み層を積み重ねる方法が必要になります。実際、このアプローチは効率的ではありません。同時に、コンピューター ビジョンにおける多くのタスクはセマンティック情報が不十分であることが原因であり、最終的なパフォーマンスに影響を与えます。自己注意メカニズムは、グローバル情報を捕捉することで、より大きな受容野とコンテキスト情報を取得します。

自己注意メカニズム (自己注意) はシーケンス モデルにおいて大きな進歩を遂げましたが、その一方で、コンテキスト情報 (コンテキスト情報) は、セマンティック セグメンテーションやターゲット検出などの多くの視覚タスクにとって重要です。セルフ アテンション メカニズムは、(キー、クエリ、値) の 3 要素を通じてグローバル コンテキスト情報を取得するための効果的なモデリング方法を提供します。

コンテキストをモデル化する効果的な方法として、自己注意メカニズムは多くの視覚的タスクで良好な結果を達成しています。同時に、このモデル化手法の欠点も明らかであり、1 つはチャネル上の情報が考慮されていないこと、もう 1 つは計算量が依然として非常に大きいことです。対応する改善戦略は、一方では空間情報とチャネル情報を効果的に組み合わせる方法、他方では情報をまばらにキャプチャする方法です。まばらさの利点は、より少ない計算量を維持しながらより堅牢になることです。そしてビデオメモリ。最後に、グラフ畳み込みは近年注目されている研究方向であり、自己注意メカニズムとグラフ畳み込みをどのように結び付けるか、また自己注意メカニズムをより深く理解することが今後非常に重要な方向性となります。

おすすめ

転載: blog.csdn.net/m0_47146037/article/details/126260922