[ご注意]紙反復ビジュアル推論を越えてたたみ込み

紙のメモ

反復ビジュアル推論を越えてたたみ込み

前書き

前畳み込みニューラルネットワークは多くの視覚タスクにおいて良好な結果を達成して、CNNピクセルレベルの情報を大幅に抽出することができます。しかし、アクセスグローバル・コンテキストへのCNNの能力は、視覚的に人間のような空間的な関係と意味関係に気づきません、その大きな受容野から茎です。したがって、この資料のプレゼントは、視覚的な推論システムは、反復空間関係と意味関係を処理することができます。

システムは、主に、情報は、画素レベル、グローバル推論モジュールは、図の構造の関係に基づいて抽出することができる空間記憶を使用して、2つのモジュール実装ローカルとグローバル、ローカルモジュールから成ります。

著者は、以前の関係の推論方法は、2つの制限を提供し、言及しています。まず、彼らは畳み込みを使用してローカルネットワークの推論を実行する傾向があり、そのような推論は、空間的関係又は意味論的関係が劣性であり、グローバルな情報の使用は非常に弱く、特により反映するかどうか、多くの場合、画素レベルであります地域はこれまで、直接お互いに影響を与えないし、情報を送信することはできません。第二に、この方法では、クラス間の関係は、データだけから学ぶことができ、人間の援助の常識的知識を使用することはできません。そして、この関係は、カテゴリーに指数関数的に成長し、十分なデータ、このような訓練の意味的な関係を持つことは困難です。

このように、人間の常識知識図と効率によってモデルグローバルモジュールは、基準に直接意味関係を提供し、明示的領域と領域の間の空間的関係、関係情報のより良い利用を識別する。

ローカルモジュール

空間記憶に対するローカルモジュールに対して大幅に効率を向上させる方法で、パラレル更新を使用して、最適化の数を有しています。

グローバルモジュール

処理方法畳み込み超えてグローバルモジュールの外部を使用して関係を分析するために、図容量に基づいて構造を有します。関係を有向グラフで構成されているため、モジュールは、畳み込みネットワークを描いていない、それがグラフ上で畳み込み演算を使用していない、正定性を持っていない、状況のかもしれないより多くのカテゴリでのモジュールのパラメータの数高いです。

図は、主に3つの部分、領域、及び知識図図の分布から構成される。地域のノードとノードタイプに、そのノードは、ノードは、各ノードは、クラスカテゴリデータセットに現れる表し、画像フレーム内の領域を表します。

地域グラフ

描画領域に、例えばB /下におけるA、C L / R等の第1分類カテゴリ空間関係の空間的関係。しかし、実際の運用に近い領域との間の相関のより高い程度を有することを目的に標準化距離を用いてピクセルレベルのフレームとカーネル関数との間の距離、及び直接図の面積の値として。右の隣接行列。

さらに、ケースフレームは、ケースにIOUを符号化することによって特別な処理が重複からなる、ない詳細。

ナレッジグラフ

図は、主にBであり、Bは、同様のA、B、等A、すなわちクラス情報人間の感覚であるような部分Aとの関係の異なる種類の意味的知識を含んでいます。この種の情報は、スクリプトの異なる種類の数でそのようなデータセットのような様々な方法から得ることができる、単一のグラフ分析で同時に者の高い数との間の意味的な関係が現れ、直接常識知識ベースによって得ることができます。

割り当てグラフ

図の目的は、画像領域にカテゴリを割り当て、それを結ぶことです。情報の流れによって図割当は、図図面に知識の領域からのものである、図領域は、知識を介して逆流します。即ち、エッジの領域に、図2つのクラスを持つカテゴリに割り当てられた領域から。また、側は、単にワンホット・エンコーディングではなく、ソフトマックスは、確率分布の意味を有し、特定の領域に依存して信頼とよりよい堅牢のカテゴリの様々な接続されています。

2つの空間とセマンティックデータパスを有するグローバルモジュール。

空間パス入力(mathbb {R&LT} ^ {R&LT \タイムズD} \ \でM_ {R&LT}の\)\\(R&LT \)画像の領域の数に対応する\(Dは\)固有チャネルの数でありますこのテキストは512としました。\(A_ {E} \ R&LT mathbb {} {R&LT ^ \ R&タイムズLT} \ \で)、グラフ領域の隣接行列。\(W_ {E} \で \ mathbb {R} ^ {D \倍Dは} \) 重み行列です。
\ [G_ {R} ^ {空間} = \ sum_ {E \で\ mathcal {E} _ {R \ RIGHTARROW R}} A_ {E} M_ {R} W_ {E} \]

セマンティック通路、第一のエリア地図情報\(M_ {R} \)を介して(A_ {E_ {R \ RIGHTARROW C}} \)\ と\(W_ {E_ {R \ RIGHTARROW C}} \)は、 知識にマッピングされ図は、中間フィーチャーを形成し、知識を示す情報の特性(\ {C} W_ M_ { C} \) 機能、意味論的特徴の形成を活性化することにより活性化され、結合した後。
\ [G_ {C} ^ {セマンティック} = \ sum_ {E \で\ mathcal {E} _ {C \ RIGHTARROW C}} A_ {E} \シグマ\左(A_ {E_ {R \ RIGHTARROW C}} M_ {R} W_ {E_ {R \ RIGHTARROW C}} + M_ {C} W_ {C} \右)W_ {E} \]

最後に、モジュールの全体的な出力である\(R&LT G_ {} \)出力と組み合わせ、バックセマンティック特徴領域に変換され、後部領域特徴。
\ [G_ {R} = \シグマ\左(G_ {R} ^ {空間} + \シグマ\左(A_ {E_ {C} \ RIGHTARROW R} G_ {C} ^ {セマンティック} W_ {E_ {C} \ RIGHTARROW R} \右)\右)\]

反復推論と注意

キーは、それが次の繰り返しの前に情報を送信する必要がある、反復的に推定視覚的な推論を構築することです。著者は、歴史の各反復の前に明示的なメモリ(明示的なメモリ)のメモリです。

いくつかの反復の後、ローカルおよびグローバルモジュールモジュールは単独で予測を生成することができ、予測は、明示的に格納されて格納されているだけでなく、高レベルの次の反復のための入力として特徴としてれます。一人で2つのモジュールが予測を生成しますが、の構造を示すグローバルな情報から、指導のためのローカルモジュールを作成し、クロスフィードは、次の反復に流れた後、詳細のピクセルレベル、両方欲しいの出力に関する情報を取得するために、グローバルモジュールを作るためにすることができますが、ここで著者は、GRUと同様の方法を使用します。

一方、二つのモジュールそれぞれの各反復は、円形または他の出力モジュールに比べて同時に格納され、予測情報が格納されたフォーカスパラメータは、明示的予測の予測の信頼レベルを示し生成します。ネットワーク予測開始畳み込み出力部に結合され、最終的な出力たびに予測モジュールの異なる結果は、COである場合、\(N = 2I + 1 \ ) 注意機構によって予測と合わせ、最終の生成予測値。
\ [F = \ sum_ {N } W_ {N} F_ {n}は、\クワッド\テキスト{} \クワッドW_ {N} = \ FRAC {\ EXP \左(-a_ {N} \右)} { \ sum_ {N ^ {\プライム
}} \ EXP \左(-a_ {N ^ {\プライム}} \右)} \] 式\(F_ {N} \)予測それぞれの予測値を表し、予測値はソフトマックス前の出力値ではなく特性を有する確率である(N-P_は{} \)\

トレーニング

フレームワークの端部が訓練され、最終的な損失は、4つの部分、通常の畳み込み部損失、ローカルモジュールの損失、最終的な予測結果と注意喪失メカニズム後グローバルモジュールの損失から成ります。

最初の3つの部分の最終結果で注目の的メカニズムは、すでに予測が含まれていますが、損失は全体的ながら、最終的な結果は、より良い、パラメータの注目を最適化することができ、予測ので、直接、彼らは直通電車あり、その損失の一因と追加が、最適化された役割。

経常損失畳み込みと最終的な出力のために、あなたが来て、簡単なソフトマックスを使用することができます。しかし、ローカルおよびグローバルモジュールの損失のために、著者は、モデルがより困難見本を訓練に焦点を当てるべきであると考えています。:したがって、一回の反復当たりの損失は、次の式を使用して、クロスエントロピー損失、再割り当て量の予測結果に基づいて
\ [\ mathcal {L}} _ {I(R&LT)= \ {FRAC \マックス\(1-P_ {左ベータ\右\、I-1}(R))} {\ sum_ {rは^ {\プライム}} \左(\最大\左(1-P_ {I-1} R&LT ^ {\プライム} \右)、\ベータ\右)} \左\ログ(P_ {I}(R&LT)\右)\]
\(\ベータ\)ここで、エントロピーの量分布を制御するためのパラメータです。\(P_ {I-1} (R)\) 勾配が導電性でない場合、それは訓練されます(\ mathcal {L} _ \ \ {I-1}(R))が完了すると、それだけです割り当ての重みに。

おすすめ

転載: www.cnblogs.com/SephyFine/p/12340461.html