ペーパー:ショー、出席し教える:ニューラルイメージの字幕生成をビジュアルAttention-読んで要約して

ショー、出席し教える:ビジュアルAttention-阅读ニューラルイメージの字幕生成を总结

ノートは、単にテキストの内容をコピーすることはできませんし、自分の思考や理解を持っている必要があります。

まず、基本的な情報

\ 1标题:ショー、出席し教える:ニューラルイメージの字幕生成を視覚的注意を

\ 2作者:ケルビン徐、レイジミーのBa、ライアンKiros、Kyunghyunチョー、アーロンCourville、ルスランSalakhutdinov、リチャード・S. Zemel、ヨシュア・ベンジオ

\ 3作者单位: UCバークレー、トロント大学、Googleのリサーチ、ニューヨーク大学&FacebookのAI研究、モントリオール大学、CMU、トロント大学、モントリオール大学

。\ 4公表雑誌/会議: ICML

。\ 5発行: 2015

第二に、本稿の目的を見て

自然画像のキャプションアルゴリズムで使用される注意メカニズムを研究します。

第三に、シーンと課題

シーン:画像のキャプション、自然画像、シーンの理解

問題:下限変分を最大化することにより、確率的に、標準的なバックプロパゲーション技術を使用して決定論的にモデルを訓練する方法について説明します。

第四に、研究目的

そのキャプションを発生させながら注意機構を備えたモデルは、画像の凸部に参加することができます。

第五に、主なアイデア/イノベーション

主なインスピレーション:

人間cisualシステムの最も好奇心ファセットの\ 1.oneは注目の存在です。

\最も顕著なオブジェクトまで、画像内にdistill情報が豊か、より説明的なキャプションのために有用であり得るinformaitonを失うの潜在的な欠点を有していること(例えばconvnetの最上部層からのもののような)表現を2.Using。

\ 3.Itは低レベルの表現を使用する際に手元の作業に重要なinformaitonするモデルを操縦するための強力なメカニズムが必要となります。

\ 4.Recentは、機械翻訳と物体認識に注意を採用して字幕生成と最近の成功に進めます。

主な技術革新:

\ 1.Two注意メカニズム:

標準のバックプロパゲーション法による「ソフト」決定論的注意機構トレーニング可能。

下の強化同等にすることによって結合した、またはおおよその変分を最大化することにより、「ハード」確率的注意機構トレーニング可能。

\洞察を獲得し、可視化することにより、フレームワークの結果をどのように解釈するかを2.Show「どこで」と「何を」注意が着目しました。

第六に、アルゴリズムの概要

\ 1.Encoder:

①.captionyはKが1のワードをコードのシーケンスとして符号化される:
\ [Y = {\ {\ mathtt {Y_1、\ドット、y_C} \}}、\ mathtt {Y_I} \で\ mathbb {R } ^ K \]
Kは、語彙のサイズであり、Cは、キャプションの長さです。

②.extractor(畳み込みニューラルネットワーク)はiamgeの一部に対応するD次元表現である各々がL個のベクトルを生成する:
\ [= {\ {\ mathtt {A_1、\ドット、a_L} \}} \ mathtt {a_iを} \で\ mathbb {R}は^ D \]
機能は、全ての特徴ベクトルの部分集合を重み付けすることによって画像の特定の部分に選択的に焦点にデコーダを可能にする下部畳み込み層から抽出されます。

\ 2.Decoder:

①.LSTMネットワーク:
\ [\開始{ALIGN *}&\ mathbf {I_T} = \シグマ(W_iE \ mathbf {Y} _ {T-1} + U_i \ mathbf {H} _ {T-1} + Z_i \ mathbf {\帽子{Z}} _ T + \ mathbf {B} _i)\\&\ mathbf {F_T} = \シグマ(W_fE \ mathbf {Y} _ {T-1} + U_f \ mathbf {H} _ { T-1} + Z_f \ mathbf {\帽子{Z}} _ T + \ mathbf {B} _f)\\&\ mathbf {C} _t = \ mathbf {F} _t \ mathbf {C} _ {T-1} + \ mathbf {I} _t \ mathsf {TANH}(W_cE \ mathbf {Y} _ {T-1} + U_c \ mathbf {H} _ {T-1} + Z_c \ mathbf {\帽子{Z}} _ T + \ mathbf {B} _c)\\&\ mathbf {O} _t = \シグマ(W_oE \ mathbf {Y} _ {T-1} + U_o \ mathbf {H} _ {T-1} + Z_o \ mathbf { \帽子{Z}} _ T + \ mathbf {B} _o)\\&\ mathbf {H} _t = \ mathbf {O} _t \ mathsf {TANH}(\ mathbf {C} _t)\端{ALIGN *} \ ]
\(\ mathbf {I_T、F_T、C_T、o_t、h_t} \)をそれぞれ入力、忘れ、メモリ、出力及びLSTMの隠された状態です。\(W _ {\弾丸}、U _ {\弾丸}、Z _ {\弾丸}、\ mathbf {B} _ {\弾丸} \)重量matriciesとバイアス学習されます。\(\ mathbf {E} \ mathbb \で{R} ^ {M \回K} \)埋め込み行列です。\(M \)\(N \)埋め込みおよびLSTM次元を表します。\(\シグマ\)ロジスティックシグモイド活性化です。

②。\(\ mathbf {\帽子{Z}} _ T \)は時刻tにおける画像入力の要部の動的表現です。

③.a機構\(\ PHI \)を計算\(\ mathbf {\帽子{Z}} _ T \)注釈ベクトルから\(\ mathbf {}は_iは、I 1 = \ドット、L \)に対応特徴が異なる画像位置で抽出されました。

各位置について\(I \) \(\ PHI \)は、正の重みを生成\(\ alpha_i \) 位置確率のいずれかとして解釈することができる\(iは\)次を製造するための焦点に適切な場所ですワード相対的な重要度が場所に与えるような(確率的注意機構)、**または\(I \) $ \ mathbf {} _i $の互いに**(決定論的注意機構)を配合しました。

④.weight \(\ alpha_i \)各注釈ベクトルの\(a_iを\)によって計算される\(注意\、モデル\、F_ {ATT} \) 多層パーセプトロンは、前隠れ状態を条件\(\ mathbf {H} _ {T-1} \)
\ [\開始{ALIGN *}&E_ {TI} = F_ {ATT}({\ mathbf {} _i}、\ mathbf {H} _ {T-1} )\\&\ alpha_ {TI} = \ FRAC {EXP(E_ {TI})} {\和^ L_ {k = 1} EXP(E_ {TK})} \端{ALIGN *} \]
一度wrights計算される(一方の和)、コンテキストベクトル\(\ハット{Z} _tを\)によって計算される:
\ [\ mathbf {\帽子{Z} _t} = \ PHI(\ {\ mathbf {} _i \}、\ {\ alpha_i \})\]
LSTMの⑤.The初期メモリ状態と隠れ状態:
\ [\ mathbf {C} _0 = F_ {INIT、C} \左(\ FRAC {1} {L} \和^ L_iを\ mathbf {} _i \右)、\ mathbf {H} _0 = F_ {INIT 、H} \左({\ FRAC {1} {L} \和^ L_iを\ mathbf {} _i} \右)\]
⑥.a深い出力層は、画像から出力ワード確率(コンテキストベクトル)を算出します、以前に生成された単語、及びデコーダ状態(\(h_t \) ):
\ [P(\ mathbf {Y} _t | \ mathbf {}、\ mathbf {Y} _1 ^ {T-1})\ propto EXP(\ mathbf {L} _o(\ mathbf {Ey_ {T-1}} + \ mathbf {L} _h \ mathbf {H} _t + \ mathbf {L} _Z \ mathbf {\帽子{Z}} _ T)) \]
\(\ mathbf {L} _o \で\ mathbb {R} ^ {K \回数をM}、\ mathbf {L} _h \で\ mathbb {R} ^ {M \回n}は、\ mathbf {L } _Z \で\ mathbb {R} ^ {M \倍D} \、および\ \ mathbf {E}は\)学習されるパラメータは、ランダムに初期化。

実装の詳細の注意のための7つの二つのメカニズム

確率的「ハード」注意:

\ 1.location変数\(S_ {T、I} \) インジケータ1に設定されているワンホット変数があれば\(I \) のうち番目の位置は、(L \)\)使用されるものです生成するための視覚的特徴を抽出する\(T \)番目の単語。

\ 2.Assignはmultinoulli分布によってパラメータ(\ {\ alpha_i \} \)\中間潜在変数として注目位置を治療するため、及び(mathbf {\帽子{Z}} _ tが\ \)\ランダムと見なすことができます変数:

multinoulli分配説明は
\ [開始\ {ALIGN *}&P(S_ {T、I} = 1 | S_ {J <T}、\ mathbf {})= \ alpha_ {T、I} \\&\ mathbf {\帽子{Z}} _ T = \ sum_is_ {T、I} \ mathbf {} _i \端{ALIGN *} \]

\ 3.A新たな目的関数\(L_S \)
\ [\開始{ALIGN *} L_S&= \ sum_s \、P(S | \ mathbf {})\ mathsf {ログ} \、P(\ mathbf { Y} | sは、\ mathbf {})\\&\当量\ mathsf {ログ\ sum_s} \、P(S | \ mathbf {})P(\ mathbf {Y}は|、S \ mathbf {} )\\&= \ mathsf {ログ} \、P(\ mathbf {Y} | \ mathbf {})\端{ALIGN *} \]
\(\ mathbf {Y} \)ワードのシーケンス、(\ \ mathbf {} \)所与の画像特徴、パラメータので\(W \)モデルの直接最適化することによって導出することができます。

\ 4。\(L_S \)の勾配:
\ [\ FRAC {\部分L_S} {\部分W} = \ sum_s \、P(S | \ mathbf {})\左[\ FRAC {\部分\ \ mathsf {ログ} \、P(\ mathbf {Y} | S、\ mathbf {})} {\部分W} + \ mathsf {ログ} \、P(\ mathbf {Y} | sは、\ mathbf {} )\ FRAC {\部分\ \ mathsf {ログ} \、P(S | \ mathbf {})} {\ W部分} \ \]権利]
の勾配\(L_Sが\)モンテカルロによって近似されます方法:
\ [\ FRAC {\部分L_S} {\部分W} \約\ FRAC {1} {N} \ sum_s ^ N \は(P、\ \ [FRAC {\部分\ \ mathsf {ログ}左\ mathbf {Y} | \チルダ{S} ^ nは、\ mathbf {})} {\部分W} + \ mathsf {ログ} \、P(\ mathbf {Y} | \チルダ{S} ^ nは、\ mathbf {})\ FRAC {\部分\ \ mathsf {ログ} \、P(\チルダ{S} ^ N | \ mathbf {})} {\部分W} \右] \\ \チルダ{S } ^ N_T \ SIM \ mathbf {Multinoulli}(\ {\ \ alpha_i ^ N \})\]
\(\チルダ{S} ^ N =(S ^ N_1、S ^ N_2、\ドット)\)multinouilli分布からサンプリングされた注目位置のシーケンスです。

\平均ベースライン技術を5.Moving -推定の分散を低減するために:
\ [b_k = 0.9 \回B_ {K-1} + 0.1 \回\ mathsf {ログ} \、P(\ mathbf {Y} | \チルダ{S} _k、\ mathbf {})\]
さらに推定の分散を低減するために、エントロピーの勾配\(H [S] \) multinouilli分布のは式のRHSに添加される。(7)、最終的な学習モデルのルール:
\ [\開始{ALIGN *} \ FRAC {\部分L_S} {\部分W}&\約\ FRAC {1} {N}は、\ sum_ {N = 1} ^ N \は[左\ FRAC {\部分\ \ mathsf {ログ} \、P(\ mathbf {Y} | \チルダ{S} ^ nは、\ mathbf {})} {\部分W} + \\ \ lambda_r(\ mathsf {ログ} \、P(\ mathbf {Y} | \チルダ{S} ^ nは、\ mathbf {}) - B)\ FRAC {\部分\ \ mathsf {ログ} \、P(\チルダ{S } ^ N | \ mathbf {})} {\部分W} + \ lambda_e \ FRAC {\部分H [\チルダ{S} ^ N]} {\部分W} \右] \端{ALIGN *} \ ]
\(\ lambda_r \)\(\ lambda_eは\)クロスバリデーションによって設定された2つのハイパーパラメータです。

\ 6.toはさらに、所与の画像、サンプリングされた注目位置の確率0.5を用いて、学習則FOロバスト性を改善する(\チルダ{S} \)\その期待値に設定されている\(\アルファ\)に(等価決定論的な注意)。

処方物は、と等価である\(\ mathbf {RENIFORCE} \)アクションのシーケンスを選択する注目の報酬は、サンプリングされた注目軌道下対象文章の対数尤度に比例する実際の値である学習ルール、。

決定論的な「ソフト」注意:

注目位置をサンプリングする\ 1.Instead \(s_t \)たびに、それだけで、コンテキストベクトルの期待取る\(\ハット{Z} _tを\)直接:
\ [\ mathbb {E} _ {P(s_t |)} [\ mathbf {\帽子{Z}} _ T] = \ sum_ {iは1} ^ Lを= \ \ alpha_ {T、I} \ mathbf {} _i \]
ソフト注目重み付け注釈ベクトルであります計算された:\(\ PHI(\ {\ mathbf {a_iを} \}、\ {\ alpha_i \})= \和^ L_iを\ alpha_i \ mathbf {} _i \) ソフトに供給するためにどの対応する\( \アルファ\)システムに重み付けされたコンテキスト。

\ 2。\(\ mathbf {N} _ {T、iは} \)として示されている(\ \ mathbf {N})\式に(2)と\(\ mathbf {\帽子{Z}} _ T \)セットに\(\ mathbf {} _i \) ソフトマックス正規化の加重幾何平均(NWGM)\(K \)番目の単語予測:
\ [\開始{ALIGN *} \ mathbf {NWGM} [P(y_t = K | \ mathbf {})]& = \ FRAC {\ prod_i \ mathsf {EXP}(N_ {T、K、I})^ {P(S_ {T、I} = 1 |)}} {\ sum_j \ prod_i \ mathsf {EXP}(N_ {T、J、I})^ {P(S_ {T、I} = 1 |)}} \\&= \ FRAC {\ mathsf {EXP}(\ mathbb {E} _ {P(s_t | A )} [N_ {T、K})} {\ sum_j \ mathsf {EXP}(\ mathbb {E_ {P(s_t |)}} [N_ {T、J}])} \端{ALIGN *} \]
これは、単語予測のNWGMが十分予想されるコンテキストベクトルを用いて近似することができることを意味する(\ \ [\ mathbb {E} mathbf {\帽子{Z}} _ T])を\代わりに、サンプリングされたコンテキストベクトルの\(\ mathbf {} _i \) また、\(\ mathbf {NWGMは} \)単一のフィードフォワード計算がexpectionを近似することにより計算することができる\(\ mathbb {E} [P(y_t = K | \ mathbf {})] \)出力上のすべての可能な関心の場所はランダム変数によって誘導された\(s_t \)

提案された決定論的注意モデルが約可能なすべての注目の場所の上に周辺尤度を最大化することを示唆しています。

決定論的モデルを訓練\3.①.Inは、二重確率正則は、画像のすべての部分に等しい注意を払うようにモデルを奨励しています。

注目\(\ sum_i \ alpha_ {TI} = 1 \)デコーダは、入力画像の一部を無視し、奨励することができる\(\ sum_t \ alpha_ {TI} \約\タウ、\タウ\ GE \ FRAC {L}、{D} \)このペナルティは定量的に全体的なパフォーマンスとより説明キャプションにも質的にリードを向上させます。

②.theソフト注意モデルは、ゲーティングスカラー予測\(\ベータ\)以前の隠れ状態から\(\ mathbf {H} _ {T-1} \)各時間ステップtで、そのようなことを(\ \ PHI(\ {\ mathbf {a_iを} \}、\ {\ alpha_i \})= \ベータ\ sum_i ^ L \ alpha_i \ mathbf {} _i \) \(\ beta_t = \シグマ(F _ {\ベータ}(\ mathbf {H} _ {T-1}))\)このゲーティング変数は、デコーダは、各時間ステップで言語モデリングや文脈に重点を置くかどうかを決定することができます。

③.Theソフト注目モデルは罰せ負の対数尤度を最小化することにより、エンドツーエンドの訓練される:
\ [L_d = -log(P(\ mathbf {Y} | \ mathbf {}))+ \ラムダ\ sum_i ^ L(1- \和^ C_T \ alpha_ {TI})^ 2 \]
\(\タウは、\)単に1に固定されています。

八、データセット&評価の使用

データセット:

Flickr8k、Flickr30k、(各画像は5つの参照キャプションを有する)、MS COCO(データセット間の参照の同じ数を維持するために、5を超えるキャプションを破棄)。

メトリック:

(なぜならBLEUの批判の)BLEU(1から4まで簡潔ペナルティ無し)、METEOR

九、実験の詳細

トレーニングの詳細:

\ 1.Bothモデルは適応学習レートを用いて確率的勾配降下法で訓練しました。Flickr8kデータセット - RMSPropは、Flickr30k / MSCOCOデータセットを最高の作品 - アダム・アルゴリズムは非常に効果的です。

\2.the encoder (creates the annotations \(a_i\)) -- the Oxford VGGnet pretrained on ImageNet without finetuning, and just use the \(14\times14\times512\) feature map of the fourth convolutional layer before max pooling to create the flattened \(196\times512\) encoding to the decoder. In addition, with enough data, the encoder could also be trained from scratch (or fine-tune) with the rest of the model.

\3.problem: the implementation requires time proportional to the length of the longest sentence per update, and training on a random group of captions is computationally wasteful.

solution: In preprocessing, building a dictionary to map the length of a sentence to the corresponding subset of captions. During training, randomly sampling a length and retrieve a mini-batch of size 64 of that length.

performance: greatly improved convergence speed with no noticeable diminishment, on the largest dataset(MS COCO) it takes less than 3 days training on an NVIDIA Titan Black GPU.

\4.regularization strategy: dropout, early stopping on BLEU score (it observed a breakdown in correlation between the validation set log-likelihood and BLEU in the later stages of training during the experiments.)

十、验证的问题&效果

Question 1:

single model versus ensemble comparison:

in the results, it just report a single mdel performance.

Question 2:

differences between dataset splits:

Flickr8k -- predefined splits

Flickr30k and COCO -- lack of standardized splits, reported with publicly available splits used in previous work

however, the differences in splits do not make a substantial difference in overall performance.

Question 3:

quantitative effectiveness of attention:

①.obtain state of the art performance on the Flickr8k, Flickr30k and MS COCO.

②.significantly improve the state-of-the-art performance METEOR on MS COCO.

③.it speculates that the improvement connected to some of the regularization techniques and the lower-level representation.

Question 4:

visualizing the attention learned by the model:

add an extra layer of interpretability to the output of the model.

①.the only time the feature maps decrease in size are due to the max pooling layers, because the 19-layer OxfordNet uses stacks of 3x3 filters.

②.The input image is resized so that the shortest side is 256-dimensional with preserved aspect ratio, and input the center-cropped 224x224 image to the convolutional network, then with four max pooling layers, it gets an output dimension of the top convolutional layer of 14x14.

③.upsample the weights by a factor of \(2^4=16\) and apply a Gaussian filter to emulate the large receptive field size to visulize the attention weights for the soft model.

おすすめ

転載: www.cnblogs.com/phoenixash/p/12371309.html