注意事項をお読み-ShowandTell

概要

これは、画像を入力し、出力文で、CV + NLP、生成モデルを提案しました

測定

  • BLEU-1
  • SBU

関連研究

  1. 予測された単語の入力画像に応じてのみ、フロント伝播ニューラルネットワークとKiros男、。関節一緒に符号化画像とテキストベクトルコードするベクター。パラメータ調整の多くの後に良い結果。
  2. 真央男は、RNNで、入力画像に基づいて、次の単語を予測します

RNNの内部への映像入力に直接、その後、より強力なRNNと紙の作業、および、

モデルの提案

以下のような目的関数であります

m a t h θ = arg max θ ( I , S ) log p ( S I ; θ ) 数学\シータは、^ {\スター} = \のarg \最大_ {\シータ} \総和_ {(I、S)} \ログP(S | I; \シータ)

どこに$ \シータ モデルパラメータ、 $は、結果が正しいエスケープは、ある最後の文である絵で、長さが固定できない、それはより一般的な方法は、式を書き換えるチェーンルールを使用することです:

m a t h log p ( S I ) = t = 0 N log p ( S t I , S 0 , , S t 1 ) 数学\ログP(S | I)= \ sum_ {T = 0} ^ {N} \ログP \左(S_ {T} | I、S_ {0}、\ ldots、S_ {T-1} \右)

便宜上、これは依存パラメータを削除します θ \シータ

結果をトレーニング、各サンプルがあります ( S , I ) (S、I) 、すなわち画像-全体のトレーニングセット内のテキストに最適化されており、上記損失、確率的勾配降下法の踏み込み実施形態に

3.1文生成に基づくLSTM

初回のみ、入力画像情報

公開された120元の記事 ウォン称賛35 ビュー170 000 +

おすすめ

転載: blog.csdn.net/u012328476/article/details/102872238