記事のディレクトリ
概要
これは、画像を入力し、出力文で、CV + NLP、生成モデルを提案しました
測定
- BLEU-1
- SBU
関連研究
- 予測された単語の入力画像に応じてのみ、フロント伝播ニューラルネットワークとKiros男、。関節一緒に符号化画像とテキストベクトルコードするベクター。パラメータ調整の多くの後に良い結果。
- 真央男は、RNNで、入力画像に基づいて、次の単語を予測します
RNNの内部への映像入力に直接、その後、より強力なRNNと紙の作業、および、
モデルの提案
以下のような目的関数であります
どこに$ \シータ $は、結果が正しいエスケープは、ある最後の文である絵で、長さが固定できない、それはより一般的な方法は、式を書き換えるチェーンルールを使用することです:
便宜上、これは依存パラメータを削除します
結果をトレーニング、各サンプルがあります 、すなわち画像-全体のトレーニングセット内のテキストに最適化されており、上記損失、確率的勾配降下法の踏み込み実施形態に
3.1文生成に基づくLSTM
初回のみ、入力画像情報