マルチモーダルリカレントニューラルネットワークとの深いキャプション(M-RNN)

  • 著者らは、マルチモーダルリカレントニューラルネットワークを提案する(AlexNet / VGGNet + +マルチレイヤRNN)、CNNと画像特徴抽出、2層にRNNへのワード入力、及び最終的に単語特徴、画像特徴の後にワード、及びRNN確率分布を介して一緒に隠されたマルチモーダル入力層は、ソフトマックス・ワードを生成しました。RNNは、前の文を維持するために主な特徴があります。
    • 2つの埋め込みを追加、密集効果的な学習ワードの単層以上を表します
    • これは、保存された視覚情報層を使用していません
    • 文章で説明した画像特徴は、M-RNN各単語モデルに入力されます。

キーポイント

  • ほとんどの文章 - 画像マルチモードは、コントラスト、彼らはトレーニングデータから学習している埋め込まれた層とその言葉のランダムな初期化によって、そのモデルに組み込まれた初期化ベクトルとしての単語を使用して事前に計算。実験よりよいです
  • 調整する(例えばサイズ選択層と非線形活性化関数としての)データセットの交差検定、超パラメータによってFlickr8K、次いで全ての実験で固定しました。
  • 以前の研究:説明した画像検索タスク、最初の文と共通の意味空間に埋め込まれている画像の特徴抽出として扱わは、画像や文章の間の距離を算出します。画像を生成する際に説明したように、文章は文章データベース最小距離から取得します。このメソッドは、自動的に豊富な記述を生成することはできません
  • ベンチマークデータセット画像キャプション用:IAPR TC-12(Grubingerら(2006)。)、Flickr8K(Rashtchianら(2010)。)、Flickr30K(Youngら(2014))及びMS COCO(Linら(。 2014))。

モデル

  1. ワード、二つの層を埋め込むベクトル表現を生成することにより入力された単語は、高密度\(W(T)\)、\ (W(T)\)同時にマルチモーダルRNNへと伝達されます。
  2. RNNはに変換終わっ(U_r \ {R&LT CDOT(1-T)+ W(T)})\とR&LT(T)= F_2(ダイオード)\ [公式][公式]である\(T \)出力タイミングループ層、\(F_2 \) ReLUの関数であり、
  3. 右側の緑色のボックスに、入力画像は、CNNの後、特徴ベクトルを生成するために\(I \)、\ (I \)と入力一緒にマルチモーダル。変換はマルチモーダル行われる\(M(T)= G_2(V_M \ CDOT {W(T)+ V_R \ {R&LT CDOT(T)} + I})\) \(G_2(X)= 1.7159 \ {CDOT TANH(\ FRAC {2} { 3} X)} \)
  4. \(M(T)\)入力層発生ソフトマックス確率分布。この時点で、入力ワードは、次の単語を生成します

おすすめ

転載: www.cnblogs.com/doragd/p/11373469.html