ビデオのキャプションの概要

 

LSTMsを使用して、ビデオ表現の1.Unsupervised学習

方法:以前のフレームから未来を予測するために、フレームの配列をコードします

同様に、ニューラルネットワークで学習シーケンスのシーケンス論文

方法は:使用 LSTM 発現される固定入力テキストにエンコードし、別のLSTMは異なる言語に復号化

2. 時間構造を利用してビデオの記述

論文が掲載されました iccv2015 、それはビデオの説明記事の解決に集中する時間を使用する最初のものです。

 

方法:時空間融合運動使って3D 旋回ネットワークを

の導入注意メカニズム 

視覚的な認識と説明については3.Long期再発畳み込みネットワーク 

方法:使用のCRFは、オブジェクトのセマンティクスを工具位置タプルを移動得

の層使用してLSTMは文章のタプルに変換されます

短所:唯一の有限体

 4. 深いリカレントニューラルネットワークを用いた自然言語への翻訳の動画 

①CNN 間引きビデオフレーム機能

平均プールは、ビデオ全体を表す単一の特徴ベクトルが得られました

使用LSTMが記載された配列のエンコーダとしてベクトルに基づいて生成

短所:完全にビデオ・フレーム・シーケンスを無視

未使用時間情報

 5.  テキストへのシーケンス-Videoにシーケンス

問題: 1. 現実世界の映像コンプレックス(被写界は、多様化する行動を属性、およびイベントの正確なテキスト記述の主な内容を決定することは困難です)

2. 動画の説明は、時間依存のために必要と入力可変長(ビデオフレーム)の出力(テキスト)の構造を可能にします

方法:シーケンスモデルの末端配列、使用 LSTMs

モデル: S2VT、文章のシーケンスにマップに直接連続したフレームを学びます。層を用いてLSTM 分散ベクトル表現にエンコードされたビデオフレームのシーケンスを。この単層LSTM 共有重みを可能にしながら入力を符号化及び復号化、符号化および復号化。 

①LSTMのフレームから一つのフレームによりコードされるCNNの出力。時間の活動をシミュレートし、フレームの連続した対の間のオプティカルフローの計算。フロー画像CNNはに出力LSTM 出力として

フレームのすべてを読んで、モデルは文によって文を生成します

追加機能を追加するとき - それは、より良い動画を表すことができるため、オプティカルフローは、画像特徴抽出しました

Benpian詳細な方法:

シーケンスモデリングのための1.LSTMs

符号化フェーズでは、入力シーケンスに X- 1,2、... N-)、LSTMは隠れ状態シーケンス(算出H2のH1、... HNを

復号ステージ、入力シーケンス所与 Xの出力シーケンスYが分布として定義されるP(Y | X)

2. テキストへのビデオのシーケンスにシーケンス

他の方法:第一 LSTMの入力シーケンスは、固定長ベクトルに符号化されたが、第二LSTMは、出力ベクトルのシーケンスにマッピングします。

Benpian方法:単一 LSTM 符号化および復号化のために。

前のステップで数回、一階LSTMは、フレームのシーケンスを取得し、符号化レイヤLSTMを示す隠れ得るHT 空気中に入力文を結合し、次にコードを

ビデオフレームの端部は、第二層の場合LSTMが始まる文を埋め込む(BOS )タグは、前の文のコード配列を開始するために表されるように隠すことを示唆します

3. ビデオとテキスト表現

1 RGBフレームは:使用CNNの出力を提供するために、入力画像をLSTMsの入力。入力ビデオフレーム256256 、にトリミング227 227

Benpianはまた、元の分類最後の層に埋め込む新しい線形学習特徴完全接続層、除去 500 次元空間を。構成する第一層を低次元の特徴LSTMの入力を

2 オプティカルフロー:

変数の抽出分光光度流動特性

画像のストリームを作成します

計算フローチャネルの強度を増加させ、第三の画像ストリームとして

使用CNNは、初期化UCF101 再度に分類オプティカルフローに右ビデオセット101 アクティブカテゴリ。CNN FC6 活性以下層に埋め込まれている500 等の次元空間LSTMの入力。

組み合わせモデルでは、結合する浅い流れと融合技術を用いて、 RGBの特性。

3 )テキスト入力

使用して出力ワード配列を標的ワンホット図を復号ベクター。

よりも低くなるように線形変換適用することにより、単語を埋め込み500 入力データに次元空間を、その後、バックプロパゲーション学習パラメータを通ります。

ワードベクトルに接続された第一の層に埋め込まLSTMの出力HT 第二層を形成するLSTMの入力。

についてLSTM 出力アプリケーションは、ソフトマックス、完全な語彙に

要約:特徴抽出を用いて、各フレームの映像のみである CNNのネットワークの2D -それは、より良い動画を表すことができるので、全体のオプティカルフロー抽出した画像特徴量の追加の機能を追加しながら、抽出機能をビデオエンコーダデコーダは、処理LSTM そう使用、アカウントにビデオのタイミング特性を取って、モデルが完成されLSTMの画像特徴オーダの入力ネットワークを、その後、中間層は、その後、一つ一つの単語を予測し、入力単語に続くビデオ全体を表すために詳細な説明。

 6.  フレーム-とセグメント・レベルの機能とビデオの字幕生成のための候補者プールの評価2016

この記事で提案する手法は、最良の相関を選択し、ビデオ機能と生成文を評価するネットワーク評価との関連付けを使用することにより、映像を生成する記述トレーニング機能の異なる種類の異なるモデルで使用されるべきです最終的なビデオと説明。

選択した3つの特徴:第一の特徴は、使用して、フレームのためのものである GoogleNetの機能を抽出し、第二のビデオセグメントの特性に基づいて、物品は、本明細書中、二つの特徴を使用して人工的な特徴緻密軌道を使いC3Dの抽出されたネットワーク機能を;第2のカテゴリーは、与えられたデータベース内のビデオ情報、合計で20個のクラス。

デコーダで使用LSTM 改良版、深いLSTM と、2つの機能を備えたモデルを訓練するINIT に、別の永続

マルチモーダル融合を使用して7.Describingビデオ2016

それらはビデオの積分として表され、画像機能、ビデオ機能、周囲の音の特徴、音声特徴及び特徴の種類:この記事のような、特徴の様々なタイプのを使用します前記融合ネットワークが実際に単一でのFC に特徴の加重平均、入力の各種類のネットワーク、すなわち、デコーダLSTMのモデル記載生成します。

ビデオと含意ジェネレーション2017 ICCVと8.Multi-タスクビデオキャプション

彼はビデオとして説明しながら、本論文の主な貢献は、タスクのビデオの説明を最適化するために、マルチタスク学習を提案することである、著者は単一のモデルの使用はトレーニングビデオ抽出タイミングのタスクを記述すると信じているが、機能はアクションシーケンスである非常に良いではありません控除プロセスは、ビデオ・シーケンスを対応する説明与えられた前提(ビデオ機能)結果(説明)を推定する特徴、著者は、単一のタスク、単一のモデルは、この控除プロセスに適合しないことができると信じています。その代わり、彼は両方の論理的な控除を表すビデオの説明とタイミングの不足を補うために、マルチタスクを提案します

 この記事には、イノベーションのモデルではありません、または 2015が前方に置くの注意プラスLSTM モデルを、モデルだけでなく、ビデオを向上させることがまだ各タスクの抽出方法を特徴とします。主な貢献は、マルチタスク学習を提案することである、実際には、個人的に、効果を高めるために、より良い機能が得られ、より多くのデータをより多くのモデルを追加すると思います。

 9. 弱監修高密度ビデオキャプション2017 CVPR

その後、紙は、ビデオの説明に新しい章を開くと言うことができる著者が、ビデオは、多くの情報、不明確な記述の単語が含まれていると感じたので、説明は、多領域ビデオシーケンスに基づいて生成され、より強力な(より複雑な)ですこの動画は、オブジェクト、異なる作用を有するそれぞれ、従って提案配列ベースのビデオ記述領域の多様を含むが、これらの記述は、ダイバーシティ、ビデオ全体の包括的な説明を確保します。示されるように、同一の、異なる領域の映像が最初のシーケンスを抽出し、各領域のシーケンス発生器が記載されています。今データ系列のためのデータベースのビデオ記述領域、記述の唯一のビデオレベルの記載がないため、教師付き学習は、弱いである理由については、地域レベルの記述、とても弱い教師付き学習を学ぶために、ビデオレベルの記述を使用します。

 参考文献:

1. ビデオキャプション画期的な論文は、暦年まとめたもの

2. CVPR2019関連の論文の要約

おすすめ

転載: www.cnblogs.com/ylHe/p/11470381.html