ビデオの理解について

ビデオの理解(ビデオ・理解)

仕上げA

仕上げWebサイトします。https://www.zhihu.com/question/64021205

関連分野でのビデオの理解

  1. 動画の分類:映像の分類(下)
  2. 一時的なアクション提案/検出:アクション/検出のための一時的な提案
  3. 空間的なアクション検出:検出空間アクション
  4. ビデオ+言語:言語ビデオ+
  5. 動画QA:QAビデオ

ビデオと画像本質的な違いは:
ビデオ時間情報(時間情報)がある
研究(問題定義)は、設計手法:フォーカス時間的
、時間的情報は、時間的コンテキスト(タイミングコンテキスト)が提供
利点:ヘルプを特定し、ビデオの推論
短所:情報の冗長性を計算量を増やします

拡張された
底部:ビデオ分類(ビデオの分類)
次のレベル:時間動作検出(時間的動き検出)
優秀リンクします。https://zhuanlan.zhihu.com/p/31501316(時間処置検出 ( 動作検出タイミング)方向2017 )仕上げの議事
オフライン検出(オフラインテスト):ビデオ全体場合があります
これまでのところ唯一のビデオ:オンラインアクション検出(オンライン動作検出)
オンラインアクション検出(オンライン操作の検出が)行動を見越し(動作検出)として推定時間の行動を見越し0であるサブ質問、
徐々に燃える:時空検出\セグメンテーション(時空検出_セグメンテーション)
し、次のレベル:映像+言語(ビデオ➕言語)
言語ローカリゼーションによって、言語別のローカライズ( )画像上のフレーズアース/オブジェクト参照(フレーズ地上/オブジェクト参照)と同様に、このFangxiangギャングは、行うには、おそらく何かを始めました。
優れたリンクします。https://zhuanlan.zhihu.com/p/35235732(ビデオの理解が新たな方向性を紹介:における言語によって接地活動とオブジェクトビデオ)
ビデオは、画像QAを区別QA、または情報のその時間的性質がより多くなり、このレベルは突破するために周りの時間的モデリング+言語でなければなりません。個人的にこのレベルはまだ長い道のりであると感じ、
すべてのビデオインフラストラクチャ(分類検出)の後によくない十分に行います。

仕上げ2

最も難しいのビデオ解析は、時間情報のモデル化(時間情報モデリング)である
オプティカルフローの計算は、素晴らしいことだろう
RNNは、モデリング時間情報の操作を行います。解決するために
、今ビデオキャプション(字幕ビデオを)パフォーマンスは非常に高いので、より多くの論文を難しいです。
ビデオQAは始まったばかり、ブラシのパフォーマンスが比較的容易であるためには、紙の観点から行うことが簡単です。

仕上げ3:ビデオ理解は、以下の4つのカテゴリに分類されます。

  1. 映像分類(ビデオの分類)、又は行動認識(識別動作)
  2. アクティビティのローカライズ(ローカリゼーション活動)や動作検出(動き検出):で10分間のビデオからのイベントの開始と終了時刻を検索
  3. ビデオとNLPを兼ね備え:ビデオキャプション(ビデオキャプション)、ビデオQA(ビデオQA)
  4. ビデオpiexlセマンティックclassfication:ビデオセマンティックセグメンテーション(分割セマンティックビデオ)、また、映像シーンpharsing(映像シーン分析)として知られています

4仕上げ

ビデオは(ビデオ・理解)を理解し、それが第3レベル、ハイレベルの研究の視覚的分析(視覚分析)です。

  1. 映像分類(ビデオ・分類)、運動/行動タイプの最も基本的な部分。映像分類(映像分類)と動作認識(識別アクション)は、オーバーラップがたくさんあります
  2. 次に、ビデオクリップの映像特徴抽出の短いセグメントである検出領域提案(アイデア)に類似している提案(推奨ビデオクリップ)、および候補の背後に決定ネットワークに送り込ま
  3. イベント検出(イベント検出)、ビデオの多種多様で数十万人、ビデオは、いくつかの指定(複雑な)イベントが含まれている、我々はこれらのイベントの映像が含まれている可能性が最も高いを発見するためのアルゴリズムを使用する必要があります。
  4. ビデオ・キャプション(字幕ビデオ)、説明文の指定された期間のためのビデオ出力。
公開された52元の記事 ウォンの賞賛4 ビュー8751

おすすめ

転載: blog.csdn.net/lee__7/article/details/104013719