FIFO:自然言語クエリに基づくビデオの検索と配置

元のリンク:

http://openaccess.thecvf.com/content_ECCV_2018/papers/Dian_SHAO_Find_and_Focus_ECCV_2018_paper.pdf

 

動機

自然言語のテキストに基づいてビデオを取得することは、今日の主要なテクノロジーの1つです。短いビデオプラットフォームの台頭により、この課題はさらに困難になりました。ビデオの長さとコンテンツの多様性が大幅に増加しています。従来の取得方法では、ビデオ全体を特徴ベクトルにエンコードして、局所的な特徴を無視しているため、テキストに基づいて時間的な位置特定を行うことができません。

上の図は、トップレベルとパートレベルの概念を説明しています。グローバルレベルでは、完全なビデオがテキストパラグラフと照合され、ローカルレベルでは、パラグラフの各文がビデオのクリップに対応します。

 

フレームワークの概要

著者はFIFOネットワークを提案します。主なタスクは、まずテキストパラグラフに従って特定の数の候補ビデオ(検索、グローバル)を選択し、次に各候補ビデオに対してクリップローカリゼーションを実行して、各センテンスとビデオクリップ間の接続を識別します。 (フォーカス、部分的)、フォーカスの計算結果に応じて、最終的な検索結果を最終的に調整します。

 

クリップのローカライズ

上の図は、セグメントの配置プロセスを示しています。ビデオとテキストが与えられた場合、意味的に敏感な方法が候補クリップを選択するために使用されます(Clip Proposal)。各文は複数のクリップに関連付けることができます。

 

特徴抽出

ビデオとテキストの段落は、Tスニペット(6つの連続するフレームの小さなビデオクリップ)の特性と、2ストリームCNNによって生成されるM文の特性によって表されます。

 

クリップの提案

文Siとj番目のスニペットでは、夾角の余弦がFjとSiの間の意味的な相関として使用されます。このメソッドを使用して、段落内の各文に関連付けられたスニペットを選択します。いくつかの連続したスニペットがクリップになり、一連の候補クリップが生成されます。

 

クロスドメインマッチング

図に示すように、目的は左側の式を最大化することです。ここで、Xijは文iとセグメントjが関連するかどうか(最適化するターゲットパラメーター)であり、Rijは文iとセグメントjの意味的関連性です。

Xijを最適化する場合、2つの条件を満たす必要があります:(1)各特定の文は最大でUmaxセグメントに関連している、(2)各セグメントは最大で1つの文に関連している。

次の図では、Rijは左側のタイプで定義されています。Gjはビデオクリップjの機能で、右側のタイプで定義されています。Cjは現在のクリップに設定されたスニペットで、Ftはt番目のスニペットの機能です。

このセクションの最適化ターゲットスコアはSp(V、P)と呼ばれ、パーツレベルの相関です。

 

FIFO

次に、FIFOネットワークの全体的な構造について説明します。トップレベルの検索セクションで、ビデオvとパラグラフpについて、F_top_visとF_top_textの2つのネットワークを使用して埋め込み、機能v〜とp〜を取得します。トップレベルの最適化目標スコアSt(V、P)は、v〜とp〜の間の角度の余弦に設定されます。

機能は部品レベルで調整され、ネットワークF_ref_visおよびF_ref_textがトレーニングされ、最適化のために、取得されたfj〜およびsi〜が前の部品のSp(V、P)式に代入されます。最後に、トップレベルの最適化目標を、以前の2つの最適化目標のスコアの積として定義されるSr(V、P)に調整し、検索結果を調整します。

 

その中でも、埋め込みとして使用されるネットワークは、次の損失関数を最適化することによってトレーニングされます。ハイパーパラメーターとしてのαとβは、それぞれ0.2と0.1に設定されています。c +はIoUが0.7を超える任意の候補セグメントであり、LはIoUが0.3未満の負のサンプルの数であり、Stとsrはどちらもコサイン類似度です。

 

 

 

 

実験

著者は、ActivityNetキャプションとLSMDCの2つのデータセットで、FIFOネットワークの最上位の効果を、同じ期間の他のモデルおよび調整手順を実行していないモデル(つまり、検索のみ)と比較します。ここで、R @ Nは(複数の実験後の)上位N個の候補フラグメントにおけるグラウンドトゥルースサンプルの比率を表し、MedRはグラウンドトゥルースサンプルのランキングの中央値を表します。

次に、著者は候補の意味領域生成方法(視覚的意味類似性、VSS)の有効性を評価しました。左側のグラフは、さまざまなIoUしきい値でのさまざまなモデルの再現率を示しています。右側のグラフは、候補者の数が増えるにつれての再現率の傾向を示しています。VSSの効果が他のモデルの効果を超えていることがわかります。

 

表3で、著者はさまざまな候補領域生成方法の効果を比較し、VSSが最良の結果を達成しました。表4は、さまざまなテキスト埋め込み方法の効果を比較したもので、Fisher Vectorとtf-idfがより良い結果をもたらすことがわかります。

 

 

 

 

表5は、再現率に対するハイパーパラメーターKの影響を示しています。Kは、検索ステップで生成された候補動画の数を表します。通常、Kが大きいほど結果が良くなりますが、計算コストも大きくなります。実験では、Kが増加すると、再現率が徐々に飽和することがわかりました。

表6は、フォーカスステップの調整機能(F_ref_visおよびF_ref_textを使用)がより良い結果をもたらすことを示しています。

表7は、Clip ProposaステップでのさまざまなUmax値の効果を比較したものです。最高の再現率は、Umax = 2のときです(つまり、1つの文が最大で2つのビデオクリップに関連しています)。

 

定性的な結果

最後に、著者はセグメント配置の定量化効果を示しました。異なるセグメントは異なる色で表されます。最初の例では結果がより正確になり、2番目の例では赤いセグメントがずれています。

おすすめ

転載: www.cnblogs.com/zkwang/p/12717148.html