CVの分野でのバート・アプリケーション

AIの3つの中核分野(CV /音声/ NLP)は、近年の大きな進歩と発展してきたしています。しかし、また、シャオと言っても、失われた、学習の深さは一般化と堅牢性の問題は、容量に近い将来内の一般的なAIの道を批判されています。

しかし、成功の最近の事前研修モデルのおかげで、クロスモーダル問題(VQA、プラグイン話す、など)はまた、より多くののとなっているようです。事前研修に基づいてクロスモーダルの解決策は、2つの枝に1つに分けることができるビデオ・言語BERT(BERTへの映像データ)、その他があるのVisual-言語BERT(画像BERTへの画像データ)。主な問題は、BERTのフレームワークにどのように非テキスト情報です。この記事では、ビデオ・言語的BERTをカバーしています。

ビデオはピクチャとして定義されてそれぞれが再生するグループ画像、として理解することができるフレーム(フレーム)典型的には、第一の処理された映像データによって必要とされるフレームX(FPS)あたり抽出する映像の周波数、及び成る次いでn個の連続するフレームのフラグメント(クリップ)映像が重複断片の多くに切断されないであろうように、。抽出するCVモデルpretrained技術(例えばResNet等)を用いて、各セグメント(Mフレームを含む)クリップの特徴ベクトル(視覚的特徴)を、最終的な映像は、以下のように表される特徴ベクトルのシーケンス

 

ビデオ機能から抽出された連続実数値ベクトルNATURALベクトル(実数空間に属している)であり、個別のテキストは非常に異なっています。現在、映像特徴ベクトルは、次のBERT二つの方法で、主に注入されています。

(1)パイプライン方式:実離散ベクトルを高く評価し、テキストの整列トークンBERTモデルに加え、

端部(2)の端部:微調整モデル構造BERT、直接実数値ベクトルを用いた計算に関与します。

いくつかの単語の男は、小さな夜にはそれぞれ2つの論文の下にある2つの方法を紹介します、と述べました。BERT比較的深い理解と知識のために、その後の必要性をお読みください。会場がある必要があるここで、BERTレビューの簡単なレビュー。テキストの最後だけでなく、卵、それをお見逃しなく〜

「VideoBERT:ビデオと言語表現学習のためのAの共同モデル」

これは古典的なクロスモーダル表現を学びますビデオBERTの組み合わせです。個別のクラスタの方法により抽出された映像特徴ベクトルの仕事は、順番に学習して、テキスト、視覚的及びテキスト情報に基づいて視覚的なトークントークンを向上させます。

方法1

テキストデータを処理する1.1ビデオ(映像と言語処理)

20のフレーム(20 FPS)は、第2の入力からのビデオ、セグメント30からなる各々の第1の選択のためのビデオ処理。特徴ベクトル(寸法1024)を抽出するための各クリップConvNetとPretrained。しかし、特徴ベクトルので、空間R ^ 1024年、無数に属します。そして、トークンはテキストに対応し、オリジナルのタスクはMLMでBERTを続けるが、著者は、20736クラスタ中心の合計を与えるために、すべての抽出された特徴ベクトルにクラスタリング階層K-手段を利用します。視覚的なトークンとしてクラスタ中心、各視覚的特徴ベクトルは、その中心によってクラスに属するを特徴とします。

テキスト処理のために、言語モデルLSTMベースの彼らの句読点上を使用して、テキスト、ビデオを抽出するために、既製の音声認識ツール(自動音声認識)を使用します。以降の処理はWordPiecesワード語彙サイズのカット30,000であり、BERTの生を継続します。

1.2入力形式(入力形式)

言語の前処理、映像及び視覚情報は、離散トークンになった後、VideoBERT入力フォーマットのみ増加BERTオリジナルのデザインを継続[>この特別なトークンとテキストの視覚的トークンを区別するために使用されるトークン。

              

監督タスクから1.3(pretrain)

元の2つの監視タスクからBERT:

(1)cloz E(穴埋め)/ MLM(言語モデルをマスク):マスクテキストトークンの予測。

(2)NSP(次文予測):連続的な想定の2つの周期かどうかを予測します。

最初の仕事は自​​然に視覚的なトークンに拡張することができます。初期視覚トークンをマスクとして、トークンのテキストと同じように、マスクの視覚的なトークンを予測し、それは損失関数として使用するソフトマックスを、マルチ分類問題であるテキストトークンと視覚的なトークンのマスクを使用しないでください。

第2のタスクは、内VideoBERT NSPなるシーケンステキスト及びビジュアルシーケンスは、2つの同じビデオから抽出されたか否か、すなわち、一致しているかどうかを予測します。同様に、元BERT、我々は正の例として、映像データから、負の例として、他の視覚的配列から、視覚的なシーケンスをビデオデータを抽出します。これは、バイナリ分類問題です。 

1.4下流のタスク

実際にはこれら2つの自己教師あり学習タスク関節視覚liinguistic表現xは、視覚的配列を表す(分布)P(x、y)は、によってVideoBERTは、Yは、テキスト配列を表します。同時分布は、次の3つのタスクに使用することができます。

(1)テキスト・ツー・ビデオ  : ビデオテキスト予測、テキストによる自動図に従って。 

       

(2)ビデオ・ツー・テキスト :  ビデオ予測テキスト、ビデオ要約の自動生成。

(シングルモードを使用)(3)単峰様式:テキスト又はビデオ配信を使用してエッジ、上および下の予測に応じ。テキストは、私たちが言語モデル、我々は前のビデオ内容に応じて、後で何が起こるかを予測することができるビデオの場合に精通していることです。

              

実験2

実際の物品は、クロスモダリティ関節表現に学習の2つのダウンストリームタスクの妥当性を確認するために設計されています。

2.1画像の話      

ビデオおよび固定テンプレート「今、私はどのようにお見せしましょう  [MASK] [MASK]は、」 キーワードのオフマスク予測(動詞と名前を)次の図に示す定性的な三つの例、各実施例を示す二つのセグメント、および予測トップ動詞と名詞のビデオクラスセンター。

                    

異なる方法の効果上のタスクのデータテーブルの定量的比較。S3Dは、監督の古典的なモデルである S3Dモデルに加えて、監視信号(トレーニングするために使用されなかった、ZERO-SHOT分類、事前訓練モデルを直接使用します)。BERT(言語前)は、元のBERTの直接使用を表し、VideoBERT(言語前)は、学習するテキストデータを有するVideoBERT(クロスモーダル)が完全なモデルであり、ビデオ及びテキストデータを組み合わせて、抽出に基づいて元のBERTの映像データの増加を意味します学習。比較実験の結果は、効果3種類の、トップ5の精度を見てBERTセット、有効性及びマルチモーダルデータの有効性を改善することができ、最終的なゼロショットVideoBERT(クロスモーダル)を達成することができ、そしてS3D同様の効果を教師あり学習。トップ-1のすべての種類の結果の理由は、わずかに低いBERT BERTワード片カット単語ベースの分類の意味論の精度ではなく、正確な一致に焦点を当て、オープンvocablaryをより助長されます。   

2.2ビデオのキャプション

著者は、特徴抽出など有効VideoBERTを確認するために、タスクを使用しています。モデル特徴の入力ことを除いて、ビデオ要約を生成する、同じトランスエンコーダ・デコーダモデルを使用。

(1)抽出されたS3D機能(ベースライン)を使用し

(2)抽出された特徴VideoBERTを使用

(3)VideoBERT機能スプライシングS3D機能(最強ブランド)

       

             

私たちは、より鮮やかに、特定の生成詳細質的使用して、ビデオのキャプションコンテンツVideoBERT機能の例から見ることができます。定量的指標からは、VideoBERT + S3DはVideoBERTは機能が下流のタスクビデオキャプションを大幅に改善しているうち学ぶ、最高の結果を達成しました。   

「対照双方向トランスを使用した学習ビデオの表現」

前作を読んで、小さなパートナーは疑問を持っていることがあり、実数値連続特徴ベクトル(視覚的特徴)は通常のクラスのセンターをクラスタリングすることによって制限され、あなたがビデオ情報に含まれる詳細の多くを失うことになりますそれ(⊙⊙)?だから、この記事では、微調整することにより、モデルのアルゴリズム、BERTのマルチモダリティを視覚的特徴のディスクリート型が、実数値ベクトルの視覚的な特徴を直接使用し、使用しなくなっクラスタ連続実数値です。

方法1

              

まず、モデル上のパノラマ、破線は上記微調整の点線下流タスクの下、pretrain段階です。灰色のボックスは、プレーンテキストデータモデルと事前研修BERTの修正を示しています。白いボックスは、2つのフロントのクロスモーダルトランス組み合わせに訓練プレを使用して赤線部マルチモーダルデータをCBT映像データモデルを事前訓練純粋な黒線を表します。あなたの下には、小さな夜と一つ一つは~~~各パーツを発表しました

BERTモデル1.1プレーンテキスト

監督タスクまたはの生BERTのでMLM、ランダムマスクテキストが周囲のテキストの使用をマスクしない予測するトークン。

             

YT正しいトークンがマスクである請求除去するマスクオフYT YTテキスト配列を表します。これは実際にMLMの損失関数で正しく予測YT YTの確率を最大化することです。しかし、ここで確率予測は次のようにYTが定義されているYT。

             

どの機能のトランスを介して得られます。最適化の目標はするマスクワードシーケンスYTと同様のYT(コリニア)を埋め込むの真の表現です

オリジナルのBERT BERT、代わりに確率ソフトマックスの内積演算の形態のことを除いて、本質的に同じことを言います。モデル構造のこの小さな変更のモデリングと視覚的なエコーバックの部分は非常にエレガントです。

1.2視覚的なCBTモデル

監督タスクからのデータに基づいて映像MLMモデルもシームレスですが、視覚的特徴は、連続実数値ベクトルであるので、著者は使用NCE(ノイズ対照的な推定)損失

             

             

比較上記の確率BERTの定義、およびNCEの定義は、スーパーのようではありません!????    

 これは、視覚的なBERT出力を通して、視覚的順序マスクです。無数の視覚的特徴ため、テキスト部分が負、負のサンプルを介して負のサンプル実施形態のすべての実施形態を網羅することがないように。目標は、最適化することで同様の機能XTビジュアルシーケンスらXTおよび視覚の真の表現をマスク。

     

クロスモダリティの1.3モデルCBT

モジュール内の単一モードの前に導入され、映像(視覚的特徴から抽出されたビデオは= YとY1をいう:T)の両方に及びビデオトークンから抽出されたテキスト(テキスト用いてASR、X = X1と称します。 T)データその間の研究が~~クロスモーダルCBTモジュールの友人への上にマルチモーダル対話を示し、対応する関係に

ビデオの同時期から視覚的特徴yとxテキスト、それでも教育ビデオが各フレーム(ここで、フレームレベル)が正確に対応していないので、私たちはコンペモデルは、XTまたはXTによりYT YT予報を予測することができますすることはできません。あなただけがそれらを求めるために必要な関係を、対応する(X yを予測することができ話しモデル)レベルシーケンス上に存在することができます同じNCE損失を使用します。

             

             

XおよびYは、視覚CBTとBERTモデルによって算出された各を表します。

             

             

クロスモーダルトランス算出対話表現に浅いMLPと、xとyの間の相互情報同様の最適化目標と2つのフロント、小さな相互情報量の大きい、負例の正例間のクロス(x、y)の情報(X、Y「)。 

1.4全体的なモデル

全体のモデルは、トップ3の統合された部分です。入力の3つのすべての部分がわずかに異なるが、しかし、このアルゴリズムは非常に完璧で、対称的に非常に一貫しています。

             

実験2

2.1動作認識

下流のタスクとして視覚的representaionsの動作認識の妥当性を検証します。表コントラストpretrain戦略(シャッフル&学び、3DRotNet)及びランダム初期化基準、二つのデータセット(UCF101とHMDB51)における両方の方法と微調整の修正機能を使用することの効果以下の左。実験結果は、この論文では、視覚CBTモデルの有効性を示します。右側にはテーブルと比べ監督の最先端の様々なモデルで、CBTのモデルは、直接これらのモデルよりも非常に重要なアップグレードを持っています。

       

2.2アクションを見越し 

記事は、3つの異なるデータセット朝食セット、50SaladsデータセットとActivityNet 200データセットを使用しています。見越しタスクは単純にビデオのようなマルチタスクの分類に基づいていると考えることができるアクションを理解していません。この実験では、筆者だけではなく証明したCBTの方法は、他の既存の方法よりも優れているが、長いビデオは良いの表現能力を持っているにもCBTを証明します。

              

左側の表に示すいくつかの他の方法の比較及びCBT、CBT他の方法と同様に優れた3つのタスク(3つの実験のデータを置くために、それは非常に説得力がある)、前記自己スーパー= Yで表しますpretrain-微調整方法、自己スーパー= Nを使用する方法は、モードは、エンドツーエンドのトレーニングであることを示しています。

右の表は、さまざまなビデオエフェクト、異なるモデルの長さの比較です。ビデオの長さは、CBT効果が良くなったように有意に良好で他の2つよりも3台のマシン上でCBTデータは、一貫したベースライン(AvgPoolとLSTM)、及び増加しています。一般的なモデルは、長い間、テーブル、2つのベースライン方法として、長いテキストやビデオの故障、上になりますが、無制限の長さ。CBTのものとすることができるが、より長いビデオから効果が良くなるように、モデルのよりよい表現を学びました。(スリランカ国!????)

2.3他のビデオタスク

       

記事はまた、ビデオキャプション、これら二つのタスクのアクションセグメンテーションを比較し、VideoBERTよりCBTが早くも映像キャプションに改善言及し、これは、クラスタリングステップは、現在の情報の問題の損失を最適化することで強化することができます。

 

卵[これは] ????

第舞台裏応答(オハイオ州読みながら、自分のノートに夜の学校)[パブリック] videoBERT GETオリジナル紙

参考ノートはシンプルな論文を、読んで~~

 

公開された33元の記事 ウォンの賞賛0 ビュー3271

おすすめ

転載: blog.csdn.net/xixiaoyaoww/article/details/104623997