Video-LLaMA: 大規模な言語モデルに視覚的および聴覚的な機能を与える

この記事の出典はHeart of the Machine編集部です

今日のソーシャル メディアやインターネット文化においてビデオの役割はますます重要になっており、Douyin、Kuaishou、Bilibili などは数億人のユーザーを抱える人気のプラットフォームとなっています。ユーザーは、ビデオを中心に自分の生活、創造的な作品、興味深い瞬間、その他のコンテンツを共有し、他のユーザーと対話したりコミュニケーションしたりします。

最近、大規模な言語モデルが優れた機能を実証しました。大型モデルに「目」と「耳」を付けて、映像を理解してユーザーと対話できるようにすることはできないだろうか。

この問題から出発して、Alibaba Dharma Academy の研究者は、包括的なオーディオビジュアル機能を備えた大規模モデルである Video-LLaMA を提案しました。Video-LLaMA は、ビデオ内のビデオ信号とオーディオ信号を認識して理解することができ、ユーザーが入力した指示を理解して、オーディオ/ビデオの説明、書き込み、質問応答など、オーディオとビデオに基づいた一連の複雑なタスクを完了できます。 、など。現在、論文、コード、インタラクティブなデモはすべて公開されています。さらに、研究チームは、Video-LLaMA のプロジェクトのホームページで、中国のユーザーのエクスペリエンスをよりスムーズにするために、モデルの中国語版も提供しました。

121517cfd03991dedecaa73f2f585780.png

  • 論文リンク: https://arxiv.org/abs/2306.02858

  • コードアドレス: https://github.com/DAMO-NLP-SG/Video-LLaMA

  • デモアドレス:

  • モデルスコープ: https://modelscope.cn/studios/damo/video-llama/summary

  • ハギングフェイス: https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA

  • 入力ファイルのアドレスの例:

  • https://github.com/DAMO-NLP-SG/Video-LLaMA/tree/main/examples

モデルデザイン

Video-LLaMA は、ビデオ内の視覚および音声モダリティ情報を大規模言語モデルの入力空間にマッピングするモジュール設計原則を採用し、クロスモーダル命令追従機能を実現します。静的な画像の理解に焦点を当てたこれまでの大規模モデル研究 (MiNIGPT4、LLaVA) とは異なり、Video-LLaMA はビデオの理解において 2 つの課題に直面しています。それは、視覚における動的なシーンの変化を捉えることと、視聴覚信号を統合することです。

ビデオ内の動的なシーンの変化をキャプチャするために、Video-LLaMA にはプラグイン可能なビジュアル言語ブランチが導入されています。このブランチは、まず BLIP-2 の事前トレーニング済み画像エンコーダーを使用して各フレーム画像の個々の特徴を取得し、次に対応するフレーム位置の埋め込みと組み合わせます。すべての画像特徴は Video Q-Former に送信され、Video Q-Former はフレームレベルの画像表現を集約し、固定長の合成ビデオ表現を生成します。最後に、線形レイヤーを使用して、ビデオ表現を大規模言語モデルの埋め込み空間に位置合わせします。

8ac34bec2f0ed9f0fe0fb3abe4cbe84c.png

ビデオ内の音声信号に関しては、Video-LLaMA は処理にオーディオ言語ブランチを使用します。まず、複数の 2 秒のオーディオ クリップが元のビデオから均一にサンプリングされ、各クリップが 128 次元のメル スペクトログラムに変換されます。次に、強力な ImageBind をオーディオ エンコーダとして使用して、各サウンド クリップの特徴が個別に抽出されます。学習可能な位置埋め込みを追加した後、Audio Q-Former はセグメント特徴を全体として集約し、固定長のオーディオ特徴を生成します。ビジュアル言語ブランチと同様に、最終的に線形層を使用してオーディオ表現を大規模な言語モデルの埋め込み空間に位置合わせします。

トレーニング コストを削減するために、Video-LLaMA は事前トレーニングされた画像/オーディオ エンコーダーをフリーズし、ビジュアル ブランチとオーディオ ブランチの次のパラメーターのみを更新します: ビデオ/オーディオ Q-Former、位置エンコーディング レイヤー、線形レイヤー (図を参照)図 1 に示します)。

ビジョンとテキストの整合性を学習するために、著者らはまず、大規模なビデオ テキスト データセット (WebVid-2M) と画像 テキスト データセット (CC-595K) を使用してビジョン ブランチを事前トレーニングします。その後、著者らは MiniGPT-4、LLaVA の画像命令データセット、および Video-Chat のビデオ命令データセットを使用して微調整を行い、クロスモーダル命令の追従性を向上させました。

音声とテキストの位置関係の学習に関しては、大規模で高品質な音声とテキストのデータが不足しているため、著者らはこの目標を達成するために回避策を採用しています。まず、オーディオ言語ブランチにおける学習可能なパラメーターの目標は、オーディオ エンコーダーの出力を LLM の埋め込み空間と一致させることとして理解できます。また、オーディオ エンコーダ ImageBind は、非常に強力なマルチモーダル アライメント機能を備えており、さまざまなモダリティのエンベディングを共通の空間にアライメントできます。したがって、著者らはビジュアルテキストデータを使用してオーディオ言語ブランチをトレーニングし、ImageBind の共通埋め込み空間を LLM のテキスト埋め込み空間に位置合わせし、それによって音声モダリティと LLM テキスト埋め込み空間の位置合わせを実現します。この独創的な方法で、Video-LLaMA は、音声データでトレーニングされていないにもかかわらず、推論中に音声を理解する能力を実証します。

著者らは、ビデオ/オーディオ/画像対話に基づいた Video-LLaMA の例をいくつか示します。 

(1) 次の 2 つの例は、Video-LLaMA のオーディオとビジュアルの包括的な認識能力を示しており、例内の会話はオーディオ ビデオを中心に展開されます。例 2 では、画面には出演者のみが表示されますが、音には観客の歓声や拍手が含まれており、視覚信号しか受信できないモデルでは、観客の肯定的な反応を予測することができません。オーディオには楽器の音はありませんが、画像にはサックスが含まれていますが、聴覚信号しか受信できないモデルでは、演奏者がサックスを演奏していることがわかりません。

92568c22831c83ffad402129dfc149a7.gif

658a35e2e2b192fa6936f3ae5a086c1e.gif

(2) Video-LLaMA は静止画像に対する優れた認識能力と理解能力も備えており、画像の説明や質問応答などのタスクを完了できます。

ea4eb4a5800a8f30a388486f6e90e04a.png

7b8fac9c3012a0cd5852e717e18f2aea.png

(3) 驚くべきことに、Video-LLaMA は有名なランドマークや人物を識別し、一般知識の質問に答えることができます。例えば、以下のVIdeo-LLaMAではホワイトハウスを特定し、ホワイトハウスの状況を紹介することに成功しています。もう 1 つの例は、Long Ma と Ji Xue (古典的な映画およびテレビドラマ「ゲーム オブ スローンズ」の登場人物) の静止写真を入力すると、VIdeo-LLaMA はそれを首尾よく識別できるだけでなく、それらの間の関係も伝えることができます。

33813ae9042a735779b10d1e8bc0d11c.png

6c555620a030befec7bc9ade02dc267c.png

(4) ビデオラマは、ブーイングの動きやボートの方向など、ビデオの動的なイベントをキャプチャすることもできます。

49188ef48e3096f3788e1b1c34300565.gif

6bc83d4201f7af9d2bee4b96a0fc21e3.gif

要約する

現時点では、オーディオとビデオの理解はまだ成熟した解決策のない非常に複雑な研究​​課題であり、Video-LLaMA は優れた機能を示していますが、著者はそれにはいくつかの限界があるとも述べました。

(1) 限られた知覚能力: Video-LLaMA の視覚および聴覚能力はまだ比較的初歩的であり、複雑な視覚および音声情報を認識することは依然として困難です。問題の一部は、データセットの品質と規模が十分ではないことです。研究チームは、モデルの知覚能力を強化するために、高品質のオーディオ、ビデオ、テキストの位置合わせデータセットを積極的に構築しています。

(2) 長いビデオへの対応が難しい: 長いビデオ (映画やテレビ番組など) には多くの情報が含まれており、モデルの推論能力と計算リソースが高くなります。

(3) 言語モデルに固有の幻覚問題は、Video-LLaMA にも依然として存在します。

全体として、Video-LLaMA は、包括的なオーディオビジュアル機能を備えた大規模なモデルとして、オーディオビデオ理解の分野で目覚ましい成果を上げています。研究者の継続的な努力により、上記の課題は 1 つずつ克服され、音声およびビデオ理解モデルが広範な実用的価値を持つようになるでしょう。

公式アカウント「機械学習とAI生成の創造」に注目してください。もっと面白いことがあなたを待っています

安定拡散の簡単解説:AI塗装技術の潜在的な拡散モデルの解釈

制御可能なAIGC絵画生成アルゴリズムControlNetを徹底解説! 

クラシック GAN は次のように読む必要があります: StyleGAN

9c165384c976a14ab0499bca4511d851.png GANのシリーズアルバムを見るには私をクリックしてください~!

一杯のミルクティーでAIGC+CVビジョンのフロンティアになろう!

最新かつ充実の100まとめ!拡散モデルの生成 拡散モデル

ECCV2022 | 対立ネットワーク GAN 生成に関する論文まとめ

CVPR 2022 | 25 以上の方向性、最新の 50 の GAN 論文

 ICCV 2021 | 35 のトピックに関する GAN 論文の概要

記事数は110以上!CVPR 2021 で最も完全な GAN ペーパーコーミング

記事数は100以上!CVPR 2020 で最も完全な GAN ペーパーコーミング

新しい GAN の解体: デカップリング表現 MixNMatch

StarGAN バージョン 2: マルチドメイン ダイバーシティ イメージの生成

添付のダウンロード | 「Explainable Machine Learning」の中国語版

添付のダウンロード | 「TensorFlow 2.0 ディープ ラーニング アルゴリズムの実践」

添付のダウンロード | 「コンピューター ビジョンにおける数学的手法」シェア

「深層学習に基づく表面欠陥検出手法の検討」

ゼロショット画像分類の調査: 10 年間の進歩

「ディープニューラルネットワークに基づく少数ショット学習の調査」

『礼書・薛記』には、「友なしで一人で学ぶのは孤独で無知だ」という言葉がある。

ミルク ティー カップをクリックして、AIGC+CV ビジョンのフロンティア ウェイバーになりましょう! 、  AI によって生成された創造物とコンピューター ビジョンの 知識の惑星に参加してください。

おすすめ

転載: blog.csdn.net/lgzlgz3102/article/details/131179712