ビジュアルモックアップの概要

1 万文字の長い記事では、視覚的な大規模モデルを完全に解釈し、最近登場した優れた視覚的な大規模モデルの作品について詳しく説明しますhttps://mp.weixin.qq.com/s/jLQaguLejx9zXjZjaJWx- Q視覚言語モデルの深い理解 -人間の学習は本質的にマルチモーダルであることを知ることは、複数の感覚を一緒に使用することで新しい情報をよりよく理解し、分析するのに役立ちます。当然のことながら、マルチモーダル学習の最新の進歩は、この人間の学習プロセスの有効性からインスピレーションを得て、画像、ビデオ、テキストを利用できるモデルを作成しています… https://zhuanlan.zhihu.com/p/609886192マルチモーダル モデルは画像を LLM に完全に一致させる必要がありますが、特定の制作タスクでは、最初に音声と画像を通じてモダリティをテキストに変換してから LLM に送信する方がよいのではないかとますます感じています。llm は必ずしも必要ではありません他のモダリティと直接的な関係があります。

基本的なビジュアルモデル:

1. インフラストラクチャー

  • デュアル エンコーダー アーキテクチャ: 個別のエンコーダーを使用して視覚的モダリティとテキスト モダリティを処理し、これらのエンコーダーの出力が目的関数を通じて最適化されます。

  • 融合アーキテクチャ: ビジョン エンコーダとテキスト エンコーダによって生成された表現を取得し、融合表現を学習する追加の融合エンコーダが含まれています。

  • エンコーダ-デコーダ アーキテクチャ: エンコーダ-デコーダ ベースの言語モデルとビジュアル エンコーダで構成されます。

  • アダプティブ LLM アーキテクチャ: ラージ言語モデル (LLM) をコア コンポーネントとして利用し、ビジュアル エンコーダを使用して画像を LLM (モーダル アライメント) と互換性のある形式に変換します。

2. 目的関数

2.1 対照学習

ラベルのない画像テキストから学習したクリップは、ITM (画像テキスト マッチング)、SimCLR、およびさまざまな ITC バリアント FILIP 損失、TPC 損失、RWA、MITC、UniCL、RWC に加えて、ITC (画像テキスト コントラスト) 損失を使用します。

2.2 生成学習

条件付き確率モデル。前のトークンまたは画像を知って次のトークンを予測します。MLM、LM、および Cap は主に言語モデルに関連付けられています。

3. 事前トレーニング

3.1 事前トレーニングデータセット

視覚言語モデルの中核は大規模なデータであり、次のように分類できます。

  1. 画像テキスト データ: CLIPusedWebImageTextなど。これらのデータは通常、Web から収集され、フィルタリング プロセスを経て、ノイズの多い、役に立たない、または有害なデータ ポイントが削除されます。

  2. 部分的に擬似ラベルが付けられたデータ: 大規模なトレーニング データは Web 上では入手できず、収集に費用がかかるため、優れた教師を利用して画像テキスト データセットをマスク記述データセット ( や など) に変換することできGLIPますSA-1B

  3. データセットの組み合わせ: ベンチマーク ビジョン データセットを直接結合する作品もあり、これらの作品では、字幕や視覚的な質問応答など、データセットと画像とテキストのペアが結合されます。一部の作品では、画像テキスト以外のデータセットも使用し、テンプレートベースのヒント エンジニアリングを使用してラベルを説明に変換します。

3.2 微調整

微調整は主に次の 3 つの側面で使用されます。

  1. Grounding-DINO特定のタスク (オープンワールドの物体検出など)でのモデルのパフォーマンスを向上させます。

  2. 特定の機能(視覚的なローカライゼーションなど)におけるモデルのパフォーマンスを向上させる。

  3. さまざまな下流のビジョン タスク (たとえばInstructBLIP、 ) を解決するためのモデルの調整に関するガイダンス。

上記は instructBLIP ですが、実際には、画像を llm がよりよく理解できるクエリに変換するためのものです。

3.3 即時プロジェクト

ほとんどのビジュアル データセットは画像と対応するテキスト ラベルで構成されています。ビジュアル言語モデルを使用してビジュアル データセットを処理するために、一部の作品ではテンプレート ベースのヒント エンジニアリングが活用されています。

text_descriptions = [f"This is a photo of a {label}" for label in cifar100.classes]  
text_tokens = clip.tokenize(text_descriptions).cuda()  

4. テキストプロンプトに基づく基本モデル

4.1 対照学習に基づく手法

クリップは、N 個の画像とテキストのペアのマルチモーダルな埋め込み空間を生成します。対称クロスエントロピー損失によってトレーニングされ、N 個の正しい画像とテキストのペアの埋め込みのコサイン類似度を最小化し、N²-N の不正確なペアのコサイン類似度を最大化します。

4.1.1 一般モデルによる比較方法

ALIGN は、フィルタリングなしで 10 億を超える画像とテキストのペアのノイズの多いデータセットを利用します。シンプルなデュアル エンコーダー アーキテクチャは、コントラスト損失を使用して画像とテキストの視覚的および言語的表現を位置合わせすることを学習し、データ サイズが大きい限り正常に機能します。簡単な方法、効果ソータ。 

クリップ スタイルの事前トレーニングから始まる Florence は、異なる空間、時間、モダリティを処理できる 3 つの異なる適応ヘッドを備えたモデルに拡張されます。

FILIP は、きめの細かいセマンティック アラインメントを取得するためのクロスモーダル ポストインタラクション手法を提案しています。FILIP 損失は、視覚的埋め込みとテキスト埋め込みの間のトークン単位の類似性を最大化し、CLIP の推論効率を犠牲にすることなく 2 つのモダリティ間のきめ細かい相互作用をモデル化するのに役立ちます。

4.1.1.2 マスクベースの対照学習

FLIP, FLIP は、CLIP を訓練するためのシンプルかつ効果的な方法であり、その考え方は非常に単純で、図に示すように、CLIP に MAE の Mask 操作を導入し、マスク率の高い画像断片をランダムにマスクするものです。目に見えるフラグメントのみをエンコードします。違いは、ここではマスクされた画像コンテンツが再構築されないことです。さらに、テキストに対しても同じプロセスが実行されます。これは BERT に似ていますが、異なります。BERT はテキストを学習したマスク トークンに置き換えます。このスパースな計算により、テキスト エンコードのコストを大幅に削減できます。

MaskCLIP は、画像が連続的で粒度の細かい信号であり、言語の説明では完全には表現できない可能性があることを強調します。したがって、MaskCLIP は、画像をランダムにオクルージョンし、Mean Teacher ベースの自己蒸留を利用することで、局所的な意味論的特徴を学習します。 

4.1.2 ビジョンに基づく基本モデルの位置決め方法

上の図は、元のクリップが視覚的な位置決めタスク、特にセマンティック セグメンテーションなどのピクセル レベルの位置決めタスクに優れていることを示しています。

RegionCLIP CLIP を大幅に拡張して、画像領域とテキスト概念の間のきめ細かい位置合わせをサポートする領域レベルの視覚表現を学習することで、ゼロショット オブジェクト検出やオープン語彙オブジェクト検出などの領域ベースの推論タスクが可能になります。

CRIS は、視覚言語デコーダとテキストからピクセルへのコントラスト損失を導入することにより、CLIP がピクセルレベルの情報を学習できるようにします。

Grounding DINO は、強力な事前トレーニング済みモデルを活用し、対照学習を通じてそれを変更して言語の整合性を強化します。

全体として、上記の一連の基本的な視覚研究では、これらの方法は、対照学習やマスク学習などの技術を介してクリップを改善しようとしています。

4.2 生成ベースの手法

大規模な言語モデルと組み合わせたマルチモーダル パラダイム:

  • コンテキストを使用したマルチモーダル入力からの学習: たとえば、 メソッドは 更新された重みを使用せずに Frozen 画像エンコーダーを と組み合わせ  、代わりに画像アノテーションを備えたデータセットでビジュアル エンコーダーをトレーニングします。同様に、 モデルは事前トレーニングされた視覚モデルと言語モデルの固定セットを取得し、それらを を介して接続します。LLMLLMFlamingoPerceiver Resampler

  • LLM他のモダリティの一般的なインターフェイスとして使用MetaLM: モデルがセミ因果構造を採用している場合、接続層を介して双方向エンコーダーをデコーダーに接続すると、マルチタスクの微調整と命令調整されたゼロショット学習を実現できます。さらに、KOSMOSこのシリーズには、LLMインターネット上でのマルチモーダル学習の機能も統合されています。

  • モデルのオープンソース バージョン: 例:新しいマルチモーダル データセットでトレーニングされたモデルのオープンソース バージョンOpenFlamingoです。Flamingo

一般的な目的でのトレーニング:

  • 簡素化されたビジュアル言語モデリング:SimVLMプレフィックス言語モデリング ( PrefixLM) 目標を使用してトレーニングされた場合、タスク固有のアーキテクチャやトレーニングは必要なく、複数のビジュアル言語タスクで優れたパフォーマンスを達成できます。

  • マスクの再構成と位置合わせ: たとえばMaskVLM、結合マスク再構成を使用した言語モデリング。1 つの入力のマスクされた部分が別のマスクされていない入力から再構成され、2 つのモダリティを効果的に位置合わせします。

  • モジュール式視覚言語モデル:mPLUG-OWL画像エンコーダー、画像アブストラクター、およびフリーズで構成されLLM、2 段階のトレーニングを通じてマルチモーダルな対話と理解を可能にします。

上記の方法は、視覚的な条件下で言語生成タスクをトレーニングすることによって LLM に視覚機能を追加するため、生成的と呼ばれます。

4.3 対照学習と生成に基づくハイブリッド手法

4.3.1 一般的な視覚言語学習の基本モデル

  • UNITER: 異種視覚言語タスクのための生成的目標 (例: マスクされた言語モデリングとマスクされた領域モデリング) と対照的目標 (例: 画像とテキストのマッチングや単語領域の位置合わせ) を組み合わせた方法。

  • Pixel2Seqv2: エンコーダー/デコーダー アーキテクチャを使用してトレーニングされた、4 つのコア ビジョン タスクをピクセルからシーケンスへのインターフェイスとして統合します。

  • Vision-Language: BART や T5 などの事前トレーニング済みのエンコーダー/デコーダー言語モデルを使用して、さまざまなコンピューター ビジョン タスクを学習します。

4.3.2 一般的なアーキテクチャ

  • Contrastive Captioner (CoCa): コントラスト損失と生成キャプション損失を組み合わせることで、多様なビジュアル データセットで適切なパフォーマンスを発揮できます。

  • FLAVA: 視覚、言語、および視覚と言語のタスクで適切に実行するために一連の損失関数でトレーニングされた、単峰性および多峰性のタスクに適用できます。

  • BridgeTower: ユニモーダル タスクを実行する能力を損なうことなく、さまざまなレベルのユニモーダル デコーダーからの情報を結合します。

  • PaLI: ユニモーダル タスクとマルチモーダル タスクの両方に対応する、同時拡張可能な多言語モジュラー言語視覚モデル。

  • X-FM: 言語、視覚、融合エンコーダーを含む新しい基本モデル。目的と新しい手法を組み合わせてトレーニングされます。

4.3.3 BLIP フレームワーク パラダイム

  • BLIP: 生成機能と理解機能を使用して画像テキスト データセットを効率的に利用し、Multimodal mixture of Encoder-Decoder (MED)アーキテクチャを採用します。

  • BLIP-2: トランスフォーマーのクエリによる計算効率の高いインターモーダル調整。

4.3.4 命令を意識した特徴抽出とマルチモーダルタスクソリューション

  • InstructBLIP:命令を認識した視覚的特徴抽出によるトレーニングにビジュアル エンコーダQ-Formerとを利用します。LLM事前トレーニングされたモデルの効率的な使用:

  • VPGTrans: LLM 間でビジョン エンコーダを転送する効率的な方法を提供します。

  • TaCATaCA : というアダプターについては言及されています が、これ以上詳しくは説明されていません。

4.3.4 視覚的グラウンディングに基づく方法

  • ViLD: このアプローチでは、2 段階のオープン語彙オブジェクト検出システムを使用して、事前トレーニングされた単一語彙分類モデルから知識を抽出します。RPN これは、オブジェクト提案を作成し、オブジェクト検出器に知識を抽出するために使用される、と同様の CLIP 視覚言語モデル で構成されます Mask-RCNN 。

  • UniDetector: このメソッドは、オープンワールドで新しいクラスを検出するための一般的なオブジェクト検出を目的としています。RegionCLIPこれは、上で述べたものと同様の事前トレーニング、異種データセットのトレーニング、新しいカテゴリ検出のための確率キャリブレーションを含む 3 段階のトレーニング方法を使用します。UniDetector は、大規模かつ閉じられた語彙のオブジェクト検出の新しい標準を設定します。

  • X-Decoder: タスクの相乗効果を活用するために、3 つの粒度レベル (画像レベル、オブジェクト レベル、ピクセル レベル) で動作します。Mask2Formerこれは、マルチスケール画像特徴と 2 セットのクエリを使用してセグメンテーション マスクをデコードすることに基づいており 、それによってさまざまなタスクが容易になります。幅広いセグメンテーションおよび視覚言語タスクにわたって強力な伝達性を示します。

ユニディテコール

4.4 対話ベースの視覚言語モデル

GPT4

miniGPT4 は、事前トレーニングされた大規模言語モデル Vicuna とビジュアル コンポーネント Vit-G および Qformer で構成されます。モデルはまずマルチモーダルな例でトレーニングされ、次に高品質の画像とテキストのペアで微調整されます。

XrayGPT: VisualGLM に基づく

溶岩

LLaMA アダプター v2

5. 視覚的な手がかりに基づいた基本モデル

5.1 ビジョン基本モデル

CLIPSeg: ビジュアル クエリとテキスト クエリは、通常、対応するクリップ エンコーダに関連付けられて埋め込みを取得し、その後クリップ セグメント デコーダに組み込まれます。

ヘルプGPT

サム 

思われる

5.2 SAMの改善と適用

FastSAM、MobileSAM、RefSAM、HQSAM

5.3 ジェネラリストモデル

状況に応じた学習を使用して、さまざまなプロンプトや例を使用してさまざまなタスクに迅速に適応する方法。プロンプト例が与えられると、対応するタスクを完了できます。

ペインターは、トレーニング後、入力と同じ条件を持つタスクの入出力ペア画像に基づいて、推論中にどのタスクを実行するかを決定できます。

VisionLLM は、視覚と言語のモダリティを調整して、オープンエンドのタスクを解決できます。視覚モデルは、画像の特徴を学習するために使用されます。これらの画像の特徴は、画像を記述する言語命令とともに言語ガイド付き画像トークナイザーに渡されます。画像の出力tokenizer は言語命令とともに提供され、オープンエンドの LLM ベースのタスク デコーダを提供します。

6. 総合的な基本モデル

6.1 ヘテロジニアスアーキテクチャに基づく基本ビジョンモデル

画像とテキスト、ビデオと音声、画像と奥行きなどのペアのモダリティを調整します。

6.1.1 CLIP と異種モーダル アライメント

CLIP2Video: 画像テキストクリップモデルの空間セマンティクスをビデオテキスト検索問題に移す。

AudioCLIP: オーディオで動作します。

6.1.2 共有表現を学習するためのマルチモーダル モデル

イメージバインド:

コンゴウインコ-LLM

6.1.3 動画と長文の処理

6.2 基本的なエージェントベースのビジョンモデル

エージェントベースの基本視覚モデルは、LLM と現実世界の視覚の視覚および物理センサー モダリティを詳細に組み合わせます。これは、テキストの理解だけでなく、特にロボットの操作やナビゲーションにおいて、現実世界の視覚との対話や操作にも役立ちます。

おすすめ

転載: blog.csdn.net/u012193416/article/details/132301488