フルサイクルクロスモーダル検索の調査: 表現学習の観点から

フルサイクルクロスモーダル検索の調査
: 表現学習の観点から

クロスモーダル検索の概要

ここに画像の説明を挿入します
図 1. クロスモーダル検索の問題点と課題

特徴抽出

特徴抽出は、クロスモーダル検索のコア モジュールであり、元のコーパスを視覚的埋め込みや言語埋め込みなどの埋め込みにエンコードします。深層学習モデルを適用することで、さまざまな特徴を抽出できます。ピクセルレベルのグリッド特徴に焦点を当てた従来の CNN ネットワーク [11] と比較して、最近では、[12] によって提案された Faster-RCNN アルゴリズムなど、画像内の領域特徴を探索するためのより多くの方法が登場しています。Transformer [13] および BERT [14] アーキテクチャは、事前トレーニングと微調整の広く普及した例です。たとえば、ViT [15] はパッチ機能を直接処理できますが、BERT、UniLM [16]、RoBERTa [17]、T5 [18]、BART [19]、トランスフォーマー、および ViT はテキスト エンコーダーをサポートします。画像エンコーダには、Faster-RCNN、ResNet [20]、Visual Dictionary [21]、Swin トランスフォーマ [22]、EfficientNet [23]、Linear Projection など、多くの選択肢があります。

事前トレーニングされたモデルを追加する

研究者らは、事前トレーニングされたモデルをクロスモーダル検索システムに追加して、クロスモーダル表現間の相互作用をモデル化しました。研究によると、単語間の関係とは異なり、画像内の視覚概念はクロスモーダル表現にとって重要かつ複雑です。BERT モデルを画像とテキストに拡張することにより、ViLBERT [24] は領域の独立したシーケンスをエンコードするために Faster-RCNN を使用して、領域ベースのオブジェクト検出をターゲットとしています。LXMERT [25] は、ViLBERT と同様に、領域を一連の関心領域 (ROI) 特徴にエンコードします。地域特徴に加えて、SOHO [26]、CLIP-ViL [27]、pixel-BERT [28] などのピクセルレベルのグリッド特徴もエンコードされます。彼らは時間のかかる Faster-RCNN をあきらめました。それどころか、グリッド特徴を抽出するために ResNet をサポートする研究もあります。エリアおよびグリッドの特徴に加えて、パッチ投影も画像の特徴を表現するために多くのシナリオで使用されます。ALBEF [29] は、ViT エンコーダを直接使用してプラークの特徴を処理し、複数の平坦化された 2 次元プラークを生成します。OSCAR [30] と ERNIE-ViL [31] は、意味論的な調整を容易にするための追加情報を開発しています。OSCAR は画像から領域ラベルをアンカーとして追加し、それらを暗黙的にテキスト単語に位置合わせします。対照的に、ERNIE-ViL はシーン グラフをモデル化し、属性と関係を持つオブジェクトに焦点を当てます。

機能の調整

画像とテキストを同じセマンティクスに揃えるために、画像と文の両方の検索について広範な研究が行われてきました [32、33、34、35、36、37]。クロスモーダルレジストレーション研究の初期に、参考文献 [32] は、CNN と Bi-RNN を使用して画像と領域の記述を構築するモデルを開発しました。アライメント モデルは、画像領域の CNN と文の双方向 RNN を組み合わせます。構造化ターゲットは、マルチモーダル エンベディングを利用して 2 つのモダリティを調整します。Carvalho et al. [33] は、検索機能とクラスガイド機能の両方を活用し、共有潜在空間における共同目的関数と分類損失を定式化しました。二重損失とは、まさに検索損失とクラス損失です。ダブルトリプルスキームは、クロスモーダル研究に損失関数の新しいアイデアをもたらします。一部の研究者は、異なるモダリティ間の相互作用のための動的ルーター方式を提案しました [34]。彼らは、きめの細かいフラグメントを動的に整列させるための 4 つのユニットのフレームワークを設計しました。ViLT [35] は、マッチングに線形投影を利用し、位置合わせされた事前トレーニング済みモデルに基づく改善を実証し、その結果埋め込まれた画像とキャプションが得られます。OSCAR と ERNIE-ViL のハイライトに触発された ROSITA [36] は、クロスモーダルおよびイントラモーダルの知識を統合することでアライメント効果を強化します。さらに、別の研究 [37] では、テキストと画像を位置合わせするためにドット積を利用する、視覚言語タスク用のインスタンス指向アーキテクチャを提供しています。

作業過程

クロスモーダル検索フレームワークには、主に、表現、変換、位置合わせ、融合、共同学習などのきめ細かいコンポーネントが含まれています。このセクションでは、さまざまな重要な段階を含む具体的な設計について紹介します。図 2 は、この分野の典型的なシステムの包括的なアーキテクチャを示しています。フルサイクル ワークフローでは、これらのモジュールは、前処理、エンコーダ表現、クロスモーダル アテンション、デコーダ メカニズムを含む次のメソッドに変換されます。これらの段階により、さまざまなモダリティからの情報の効率的な抽出と検索が容易になります。
ここに画像の説明を挿入します
図 2: クロスモーダル検索プロセスの概要

前処理

入力データを前処理してノイズを低減し、後続の処理に備えます。この段階では、画像/ビデオおよびテキスト フレーズ入力を視覚的およびテキストのマークアップに変換します。さらに、さまざまなモード間に違いがあるため、前処理によって区別されます。標準のトークン化に加えて、次のモジュールもあります。

エンコーダ表現

第 2 段階では、特徴抽出手法を使用して各モダリティを独立して表現します。エンコーダ ステージは、ビジュアル トークンとテキスト トークンから入力を収集し、セマンティック コンテンツをエンコードするための中間状態を生成します。埋め込み後、エンコーダーを構築する最も一般的な方法は、LSTM、畳み込み、その他の技術を使用してトークンのシーケンスをエンコードすることです。テキスト表現に関しては、単語の埋め込み、位置の埋め込み、およびセグメントの埋め込みがすべて BERT エンコーダーに入力されます。さらに、画像表現などの一連の機能もテキスト表現に合わせています。この場合、パッチ、グリッド、および領域の特徴が視覚領域から抽出されます。

視覚言語の事前トレーニング モデルは、特徴抽出と特徴融合を事前トレーニング タスクと組み合わせます。これらの部分は、テキストと画像を定量化し、それらを学習用のモデルに供給すること、インタラクションを表現するという課題に対処すること、モデルが位置合わせ情報を学習できるようにするための事前トレーニング タスクを構築することなどの課題に対処します。大規模データの事前トレーニングにより、さまざまなモダリティ間の意味的な関連性を学習できるため、高価な人間によるアノテーションの取得が困難であるという問題が解決されます。ペアになったデータから情報を集約するための、融合エンコーダーとデュアル エンコーダーに関して 2 つの主要な事前トレーニング オプションがあります。シングル エンコーダは主に BERT 入力を改善し、デュアル エンコーダは主に協調/クロス BERT を実行します。私たちは 2018 年から 2022 年までの多くの最新の出版物を調査し、事前学習済みモデルの扱い方に基づいてシングルストリーム モデルとデュアルストリーム モデルに分類しました。表 1 は、フューズド エンコーダーとデュアル エンコーダーの事前トレーニング済みモデルのロードマップを示しています。研究によると、シングルフロー設計は両方のモダリティに直接注目し、モダリティ内の相互作用を無視します。したがって、一部の研究者は、クロスモーダル インタラクションを説明するために 2 ストリーム アーキテクチャを採用することを主張しています。
ここに画像の説明を挿入します
表 1: 融合エンコーダーとデュアル エンコーダーを使用した事前トレーニング済みモデルのロードマップ。

クロスモーダルな注意

マルチモーダル相互作用モデリングを通じて前述の表現問題を解決するために多くの研究が行われてきました。マルチモーダル表現に基づいて、相関モデリングを使用して一般的な表現を学習します。クロスモーダルインタラクションは、2 つの異なるモダリティ間の他のインタラクションを促進し、それによって視覚言語タスクを改善します。注意を上下注意、下上下注意、循環注意、交差注意、共同注意、蒸留注意、網状記憶注意、X線形注意に分類します。注意メカニズムが異なれば、クロスモーダル情報融合の程度も異なります。ボトムアップの注意法 [51] は、きめの細かい分析やマルチレベルの推論を通じて推論を実現するために広く使用されています。ボトムアップ プロセスでは、それぞれが独自の特徴ベクトルを持つ画像領域が示されますが、トップダウン メカニズムでは特徴の重みが設定されます。[52] の研究によると、画像テキスト検索はリカレント アテンション メモリを使用して、繰り返しの調整段階を通じて視覚とテキストの間の反復操作と対応付けを実行します。この研究は、注意のメカニズムを調査することにより、セグメントの対応についての理解を深めます。この理解は複雑なセマンティクスと互換性があり、画像とテキストの間の複雑な関係を徐々に活用することを示唆しています。クロスアテンションは、[14] でエンコーダとデコーダの情報を伝えます。トランスフォーマー追跡 [53] (TransT) は、意味情報アルゴリズムの局所最適化に陥ることを回避します。高精度の追跡システムを構築するという問題を解決するために、TransT は独自の注意ベースの特徴融合ネットワークを導入しています。アテンション メカニズムは長距離のフィーチャ接続を作成し、トラッカーが大量のセマンティック情報を抽出しながら重要な情報に焦点を当てることができるようにします。自己注意と誘導された注意の組み合わせは、相乗的注意と呼ばれます。Distilled Notice フレームワーク [54] は、深いインタラクティブ モジュールにより、標準の融合エンコーダよりも高速な推論を可能にするデュアル エンコーダ モデルです。この研究では、デュアル エンコーダのトレーニングは、アノテーション内の融合エンコーダ メンター情報によってガイドされ、提案された知識の蒸留には、事前トレーニング蒸留と微調整蒸留の 2 段階が含まれており、最終的に他の方法よりも優れています。グリッド メモリを使用すると、エンコーダが複数のレベルで動作し、低レベルと高レベルの関係を同時に学習できるようになります。Pan et al. [55] によって開発された X-Linear Attendance [55] は、高次の特徴相互作用を可能にし、一方、デュアルライン フュージョン技術は、空間およびチャネルのデュアルライン アテンション分布を使用して 2 次を捕捉することにより、クロスリニア アテンションを向上させます。入力タイプ間の相互作用 モーダル情報のコンテンツ解釈 スタックドクロスアテンションは、視覚言語の特徴を最大限に研究するために多くの研究者によって広く使用されています。

きめ細かい深層学習手法

詳細な深層学習手法は、高度な特徴抽出、特徴表現の学習、およびさまざまなモダリティ間の高次元の相関関係の確立に焦点を当てています。このセクションでは、クロスモーダル検索プロセスで使用されるフルサイクルのアプローチを批判的にレビューおよび分析し、その有効性とさらなる改善の可能性を強調します。

特徴エンジニアリング

図 3 に示すように、特徴抽出を粒度に応じてグローバル特徴とローカル特徴に分けます。その後の研究では、VSE++ [61]、ACMR [62]、DSPE [63] などのグローバル機能が活用されました。対照的に、局所特徴は、DAN [64]、SCAN [56]、SCO [65]、PVSE [66] などの研究で使用されます。
ここに画像の説明を挿入します
図 3. VL 特徴抽出の分類図

さらに、特徴抽出をビジュアル埋め込みとテキスト埋め込みの 2 つのタイプに分類します。これらは、多くのクロスモーダル検索システムの重要なコンポーネントです。視覚的な埋め込みは検索効率に大きな影響を与え、現在の研究は広範かつ詳細に行われています。テキスト埋め込み手法では、特徴を抽出するために BERT のような構造がよく使用されます。テキスト埋め込みとは異なり、ビジュアル埋め込みでは、領域、グリッド、パッチ レベルなど、さまざまなレベルの抽出が使用されます。Faster RCNN は、物体検出に基づく領域特徴抽出に広く使用されている 2 次物体検出器です。たとえば、ViLBERT と LXMBERT は共同注意を使用してマルチモーダル情報を結合します。VisualBERT、VL-Bert、および UNITER はマルチモーダル情報融合にマージ アテンションを使用しますが、OSCAR と VinVL では追加の画像ラベルが必要です。それでも、このアプローチには重大な欠点があります。トレーニングによりオブジェクトの検出がフリーズする場合があります。視覚的な概念認識が制限され、文脈情報が失われます。さらに、多くのオブジェクト間の接続を記述することはできません。上記の制限はすべて、領域抽出の特性に基づいています。CNN ベースのテクノロジーは、視覚的特徴を抽出するためのもう 1 つの一般的な方法です。Pixel Bert と CLIP-ViL の一般的な CNN ネットワークはグリッド特徴を取得するために使用され、トランスフォーマーはテキストを取得するために使用されます。SOHO は、学習可能な視覚語彙を利用してメッシュの特徴を離散化し、それをマルチモーダル モジュールに供給します。一貫性のないオプティマイザー (つまり、SGD を使用する CNN や AdamW を使用するトランスフォーマー) と比較すると、OD ベースの方法よりもパフォーマンスが悪くなります。パッチ投影により、画像をスライスして特徴を抽出できます。ALBEF などの一般的なアプローチでは、ViT を直接使用します。

クロスモーダルインタラクション

特徴表現と比較して、画像とテキストのマッチング戦略は、意味論的な関係を研究することで一貫性を向上させます。クロスモーダル相互作用は、異なるモーダル表現間の接続を確立する上で重要な役割を果たします。この相互作用には、各ピクセル、領域、またはパッチを特定のラベルと照合することが含まれます。クロスモーダル インタラクションには 3 つの主な方法があります。つまり、視覚言語の調整、視覚言語の再構築、および意味論的な関連付けに基づく視覚言語の埋め込みです。

視覚言語の調整視覚言語の調整は、デュアル エンコーダー モデルで大規模な対比学習を活用することで、画像とテキストのペアの比較可能性を最大化することを目的としています。再共有戦略を採用して、2 つのネットワーク ブランチ間のクロスモーダル異質性の問題を解決します。さらに、モーダル内の類似性は、正確なモダリティからのサンプルを使用して、接続された 2 つの CNN モデルを通じて学習されます。従来の研究では、クロスモーダル検索の参加モードは主に人工的な専門家の知識と経験のインプットに依存していました。しかし、研究 [67] では、クロスモーダル検索モデリングのための動的相互作用メカニズム、すなわち DIME が提案されています。DIME は、サンプルの複雑さに応じてさまざまな対話方法を使用します。このモデルには、ローカル変更ユニット、イントラモーダル推論ユニット、グローバル ローカル ガイダンス ユニット、および変更ユニットが含まれます。ViLT [35] は、パッチ投影と画像とテキスト情報のパッチレベルのマッチングを通じて視覚的な埋め込み機能を組み込んだ新しい方法です。表現力が限られた時間のかかるオブジェクト認識や畳み込み技術を回避することで、クロスモーダル検索のパフォーマンスを効果的に向上させることができます。同様に、[36] の研究では、ROSITA は、モーダル内コンテキストの干渉を抑制し、潜在的なノイズ干渉を排除することで、きめの細かい意味登録を強化する事前トレーニング タスクを採用しています。これらの進歩は、従来のクロスモーダル検索方法の限界を克服する上でのこれらの技術の有効性を示しています。ROSITA モデルは、OSCAR と ERNIE-ViL からインスピレーションを得ています。さらに、最近の研究では、画像とキャプションを同じ部分空間に埋め込み、画像キャプションの検索を強化する新しい位置合わせモデル [68] を提案しました。ALBEF モデル [29] は、融合前登録方法を採用し、トランスベースの ViT を利用して、CNN を使用せずに画像特徴を収集します。ViT モデルは BERT を使用してテキストを処理し、最初の 6 つのレイヤーを使用してシングルモーダル テキストを処理し、最後の 6 つのレイヤーを使用してマルチモーダル テキストを処理します。モデルはまずテキストに対して自己注意を実行し、次に相互注意と視覚的特徴の融合を実行します。さらに、いくつかの研究ではインスタンスのアライメントを広範囲に調査しています。たとえば、X-DETR [37] は、インスタンスレベルのアライメントのための多用途アーキテクチャを導入し、視覚言語タスクの場合、高価なジョイントモーダルトランスフォーマーは冗長である一方、弱い注釈が付けられたデータは有益である可能性があることを発見しました。X-DETR は、ドット積を使用してグラフィックスとテキストを位置合わせします。UVLP [69] 2 つの重要な基準に基づいて画像とテキストの位置合わせと画像全体のテキストの位置合わせを組み合わせることで、並列データなしで優れた教師なし視覚言語の事前トレーニングを達成できることが実証されています。著者らは、弱い教師付きのペアのコーパスと粒状のアライメント事前トレーニング タスクの構築を提案しています。彼らの教師なし事前トレーニング戦略は、位置がずれているテキストや画像に対する堅牢な結合表現を構築することを目的としており、教師なし設定でさまざまなタスクにわたって素晴らしい結果を示します。上記の位置合わせ方法には、最適な結果を達成するために重要なデータセットのサイズ、品質、モデルの粒度に関して特定の基準があります。これらの技術は、クロスモーダル検索におけるきめ細かいマッチングの重要性を強調しています。

視覚言語の再構築視覚的言語の調整とは異なり、再構成ではグローバルな情報により多くの注意が払われます。DSPE [63] は、画像テキストの埋め込みを学習することでマッチング問題を解決します。損失関数の最適化は、高次元空間における特徴の分布を改善し、それによってより効果的なクラスタリング効果を生み出すことを目的としています。MASLN [70] は、クラスがインスタンスを横断できないという問題の解決策を提案しています。提案されたソリューションは、再構築サブネットワークを使用して、条件付きオートエンコーダーを使用して各モダリティ データセットを再構築することで構成されます。サブネットワークは、配布の違いを最小限に抑えながら、入力から出力まで情報を活用します。さらに、MASLN では、意味表現を開発するために敵対的サブネットワークも導入されています。参考研究 [71] では、埋め込みと類似性の計算のためのニューラル ネットワークを調査しました。埋め込みネットワークは、新しい近傍制約と最大周辺ランキング誤差を使用して潜在埋め込み空間を学習します。通常の 3 回サンプリングと比較して、著者らは近傍サンプリングを改良して、非常に小さなバッチを生成しました。類似性ネットワークは要素ごとの積を使用し、類似性スコアを直接予測するために回帰損失でトレーニングされます。広範な実験により、ネットワークがフレーズを正確に特定できることが示されました。最近の研究では、視覚的およびテキストの検索問題は、テキストおよび視覚的変換タスクとして再定式化されています [72]。この課題を解決するために、著者らはサイクル一貫性のあるネットワークを提案します。別の関連研究 [73] では、シーン グラフ構造を追加することで注意メカニズムが強化されました。具体的には、文再構成ネットワークは、検出ネットワークによって抽出されたオブジェクト、属性、および関係からシーン グラフを作成します。次に、グラフ畳み込みネットワークは、生成されたグラフを処理して単語ベクトルを生成します。単語ベクトルは、エンコーダー/デコーダー モデルによって共有される事前トレーニングされた辞書に入力されます。このアプローチにより、生成されたコーパス内の視覚的な説明がより自然で人間らしくなります。
復元研究は、埋め込み空間の制限を克服します。再構成方法ではディープ オートエンコーダを採用して異質性を最小限に抑え、意味の識別を向上させます。さらに、クロスモーダル登録と比較して、クロスモーダル再構成はデータセットに対する要件が低く、アノテーションコストも低いため、中小規模のデータセットに適しています。

ビジュアル言語の埋め込み結合埋め込みは、グローバル情報とローカル情報を意味論的特徴埋め込みに統合し、それによって優れた特徴識別能力を開発します。DSCMR に関する研究 [74] は、意味上の区別とモダリティの不変性を維持するための教師あり学習構造を提案しました。重み共有制限のある 2 つのサブネットワークを作成します。著者らは、ラベルおよび共通表現空間における識別損失を軽減し、学習された共通表現の重要性を高めています。DSCMR の学習戦略は、ペアになったラベルと分類情報を完全に統合し、異種データの典型的な表現を首尾よく学習できます。PCME [75] は、画像と多数のキャプション、またはキャプションと複数の画像を照合します。著者らは、ほとんどの既存モデルの決定論的関数では 1 対多の対応を捉えるには不十分であると主張しています。共同表現空間 PCME パラダイムは、1 対多の関係をマップします。確率的マッピングを使用するため、多対多のマッチングを正確に定式化する必要はありません。不確実性の推定により、PCME は取得の困難さと失敗の確率、つまり補助的な解釈可能性の側面を評価できるようになります。確率モデルは、集合関係も有益であるより成熟した埋め込み空間から学習しますが、厳密空間では類似関係のみが有益です。確率的マッピングは、高精度検索システムを補完します。ViSTA [76] は、パッチとシーンの埋め込みを直接エンコードすることによって集合的な視覚表現を学習するためのトランスフォーマー フレームワークを提案しています。画像ペアを埋め込み、それらを共有スペースに結合するための新しい集約タグを提案します。双方向対比学習損失は、シーン テキストのモーダル損失の問題を解決します。
この共同埋め込み戦略は、高レベルのセマンティクスに焦点を当てています。豊富なセマンティック関連付けメソッドにより、多義性インスタンスを正常に解決できます。さらに、ビジュアル言語の埋め込みにより、画像とテキストのマッチングの精度とスケーラビリティが向上します。さらに、埋め込みは強力な検索パフォーマンスも備えています。

トレーニング前のタスク

クロスモーダル検索では、入力は構造化されておらず、ベクトル形式に変換されます。以前の研究から判断すると、データ駆動型の事前トレーニングされたモデルはそこから学習することができ、事前トレーニング タスクの結果に大きく影響されます。クロスモーダル検索におけるトレーニング前のタスクを分類して要約し、テキストベースのタスク、ビジョンベースのタスク、クロスモーダルタスクに分けます。表 2 に、トレーニング前のタスクの用語集を示します。普遍的な表現にとって重要な、事前トレーニング タスクを活用してモデルをトレーニングする方法を示します。事前トレーニング タスクの主な目標には、シーケンスの完了、パターン マッチング、時間的/コンテキスト的特徴の提供が含まれます。
ここに画像の説明を挿入します
表 2. トレーニング前タスクの語彙リスト

統一されたビジュアル言語アーキテクチャ

このセクションでは、視覚情報と言語情報を学習するために重要な統合アーキテクチャを研究する方法について説明します。最近の参考文献では、ビジュアル言語 (VL) アーキテクチャを 2 つのカテゴリ (一般表現と統合生成モデル) にまとめています。ユニバーサル表現は、複数のパターンを表現できる単一の埋め込み空間を学習することを目的としています。統合生成モデルは、単一のモデルを使用して複数のモダリティにわたるコンテンツ表現を構築するクロスモーダル検索の形式です。どちらの方法にも長所と短所があり、どちらの方法を選択するかは特定の要件によって異なります。まず、このセクションでは両方のアーキテクチャの概要を説明します。次に、両方の長所と短所を包括的に評価し、長所と短所を強調します。
普遍的な記法普遍的な表現は、クロスモーダル検索においてモダリティ間の類似性を効率的に比較するために重要です。この目標を達成するために、[74] によって提案された DSCMR モデルは、複数のモダリティからのサンプルの直接比較を可能にする共通の表現空間を提供します。このフレームワークは、教師ありクロスモーダル学習方法を採用して、異なるモダリティ間の接続を確立し、意味上の区別とモダリティの不変性を維持しながら共通の文を首尾よく学習します。クロスモーダル相関を検出するために、モデルの最後の層には重み共有制約を持つ 2 つのサブネットワークが含まれています。モダリティ不変損失が目的関数に組み込まれて差異が排除され、線形分類器が共通の表現空間でデータを分類します。これらの特性により、DSCMR モデルは有望なクロスモーダル検索方法となります。SDML [77] で提案されている手法は、グループ間のギャップを最小限に抑えながら、事前に共有スペースを定義します。SDML は、無制限のマルチモーダル入力をサポートする最初のモデルです。さまざまなモダリティに合わせて特定のネットワークをトレーニングするために、入力は事前定義された部分空間に投影されます。このアプローチでは、すべてのモダリティを同時に学習することなく、より多くのモダリティをトレーニングできます。UNITER は、すべての VL タスクに対して普遍的な視覚言語表現を学習するかどうかを決定する問題に対処することを目的としています。大規模な事前トレーニング プロセスにより、さまざまな下流 VL タスクとマルチモーダル ジョイント埋め込みを処理できるようになります。
共同表現に加えて、ユニバーサル エンコーダも広く研究されています。たとえば、Unicoder-VL は、ユニバーサルなビジュアルおよび言語エンコーダーを開発します。Unicoder-VL は、MLM、MOC、VLM を含む 3 つの事前トレーニング タスクを採用しています。これらのタスクは連携して、入力トークンのコンテキストを認識した表現を作成します。また、画像とテキストに関連性​​があるかどうかを予測し、事前トレーニングを併用せずに画像とテキストを検索するための他のアルゴリズムを実行します。これは、転移学習がクロスモーダル タスクでも優れた結果を生み出すことができることを示しています。GPV [78] は、タスクに依存しない一般的なシステムを提供します。視覚的な特徴とテキストによる説明を受け取ります。さらに、境界ボックス、信頼水準、および出力情報を生成します。システムは、ネットワーク構造に影響を与えることなく、広範囲にわたるあらゆるタスクを学習して実行できます。GPV は、光学式エンコーダー、テキスト エンコーダー、および協調的注意モジュールで構成されます。CNN バックボーンと DETR トランスフォーマー エンコーダー/デコーダーは、オブジェクト検出器の作成に使用されます。これは、視覚的および言語的エンコーダーからのクロスコンテキスト表現をエンコードできる ViLBERT にも言及します。すべての言語でタスク固有のデータを収集して注釈を付けることは現実的ではないため、言語を超えて普遍的なモデルを構築するためのフレームワークが緊急に必要です。M3P [79] は、共通の表現を取得するために、それらを一貫したフレームワークに統合する、多言語およびマルチモーダルの事前トレーニング パラダイムを提供します。これは、多言語テキストビデオデータの監視が不十分であるという問題を利用しており、大規模な言語モデリングとマルチモーダル事前トレーニングにおける最近の成果に触発されています。

統合された生成モデル判別モデルと生成モデルに分けられます。いくつかの研究で、モデル開発の観点から一般的なフレームワークが調査されています。クロスモーダル検索の発展により、単一のタスク フレームワークでは複数のタスクのニーズを満たすことができなくなりました。したがって、研究 [80] では、テキスト生成モデルに基づいた統一フレームワークを検討しています。このフレームワークは、マルチモーダルタスク学習と同時に互換性があります。この方法は条件付きテキスト生成、つまり画像とテキストからテキストラベルを生成し、タスク間の知識を共有できます。さらに、UNICORN [81] はテキストと境界ボックス形式を接続し、統一された視覚言語モデリングの実現を目指しています。このモデル フレームワークは、テキスト生成とバウンディング ボックス予測を組み合わせて、さまざまな問題に対して異なるヘッドを動的に設計します。Pix2Seq モデルは、UNICORN に影響を与えた一般的な物体検出フレームワークです。離散的なアプローチを使用して、境界ボックスの位置を離散的なトークン シーケンスに変換します。敵対的生成ネットワークは、基礎となるデータ分布を学習することで画像合成を改善します。しかし、画像生成タスクを使用した他の視覚タスクに関する研究はほとんどありません。VILLA は、大規模な敵対的トレーニングを統合してモデルの一般化を改善する最初の手法です。これは、事前トレーニングされたモデルを活用してモデルの一般化機能を向上させる包括的なフレームワークです。言い換えれば、VILLA は事前トレーニング段階と微調整段階で敵対的学習を採用しています。深層学習における自己教師あり学習手法の 1 分野として、統合生成モデルはデータ生成プロセスの定義に重点を置いています。
表 3 は、VL アーキテクチャの長所と短所をまとめたものです。ユニバーサル表現には、複数のタスクの計算リソースとトレーニング時間を削減することによる精度、汎化機能、効率の向上など、いくつかの利点があります。しかし、複雑さの増大、モダリティ固有の情報の損失の可能性、視覚と言語間の複雑な相互作用による解釈可能性の制限などの課題にも直面しています。一方、統合生成モデルには、あるモダリティの入力に基づいて別のモダリティの出力を生成する機能があるため、クロスモーダル検索のパフォーマンスが向上します。ただし、これらのモデルは柔軟性が限られており、トレーニング中に複雑さが増し、過適合のリスクが高くなります。これは主に、モデルが複数のモダリティの表現を同時に生成するためであり、過適合を防ぐために多様なトレーニング データが必要になる可能性があります。
ここに画像の説明を挿入します
表 3. VL アーキテクチャの長所と短所

損失関数

損失関数は、モデルの期待される出力と期待される出力を比較することによってモデルのパフォーマンスを評価し、最適化の方向を決定します。特に両者の差が大きい場合、損失額は大きくなります。逆に、この 2 つが大きく異なるかほぼ等しい場合、損失値は非常に小さくなります。したがって、データセットでモデルをトレーニングする場合、モデルに正しくペナルティを与えるために適切な損失関数が必要です。このセクションでは、主な損失関数とパフォーマンス解析方法を定義します。図 4 に示すように、クロスモーダル タスクにおける損失関数の革新的なサンプルを要約します。
ここに画像の説明を挿入します
図 4. 損失関数の革新的なサンプル

評価指標

クロスモーダル検索の有効性を証明するためのさまざまな評価指標があります。適切な指標を使用して、特定のシナリオにおける方法の有効性を評価します。このセクションでは、主な評価指標: 精度 (P)、再現率 (Recall@K)、PR 曲線 (PR)、平均精度 (mAP)、F スコア (FS)、および正規化割引累積ゲイン (NDCG) )。

ベンチマーク データセット

ベンチマーク データセットは、クロスモーダル検索のパフォーマンスを評価するためによく使用されます。表 4 は、データセットの名前、画像とテキストの数、説明を含む、古典的なクロスモーダル データセットの分析と解釈を示しています。
ここに画像の説明を挿入します
表 4. クロスモーダル検索を容易にする代表的なデータセットの概要

結論は

深層学習の研究は、クロスモーダル検索の開発を大きく前進させ、洗練されたソリューションを提供し、大幅な進歩を推進しました。この論文では、多数のよく知られた研究の包括的な概要と分析を提供し、クロスモーダル検索メカニズムの分類を提案します。また、表現学習の観点から将来の研究を導くための課題や未解決の質問についても説明します。フルサイクル アプローチの全体的な理解を提供するために、前処理、特徴エンジニアリング、エンコード、クロスモーダル インタラクション、デコード、モデルの最適化、評価メトリクスを取り上げます。さらに、一次研究の明確性を高めるために、表、図、方程式が使用されました。
多大な努力にもかかわらず、クロスモーダル検索で最適な結果と精度を達成することは依然として課題です。主な障害には、特徴表現、複雑なセマンティック処理、視覚的言語の調整、統一アーキテクチャ、モデルの最適化、パフォーマンス評価指標、およびより包括的なデータセットの開発が含まれます

おすすめ

転載: blog.csdn.net/zag666/article/details/132253815