テキストと視覚的な手がかりを共同推論するためのマルチモーダル文脈推論アプローチ | ACL 2023

青い文字をクリックしてください

f860288c5722c7f91ef4c93faaaaf70b.jpeg

私たちに従ってください

AI TIME は、あらゆる AI 愛好家の参加を歓迎します。

タイトル

テキストと視覚的手がかりを共同推論するためのマルチモーダル文脈推論方法

簡単な紹介

テキストと視覚的な手がかりを組み合わせた条件付き推論タスクは、複雑でマルチモーダルな推論タスクです。テキスト キューは、視覚的なコンテンツを補完し、正しい選択肢を推論するために重要な先験的な仮説または外部知識を提供します。事前トレーニング済みの視覚言語モデル (VLM) を使用する以前の方法は、優れたパフォーマンスを達成しましたが、これらの方法は、マルチモーダル コンテキスト推論機能、特にコンテキスト推論機能が弱いテキスト モーダル情報において欠点があります。この問題を解決するために、我々は ModCR という名前のマルチモーダルコンテキスト推論手法を提案します。クロスモーダル意味論的調整を通じて推論を実行する VLM と比較して、ModCR は、指定されたテキスト抽象意味論と客観的な画像情報をプレコンテキスト情報として扱い、これが文脈推論のために言語モデルに入力されます。自然言語処理で最近使用されている視覚アシスタント言語モデルとは異なり、ModCR は、事前トレーニングされた言語モデルに画像とテキストの位置合わせプレフィックス (位置合わせプレフィックス埋め込み) を導入することで、言語と視覚の関係をうまく統合しています。情報。この場合の言語モデルは、テキストと視覚的な手がかりを組み合わせたマルチモーダル推論シナリオに非常に適しています。2 つの対応するデータセットに対して広範な実験を行ったところ、実験結果は以前のモデルと比較して推論パフォーマンスが大幅に向上したことを示しています。

論文アドレス: https://arxiv.org/abs/2305.04530

コードアドレス: https://github.com/YunxinLi/Multimodal-Context-Reasoning

01

背景

クロスモーダル推論タスクは、自然言語処理とコンピューター ビジョンの分野で研究のホットスポットであり、VQA や視覚的含意を含むほとんどのクロスモーダル推論タスクは、主に画像情報に依存する視覚的推論シナリオに焦点を当てています。これらのタスクでは、指定されたテキストは画像との関連性が高く、外部の補足情報が不足しています。別のより現実的なクロスモーダル推論シナリオでは、下の図の前提に示されているように、テキスト モダリティは通常、ソース画像に関する補完的な情報またはアプリオリな仮説を提供します。私たちの仕事は、テキストと視覚的な手がかりを組み合わせた条件付き推論タスクに焦点を当てており、特定のタスク形式は、与えられたテキストの前提と画像に基づいて候補セットから正しい選択肢を選択することです。

00b15428ba77c540fea01acb03575b93.png

従来の方法は通常、テキスト前提、画像、および回答候補の連結シーケンスを VLM に入力し、タスク固有の分類子を使用して、VLM から取得した結合表現に基づいて結果を推測します。これらのタスクは、主に視覚的な手がかりに基づく推論タスクではうまく機能しますが、大きな欠点があります。推論プロセスでは、文脈上の推論のために、与えられた前提テキストの抽象的な意味情報が完全には活用されません。これは、VLM は主に、事前トレーニング プロセス中にさまざまなモーダル表現を統一空間にマッピングし、特定の言語と視覚的なマルチモーダル セマンティクスに基づくコンテキスト学習を無視するためです。ただし、BERT や Roberta などの事前トレーニング済み言語モデル (PLM) には強力なコンテキスト学習機能があり、与えられた抽象的なテキスト情報に基づいて次の意図を推測できます。

我々は、VLM と PLM の利点を最大限に活用する、ModCR という名前のシンプルで効果的なマルチモーダル コンテキスト推論手法を提案します。具体的には、ModCR は、ビジュアル マッピング ネットワークを備えた事前トレーニング済みビジュアル エンコーダーを使用して画像表現を取得し、学習可能なビジュアル プレフィックスに変換します。視覚的な接頭辞とテキストの前提は 2 種類の先行情報とみなされ、正解を推測するために言語モデルに入力されます。言語モデルにおける視覚的なプレフィックスとテキストの間のさまざまなモーダル情報の表現セマンティクスのギャップを考慮して、画像とテキストの間のマルチビューで調整された表現を取得するために、多粒度の視覚言語セマンティックアライナを利用することを提案します。その後、主要なアライメント情報を取得し、それを学習可能なクロスモーダル アライメント プレフィックスに変換するように、アライメント マッピング ネットワークが設計されます。最後に、これら 2 つの接頭辞、前提と答えを言語モデルに入力し、命令テンプレートのスロット充填を通じてクロスモーダル推論を実行します。

02

手法の紹介

ModCR モデルでは、最初にビジュアル エンコーダを使用して画像表現を取得し、次にそれをマッピング ネットワークを通じてビジュアル プレフィックスに投影して、客観的な環境情報を提供します。言語モデルが文脈学習を実行するときの接頭辞とテキストの間の意味論的なギャップを考慮して、多粒度の視覚言語意味論的調整子に基づいてマッピング ネットワークを設計します。最後に、2 種類の接頭辞、前提テキスト、および回答を命令学習を通じて言語モデルに入力します。

b01362bdb56f3f33a1f51983f5c8bbc9.png

基本モデル:ビジュアル エンコーダーおよび多粒度ビジュアル言語セマンティック アライナーの基本フレームワークとして、事前トレーニング済みのシングル ストリーム双方向エンコーダー Oscar を使用します。このとき、画像の特徴はまず Faster-RCNN によって抽出され、次にビジュアル エンコーダーとアライナーに入力されます。オリジナルの Oscar モデルは主にテキストと画像の間のトークンレベルの位置合わせを実装しています。同時に、Flickr30k Entities で Oscar ベースのブロック対応エンコーダーを事前トレーニングし、テキストと画像の間のフレーズレベルの位置合わせを実現しました。

ビジュアル マッピング ネットワーク VMN.ビジュアル マッピング ネットワークには、ReLU 活性化関数を備えた 2 層パーセプトロンを採用します。大規模な画像とテキストのペアで事前にトレーニングし、言語モデルの単語埋め込みと同じ空間分布で視覚的特徴を視覚的な接頭辞に投影できます。

アライメント マッピング ネットワーク AWN:アライメント マッピング ネットワークの場合、最初に 2 層の Transformer を適用して と をキャプチャします。ここで と はそれぞれ、応答テキストの i 番目のトークンのトークン レベルとフレーズ レベルのアライメント表現を表します。1層目の計算式は以下の通りです。

7d3426e3467e6bde86cb03f57f62cfe6.png

ここで、 と は学習可能なパラメータであり、クロスアテンションの計算を表します。同じ 2 層計算を実行した後、キー アライメント表現を取得します。これを、ビジュアル マッピング ネットワークと同様の計算プロセスを通じてクロスモーダル アライメント プレフィックスに投影します。

マルチモーダルコンテキスト推論器.  2 種類のプレフィックスを取得した後, クロスモーダル推論のためにそれらをマルチモーダルコンテキスト推論器に入力しました. コンテキスト推論器として事前に訓練された言語モデル RoBERTa を選択し, コンテキストを融合するために命令学習法も使用しました.エンコードされた情報。具体的には、図に示すように、ビジュアル プレフィックス、アライメント プレフィックス、前提条件、および回答候補を事前定義された指示テンプレートに入力します。このようにして、事前トレーニングされた言語モデルの文脈学習機能を活用して、マルチモーダル推論問題を解決できます。RoBERTA の最上位 cls 隠れ層出力に ReLU 関数を用いた 2 層パーセプトロンを適用することで、各回答候補の推論結果を取得します。

330d18cdfe004807d4b6f54244a4a33b.png

03

実験結果

以下のグラフに示すように、PMR データセットでのモデルの実験結果は、ModCR が他のベンチマーク モデルよりも優れたパフォーマンスを示していることを示しています。下の右の図は、PMR データセットに対する ModCR モデルのより詳細な評価であり、ModCR モデルは推論に抽象セマンティクスを使用する点で優れていることがわかります。

ff48dfb1ad9c08f5e0eca457f9d145e4.png

321c39506b67130e335d009a57727eb6.png

以下の図は、VCR データセットに対する ModCR モデルの実験結果を示しており、ModCR モデルは他のベンチマーク モデルと比較して同様に優れたパフォーマンスを示しています。実験結果は、外部知識の利用という点では、言語モデルの入力シーケンスに知識を直接つなぎ合わせるよりも ModCR の方が優れていることを示しています。

200e2a2bebd3aee137362e9e62b1f62b.png

同時に、ModCR の有効性を検証するために、PMR データセットを選択してアブレーション実験を実施しました。下の左の図から、ModCR LA=0 バージョンと ModCR LA=1 バージョンの実験結果を比較することで、アライメント マッピング ネットワークの有効性を証明できます。異なる長さの視覚的なプレフィックスとアライメント プレフィックスを使用して ModCR モデルを比較することにより、 ModCR モデルは、両方のプレフィックス長が 5 の場合に最高のパフォーマンスを発揮することがわかります。下の右の図では、ModCR モデルに対するさまざまなトレーニング戦略の影響を比較しています。2 つのデータセットに対する「凍結 VLM」と「微調整された VLM」の実験結果を比較すると、微調整された VLM が ModCR モデルのパフォーマンスを向上できることがわかります。

b9b86fba57c665940982bedbc2c6ed27.png

c328497c41c9021e0708f4a5b384a7ff.png

以下の図では、モデルのパフォーマンスを示す 2 つの例を示しています。図からわかるように、事前トレーニングされた VLM は、回答候補が画像の内容を満たすかどうかを判断できますが、前提となるテキスト情報を推論に効果的に利用できません。ModCR モデルは、二峰性のセマンティック情報を使用して、正解を推論できます。

bfb92ae3b7cb016d35b556331cf22b5d.png

04

結論は

この論文では、視覚的な手がかりとテキストによる手がかりを組み合わせた条件付き推論シナリオのための、ModCR と呼ばれるマルチモーダルな文脈推論手法を提案します。ModCR は、指定された画像とテキストを 2 つの異なる接頭辞として扱い、マルチモーダル推論のための命令学習を通じて言語モデルに入力します。2 つのデータセットに関する実験結果は、ModCR の有効性を示しています。

将来的には、次の 2 つの研究方向を引き続き検討していきます。1. 事前トレーニングされた視覚言語モデルのコンテキスト学習機能を向上させる方法、およびマルチモーダル大規模モデルが持つべき機能。2. 複数のモダリティにわたる複数の手がかりを含む、複雑な視覚的およびテキストの手がかりに対する条件付き推論を探索します。

提案されている ModCR スローには、次のようないくつかの制限があります。

1) 現在の方法は、テキスト キューと画像を含むクロスモーダル シーンで強力な文脈推論パフォーマンスを実現していますが、複数のテキスト キューと視覚的キューを含むシーンでの文脈推論機能については、さらに研究する必要があります。

2) 実験結果から、視覚接頭語の長さが視覚情報を組み込んだ言語モデルの安定性に大きく影響することがわかりました。したがって、自然言語処理とマルチモーダル シナリオのための効果的で安定した視覚支援言語モデルを探索する必要があります。

3) また、この研究が、事前トレーニングされた視覚言語モデルの長期コンテキスト推論能力の向上、つまり大規模な視覚言語モデルへの移行に関するさらなる研究のきっかけとなることを願っています。

運ぶ

起きている

「原文を読む」をクリックすると00:41:05にジャンプします。

リプレイが見れます!

過去号のおすすめ記事

ded2dc45c5c5aa96623f6fd2bf512fb4.jpeg

忘れずにフォローしてください!毎日新しい知識が得られます!

 AI TIMEについて 

AI TIME は 2019 年に設立され、科学的思索の精神を継承し、あらゆる階層の人々を招待して人工知能の理論、アルゴリズム、シナリオの応用の本質的な問題を探求し、アイデアの衝突を強化し、世界的な AI 学者を結びつけることを目的としています。業界の専門家や愛好家は、討論の形で人工知能と人類の未来の間の矛盾を探り、人工知能分野の未来を探ります。

AI TIMEはこれまでに国内外から1,300人以上の講演者を招き、600回以上のイベントを開催し、600万人以上が視聴しました。

1a9027a3954d525e24510429087d9111.png

私はあなたを知っています。

覗く

おお

d90bca1242ff2def9b90ae6f33f91af2.gif

クリックして元のテキストを読み 、リプレイを表示します。

おすすめ

転載: blog.csdn.net/AITIME_HY/article/details/132867734