リンクス-llm

GPT4 などの現在のラージ言語モデル (LLM) は、画像が与えられたオープンエンドの命令に従う際に優れたマルチモーダル機能を示しています。ただし、これらのモデルのパフォーマンスは、ネットワーク構造、トレーニング データ、トレーニング戦略などのスキームの選択に大きく依存しますが、これらの選択については、以前の文献では詳しく説明されていませんでした。さらに、現在、これらのモデルを評価および比較するための適切なベンチマークが不足しており、マルチモーダル LLM の開発が制限されています。

  • 論文: https://arxiv.org/abs/2307.02469

  • ウェブサイト: https://lynx-llm.github.io/

  • コード: https://github.com/bytedance/lynx-llm

Byte チームは、このようなモデルのトレーニングについて、定量的および定性的な側面から体系的かつ包括的な研究を実施しました。20 を超えるバリアントが設定され、ネットワーク構造につ​​いては、さまざまな LLM バックボーンとモデル設計が比較され、トレーニング データについては、データとサンプリング戦略の影響が研究され、指示については、多様なプロンプトが生徒の能力に及ぼす影響が研究されました。指示に従うモデルが検討されました。この記事では、ベンチマークとして、画像とビデオのタスクを含むオープンなビジュアル質問応答評価セットである Open-VQA を初めて提案しています。

実験の結論に基づいて、著者らは、 既存のオープンソース GPT4 スタイル モデルと比較して、最も正確なマルチモーダル理解能力を示しながら、最高のマルチモーダル生成能力を維持する Lynx を提案します。

評価プログラム

一般的なビジュアル言語タスクとは異なり、GPT4 スタイルのモデルを評価する際の主な課題は、テキスト生成能力マルチモーダル理解精度の観点からパフォーマンスのバランスをとることにあります。この問題に対処するために、著者らはビデオと画像データの両方を含む新しいベンチマーク Open-VQA を提案し、現在のオープンソース モデルの包括的な評価を実施します。

具体的には、次の 2 つの定量的評価スキームが採用されています。

  • Open Visual Question Answering (Open-VQA) テスト セットが収集されており、さまざまなカテゴリのオブジェクト、OCR、計数、推論、アクション認識、時間的順序などに関する質問が含まれています。標準的な回答を持つ VQA データセットとは異なり、Open-VQA の回答は無制限です。Open-VQA のパフォーマンスを評価するために、GPT4 が識別子として使用され、結果は人間の評価と 95% 一致します。

  • さらに、著者は mPLUG-owl [1] が提供する OwlEval データセットを使用してモデルのテキスト生成能力を評価しました。このモデルには 50 枚の画像と 82 の質問しか含まれていませんが、ストーリー生成、広告生成、コード生成、およびさまざまなモデルのパフォーマンスをスコアリングするヒューマン アノテーターの採用。

結論は

マルチモーダルLLMのトレーニング戦略を深く研究するために、著者は主にネットワーク構造(プレフィックス微調整/クロスアテンション)、トレーニングデータ(データ選択と組み合わせ比率)、命令(単一命令/多様な命令)に焦点を当てています。 、LLMs モデル (LLaMA [5]/Vicuna [6])、画像ピクセル (420/224)、および 20 以上のバリアントが設定されており、実験を通じて次の主な結論が導き出されています。

  • マルチモーダル LLM は、LLM よりも指示に従う可能性が低かった。例えば、InstructBLIP [2] は入力命令に関係なく短い応答を生成する傾向がありますが、他のモデルは命令に関係なく長い文を生成する傾向がありますが、これは高品質で多様なマルチモーダル命令データが不足しているためであると著者らは考えています。

  • トレーニング データの品質は、モデルのパフォーマンスにとって重要です。さまざまなデータの実験結果に基づいて、少量の高品質データを使用した方が、大規模なノイズの多いデータを使用した場合よりもパフォーマンスが向上することがわかりました。著者は、生成トレーニングはテキストと画像の類似性ではなく、単語の条件付き分布を直接学習するため、これが生成トレーニングと対照トレーニングの違いであると考えています。したがって、モデルのパフォーマンスを向上させるには、データに関して 2 つの点を満たす必要があります: 1) 高品質で流暢なテキストが含まれていること、2) テキストと画像のコンテンツが適切に配置されていること。

  • タスクとヒントはゼロショット機能にとって重要です。多様なタスクと命令を使用すると、未知のタスクに対するモデルのゼロショット生成能力が向上します。これは、プレーン テキスト モデルでの観察結果と一致します。

  • 正確さと言語生成能力のバランスが重要です。モデルが VQA などの下流タスクで十分にトレーニングされていない場合、視覚入力と一致しない捏造されたコンテンツが生成される可能性が高くなりますが、モデルが下流タスクで過剰トレーニングされている場合は、短い応答を生成する傾向があり、要求に従わなくなります。ユーザーの指示 より長い回答を生成します。

  • 現在、プレフィックス微調整 (PT) は、LLM のマルチモーダル適応に最適なソリューションです。実験では、プレフィックス微調整構造を備えたモデルは、クロスアテンション (CA) を備えたモデル構造よりも、さまざまな命令に従う能力をより速く向上させることができ、トレーニングが容易です。(プレフィックスチューニングとクロスアテンションは 2 つのモデル構造です。詳細については、Lynx モデルの紹介を参照してください)

リンクスモデル

著者は、  2 段階のトレーニングを備えたプレフィックス微調整の GPT4 スタイル モデルであるLynx ( lynx)を提案します。第 1 段階では、約1 億 2,000 万の画像とテキストのペアを使用して  、視覚的および言語の埋め込み (エンベディング) を調整します。第 2 段階では、20 枚の画像またはビデオと自然言語処理 (NLP) データのマルチモーダル タスクを使用してモデルを調整します。指示に従う能力。

Lynx モデルの全体的な構造を上の図 1 に示します。

ビジュアル入力がビジュアルエンコーダによって処理された後、ビジュアルトークン(トークン) $$W_v$$ が取得され、マッピング後、LLM の入力として命令トークン $$W_l$$ と接続されます。論文では、この構造は、 Flamingo で使用されるクロスアテンション構造と区別するためにprefix-finetuning」と呼ばれています[3]   。

さらに、著者らは、凍結された LLM の特定の層の後にアダプター を追加することで、トレーニング コストをさらに削減できることを発見しました。

モデル効果

 著者は、Open-VQA、Mme [4]、および OwlEval の手動評価で既存のオープンソース マルチモーダル LLM モデルのパフォーマンスを評価しました(結果については下のグラフを参照、評価の詳細については論文を参照してください)。 Lynx モデルは、Open-VQA 画像およびビデオ理解タスク、OwlEval 手動評価、および Mme Perception タスクで最高のパフォーマンスを達成していることがわかります。その中で、InstructBLIP もほとんどのタスクで高いパフォーマンスを実現しますが、その応答は短すぎます。対照的に、Lynx モデルは、ほとんどの場合、正解に基づいて応答をサポートする簡潔な理由を提供します。よりユーザーフレンドリーにします (場合によっては、以下の「ケース表示」セクションを参照してください)。

1. Open-VQA イメージ テスト セットのインデックス結果を以下の表 1 に示します。

2. Open-VQA ビデオ テスト セットのインデックス結果を以下の表 2 に示します。 

3. OwlEval 評価セットでの手動効果評価のために、Open-VQA で最も高いスコアを持つモデルを選択します。結果は上の図 4 に示されています。人間による評価結果から、 Lynx モデルが最高の言語生成パフォーマンスを持っていることがわかります 。


4. Mme ベンチマーク テストでは、知覚タスクが最高のパフォーマンスを達成し、  14 のサブタスクのうち 7 つが最高のパフォーマンスを示しました。(詳しい結果は付録をご覧ください) whaosoft  aiot  http://143ai.com  

事例紹介

Open-VQA イメージのケース

 OwlEval のケース

オープン VQA ビデオのケース

要約する

この論文では、著者は、主な構造としてプレフィックス微調整を備えた Lynx モデルと、20 を超えるマルチモーダル LLM バリアントの実験を通じてオープンな回答を与える Open-VQA 評価スキームを決定しました。実験結果は、Lynx モデルが最高のマルチモーダル生成能力を維持しながら、最も正確なマルチモーダル理解精度を示すことを示しています。

 

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/131738671