VIGC: 自分で質問して答え、高品質の視覚的な指示でデータ収集を微調整するための新しいアイデア

今年4月から
MiniGPT-4、LLaVA、InstructBLIPなどのマルチモーダル大規模モデルプロジェクトのオープンソース化により、大規模モデルの人気がNLP分野からコンピュータビジョンやマルチモーダル分野にまで広がりました。 。

マルチモーダルな大規模モデルでは、命令の微調整に高品質のグラフィックおよびテキストのダイアログ データが必要ですが、現在のマルチモーダル命令の微調整データはほとんどがプレーン テキスト GPT-4 に基づいて構築されており、そのデータの品質と多様性は比較的限られています。この目的のために、マルチモーダルモデルに基づいて多様な指示データを自動的に生成し、指示修正モジュールに基づいて錯覚を軽減し、データ品質を確保できる視覚指示生成および修正モデル VIGC を提案しました。これらの命令データはモデルの微調整に追加され、モデルのパフォーマンスをさらに向上させます。

VIGCでは何ができるのでしょうか?


図 1. VIGC の例: 入力画像、モデルは関連する質問と対応する回答を自動的に生成します

図に示すように、ユーザーが (1) 任意の画像、(2) 必要なデータ型を指定すると、VIGC は画像に対応する質問と回答を生成できます。現在の大規模なマルチモーダル画像とテキストのモデルと比較して、VIGC は、画像と質問が与えられると、対応する質問に対する回答を得ることで自問自答を実現でき、これらの質問と回答のペア自体を質の高い指導として使用できます。マルチモーダル大規模モデル トレーニング用のデータの微調整により、モデルのパフォーマンスがさらに向上します。

VIGCの利点は何ですか?

この質問に答えるために、まず、命令微調整データの現在の取得スキームを調べます。

図 2: 命令微調整データ生成用のプレーン テキスト GPT-4

現在、グラフィックおよびテキストの指示を取得するための微調整データのほとんどは、言語のみの GPT-4 に基づいており、提供された画像、画像関連の注釈、および手動の注釈の質問を組み合わせることで、GPT-4 は対応する回答を生成します。このアプローチには 2 つの欠陥があります。

● アノテーションのコストが高い: GPT-4 は実際の画像を見ることができないため、画像関連の問題に基づいて、対応する画像情報 (画像内の対象カテゴリ、位置情報、説明情報など) に手動でアノテーションを付ける必要があります。
● 回答の質は注釈によって制限されます:画像に含まれる情報量は注釈情報よりもはるかに多いため、質問に回答する場合、GPT-4 は限られた注釈情報に直接依存し、画像内の詳細情報が簡単に失われます。画像。

対照的に、VIGC は最初の指示を通じてデータ トレーニング モデルを微調整し、画像に基づいて適切な質問と回答を自動的に生成するようにモデルを導きます。命令微調整データを生成するためのプレーン テキスト GPT-4 と比較したこの方法の利点は次のとおりです。

● より詳細なコンテンツが含まれる: VIGC によって生成される回答は、モデルが実際に回答する画像コンテンツを参照し、より詳細な情報が含まれているというものです;
● 追加の説明は必要ありません: VIGC は、まだ表示されていない画像に対しても高品質の質問と回答データを生成できます。これは、視覚モデルを通じて画像の視覚情報を抽出し、後続の言語モデルに依存して回答を自動的に生成する VIGC モデルの機能のおかげです。ここで重要な点は、ビジュアル モデルと大規模言語モデルが大量のグラフィックスとプレーン テキスト データを参照し、大量の知識を統合しているということですが、VIGC はこれらの大規模なモデルから画像関連の知識を抽出することに似ています。

VIGC をトレーニングして使用するにはどうすればよいですか?


図 3. VIGC フレームワーク図。左側は VIGC トレーニング プロセスに対応し、右側は VIGC 推論プロセスに対応します。

01 トレーニングプロセス

特定の画像を取得し、グラフィックスとテキストのコンテンツを自動的に生成するには、画像、質問の種類、対応する画像関連の質問と正解を含む、初期指導微調整データを構築する必要があります。ビジュアルコマンド生成 VIG トレーニングフェーズ

● 入力情報:画像とそれに対応する質問タイプ(対話型、詳細説明型、論理的推論型など)
● 出力情報:このタイプの質問と回答。

ただし、上記の方法のみを使用すると、モデルは詳細な記述情報を出力するときに、深刻な幻覚の問題に悩まされることがよくあります。この現象は、現在主流のマルチモーダル大規模モデルでよく見られます。本質的に、トレーニング データに特定の反復的な特徴がある場合に発生します。モデル、生成されたモデルをこのデータ分布にオーバーフィットするのは簡単です。たとえば、トレーニング画像では、質問と回答のペアで人物とテーブルの説明が表示され、その後に椅子の説明が表示されることがよくあります。推論フェーズ中、モデルは人やテーブルを見ると椅子について言及する傾向があります (推論画像に椅子がない場合でも)。

この目的を達成するために、VIGC は反復 Q-Former 手法を使用してモデルに入力された特徴情報を迅速に更新し、モデルが質問に回答するときに質問の内容と現在の回答の一部を組み合わせて以降の回答を完成できるようにします。したがって、トレーニング段階では、視覚的指示修正モジュール VIC も追加します。

●入力情報:画像、対応する質問種類、質問
●出力情報:回答

02 推理ステージ

高品質の指導微調整データを取得するための推論フェーズのプロセスは次のとおりです: a
. 画像と質問タイプが与えられると、VIG は対応する質問と回答を生成します;
b. 画像と VIG が生成した質問を入力しますVIC を使用し、Q-Former を通じて関連情報を抽出します 画像特徴の後に新しい回答を生成します;
c. 上記の回答を分割し、最初の回答、画像、質問を再度 VIC に入力して、更新された 2 番目の回答 A2 を生成します; d.
全体このプロセスは、モデルがターミネータに遭遇するまで繰り返し実行されます。

VIGCデータはモデルに役立ちますか?

VIGC によって生成されたデータに基づいて、モデルのトレーニングに再参加した後、モデルのパフォーマンスをさらに向上できることがわかりました。

表 1. VIGC データ モデルの追加によるパフォーマンスの向上

上の表に示すように、MMBench ベースの評価では、VIGC によって生成された追加データを追加すると、指標は 24.4% から 27.5% に改善できます。LLaVA 評価セットでは、指標は 84.7% から 87% に増加しました。

要約する

VIGCは、ラベルなし画像を基に多様で高品質なデータを自動生成できる新たなマルチモーダル命令データ構築手法を提案しており、生成されたデータをもとに、現行モデルの性能をさらに向上させ、命令データ取得や命令データ取得などに活用することが可能です。モデルのパフォーマンス、改善のための新しいアイデア。

VIGC 関連情報
論文アドレス: https://arxiv.org/pdf/2308.12714.pdf
コード: https://github.com/opendatalab/VIGC
デモ: https://opendatalab.github.io/VIGC

VIGC モデルはオープンソース化されています。スター登録を歓迎します!
さらにエキサイティングなコンテンツについては、OpenDataLab をご覧ください: https://opendatalab.org.cn/

おすすめ

転載: blog.csdn.net/OpenDataLab/article/details/132888734