アオフェイ寺院の Cressy
Qubit | パブリック アカウント QbitAI
マルチモーダルな大型モデル ファミリーに新しいメンバーが加わりました。
複数の画像やテキストを組み合わせて解析するだけでなく、映像内の時空間関係も処理できます。
この無料のオープンソース モデルは、MMbench リストと MME リストの両方でトップを獲得しており、現在も変動ランキングのトップ 3 に留まっています。
△MMBench リスト、MMBench は、上海 AI ラボと南洋理工大学が共同で立ち上げた ChatGPT に基づく包括的なマルチモード能力評価システムです
△MMEリスト、MMEはTencent Youtu Labとアモイ大学によって実施されたマルチモーダル大規模言語モデル評価です。
この大規模なマルチモーダル モデルは MMICL と呼ばれ、北京交通大学、北京大学、UCLA、Zuzhi Multi-Mode Company などの機関が共同で立ち上げたものです。
MMICL には、Vicuna と FlanT5XL という 2 つのコア モデルに基づいた、異なる LLM に基づく 2 つのバージョンがあります。
どちらのバージョンもオープンソースであり、FlanT5XL バージョンは商用利用が可能ですが、Vicuna バージョンは科学研究目的でのみ使用できます。
MME のマルチタスク テストでは、MMICL の FlanT5XL バージョンが数週間にわたって首位の座を維持しました。
中でも認知面は総合スコア428.93(800点満点)を獲得し、他のモデルを大きく上回り1位となった。
知覚に関する合計スコアは 1381.78 (2000 年中) で、最新版のリストでは Alibaba の Qianwen-7B と Kunlun Wanwei の Tiangong モデルに次いで 2 番目にランクされています。
必要な構成に関しては、トレーニング フェーズでは 6 台の A40 が必要で、推論フェーズは 1 台の A40 で実行できると公式に発表されています。
トレーニングの第 2 フェーズを完了するには、オープンソース データセットから構築された0.5Mデータのみが必要で、所要時間はわずか数十時間です。
では、この大規模なマルチモーダル モデルにはどのような特徴があるのでしょうか?
ビデオを見て「今すぐ学んで、すぐに販売」できる
MMICL は、テキストと画像が散りばめられた形式のプロンプトをサポートしており、WeChat チャットと同じように自然に使用できます。
通常の話し方で 2 つの写真を MMICL に送信すると、それらの類似点と相違点を分析できます。
MMICL は、強力な画像分析機能に加えて、「今学び、今販売」することも知っています。
たとえば、私たちは MMICL に「Minecraft」のピクセル風の馬の写真を提供しました。
トレーニング データはすべて現実世界のシーンであるため、MMICL はこの過度に抽象的なピクセル スタイルを認識しません。
しかし、MMICL にいくつかの例を学習させさえすれば、すぐに類推を実行できます。
下の写真では、MMICL は 3 つのシナリオ (馬、ロバ、何もない) を学習し、背景を変更した後、ピクセルの馬を正しく判断しました。
MMICL は写真だけでなく、動的なビデオも問題なく、各フレームの内容を理解するだけでなく、時空間関係を正確に分析します。
サッカーのブラジル対アルゼンチンの戦いについて、MMICL は両チームの動きを正確に分析しました。
ブラジル選手がアルゼンチン選手をどのようにブロックしたかなど、ビデオの詳細についてMMICLに問い合わせることもできます。
MMICL は、映像内の時空間関係を正確に把握するだけでなく、リアルタイムの映像ストリーム入力にも対応しています。
監視画面に映っている人が倒れているのがわかり、MMICL はこの異常を検知し、助けが必要かどうかを尋ねるプロンプトを出しました。
MME リストの知覚と認知のトップ 5 を 1 枚の図で比較すると、MMICL のパフォーマンスがあらゆる面で良好な結果を達成していることがわかります。
では、MMICL はどのようにそれを行うのでしょうか?また、その背後にある技術的な詳細は何でしょうか?
トレーニングは 2 段階で完了します
MMICL は、複数の画像を含む複雑なマルチモーダル入力を理解する際に視覚言語モデルが遭遇する問題を解決することを目的としています。
MMICL は、Flan-T5 XXL モデルをバックボーンとして使用しており、モデル全体の構造とプロセスは次の図に示されています。
MMICL は BLIP2 に似た構造を使用しますが、インターリーブされたグラフィックスとテキスト入力を受け入れることができます。
MMICL は画像とテキストを同等に扱い、入力形式に従って処理された画像とテキストの特徴をインターリーブされた画像とテキスト形式に結合し、トレーニングと推論のために言語モデルに入力します。
InstructBLIP と同様に、MMICL の開発プロセスでは、LLM をフリーズし、Q フォーマーをトレーニングし、特定のデータ セットで微調整します。
MMICL のトレーニング プロセスとデータ構造を次の図に示します。
具体的には、MMICL のトレーニングは 2 つの段階に分かれています。
事前トレーニング段階では、LAION-400M (LLaVA を参照) データセットが使用されました。
独自の MIC (マルチモデル インコンテキスト学習) データセットを使用したマルチモーダル インコンテキスト チューニング
MIC データ セットは公開データ セットから構成されています。上の図は、MIC データ セットに含まれる内容を示しています。MIC データ セットには次の特性もあります。
1 つ目は、画像とテキストの間に確立される明示的な参照です。MIC は、画像とテキストのインターレース データに画像宣言を挿入し、画像プロキシ トークンを使用して異なる画像をプロキシし、自然言語を使用して画像を作成します。テキスト間の参照関係。
2 つ目は、空間、時間、またはロジックで相互接続されたマルチ画像データ セットで、MMICL モデルが画像間の関係をより正確に理解できるようにします。
3 番目の機能はサンプル データ セットで、これは MMICL の「オンサイト学習」プロセスに似ており、マルチモーダル コンテキスト学習を使用して、画像やテキストが散在する複雑な画像やテキスト入力に対する MMICL の理解を強化します。
MMICL は、同様に FlanT5XXL を使用する BLIP2 および structBLIP よりも複数のテスト データ セットで優れた結果を達成します。
特に複数の画像を含むタスクでは、MMICL はそのような複雑な画像やテキストの入力に対して大幅な改善を示しました。
研究チームは、MMICL が視覚言語モデルによく存在する言語バイアスの問題を解決し、それが優れた結果の理由の 1 つであると考えています。
ほとんどの視覚言語モデルは、大量のテキストのコンテキスト コンテンツに直面した場合、視覚コンテンツを無視します。これは、視覚情報を必要とする質問に答える際の致命的な欠陥です。
研究チームのアプローチのおかげで、MMICL は視覚言語モデルにおけるこの言語バイアスを軽減することに成功しました。
この大規模なマルチモーダル モデルに興味のある読者は、GitHub ページまたは論文で詳細を確認してください。
GitHub ページ:
https://github.com/HaozheZhao/MIC
論文アドレス:
https://arxiv.org/abs/2309.07915
オンライン デモ:
http://www.testmmicl.work/