NExT-GPT

さまざまな入力側マルチモーダル大規模言語モデルに続き、シンガポール国立大学の中国チームは最近、あらゆるモーダル入力とあらゆるモーダル出力をサポートする真に「統合された」マルチモーダル大規模言語モデルをオープンソース化しました。 AIコミュニティ。

ChatGPT の誕生により、2023 年に大規模言語モデルに基づく AI の波が起こりました。それ以来、Flan-T5、Vicuna、LLaMA、Alpaca など、さまざまなオープンソースの大規模言語モデルが次々と登場しました。その後もコミュニティは熱心に取り組み続け、このマルチモーダルな世界をシミュレートするために、研究者らは大規模な純粋言語モデルを、画像をサポートする MiniGPT-4 や BLIP- など、処理言語以外のマルチモーダルな大規模言語モデルに拡張しました。 2. Flamingo、InstructBLIP などは、ビデオベースの Video-LLaMA、PandaGPT などをサポートし、サウンドベースの SpeechGPT などをサポートします。

ただし、現在のマルチモーダル大規模言語モデルは、真の人間レベルの AGI にはまだ程遠く、「本質的な風味」が少し欠けているように常に感じられます。はい、人間の認知とコミュニケーションは、あらゆる情報モダリティ間をシームレスに移行する必要があります。私たち人間は、マルチモーダルなコンテンツを理解するだけでなく、マルチモーダルな方法で柔軟に情報を出力することができます。

既存の大規模な言語モデルの場合、一方では、そのほとんどが特定の単一のモーダル情報の処理に焦点を当てることに限定されており、真の「あらゆるモダリティ」の理解が欠けており、他方では、それらはすべて、任意の数のモダリティで柔軟な形式でコンテンツを出力できるのではなく、入力側で理解するマルチモーダル コンテンツ。

OpenAIが将来リリースするGPT-5が、あらゆるモダリティの統一機能を実現できるかどうか誰もが楽しみにしている中、数日前、シンガポール国立大学NExT++研究室の中国チームが主導して、オープンソース 「均一」汎用マルチモーダル大規模モデル「NExT-GPT」は、あらゆるモーダル入力からあらゆるモーダル出力をサポートします。現在、NExT-GPT のコードはオープンソース化されており、デモ システムが開始されています。

  • プロジェクトアドレス: https://next-gpt.github.io

  • コードアドレス: https://github.com/NExT-GPT/NExT-GPT

  • 論文アドレス: https://arxiv.org/abs/2309.05519

この研究室には、マルチモーダル学習の研究方向において長年の努力と深い蓄積があり、NExT-GPT という名前は、研究室の名前と次世代の GPT の意味をもじったものでもあります。

NExT-GPT は、リリース以来 AI コミュニティから多くの注目を集めてきました。一部のネチズンは、NExT-GPT はオールラウンド LLM の到来を示すものであると述べました。また、一部のネチズンは、これが LLM (任意のモーダル入出力を備えた統合 LLM) の将来のトレンドであると賞賛しました。

次に、NExT-GPT が実現できる機能を見てみましょう。

  • テキスト → テキスト + 画像 + 音声

映像も音声も送信できない

  • テキスト + 画像 → テキスト + 画像 + ビデオ + 画像

  • テキスト + ビデオ → テキスト + 画像

  • テキスト + ビデオ → テキスト + 音声

  • テキスト + 音声 → テキスト + 画像 + ビデオ

  • テキスト → テキスト + 画像 + 音声 + ビデオ

  • テキスト → テキスト + 画像

  • テキスト + ビデオ → テキスト + 画像 + 音声

  • テキスト → テキスト + 画像 + 音声 + ビデオ

  • テキスト → テキスト + 画像

NExT-GPT は、ユーザーが入力したさまざまな組み合わせのモダリティのコンテンツを正確に理解し、ユーザーが要求したマルチモーダル コンテンツや、一般的な画像などの暗黙的なマルチモーダル コンテンツさえも正確かつ柔軟に返すことができることがわかります。テキストベースと画像ベースのビデオ、画像/音声/ビデオの視聴、スピーキング、画像/音声/ビデオのQ&A、およびその他の問題はすべて問題であり、クロスモーダル分野で最も一般的なタスクを統合し、真に普遍的な理解能力を実現します。あらゆるモダリティに対応します。

著者は論文の中でいくつかの定量的な実験結果の検証も提供していますので、興味のある読者は論文の内容を読むことができます。

技術的な詳細

それでは、NExT-GPT はどのようにしてモーダル入力からモーダル出力を実現するのでしょうか? 原理は非常にシンプルで、技術レベルでは「大きな革新はない」と著​​者も述べています。既存のオープンソースの1) LLM、2) マルチモーダルエンコーダ、3) 各種モーダル拡散デコーダを有機的に接続することで、 NExT-GPT の全体的な枠組みを構成しており、あらゆるモダリティの入出力を実現でき、非常にシンプルであると言えます。NExT-GPT は全体として、「エンコーディングエンド - 推論センター - デコーダ」の3 層アーキテクチャとして表されます。

  • マルチモーダル エンコーディング ステージ:オープン ソース エンコーダを使用してさまざまな入力モダリティをエンコードし、これらの特徴を射影層を通じて LLM が理解できる「言語に似た」表現に射影します。著者は MetaAI の ImageBind 統合マルチモーダル エンコーダを使用しています。

  • 推論の中心段階:オープンソース LLM を中核の頭脳として使用し、入力情報を処理し、意味の理解と推論を実行します。LLM はテキストを直接出力できます。また、対応するモーダル情報を出力するかどうか、および出力するコンテンツを通知するためにバックレイヤー デコーダーに渡される命令として「モーダル信号」トークンも出力します。著者は現在 Vicuna を LLM として使用しています。

  • マルチモード生成ステージ:さまざまなオープンソースの画像拡散モデル、音声拡散モデル、ビデオ拡散モデルを利用して、LLM から特定の命令信号を受け取り、対応するモデル コンテンツを出力します (生成された命令が必要な場合)。

モデルが推論しているとき、モダリティの任意の組み合わせのユーザー入力が与えられると、モーダル エンコーダーを介してエンコードした後、プロジェクターはそれを特徴に変換し、LLM に渡します (テキスト部分の入力は LLM に直接出入りします)。次に、LLM は生成されたコンテンツを決定し、一方ではテキストを直接出力し、他方ではモーダル信号トークンを直接出力します。LLM が何らかのモーダル コンテンツ (言語を除く) を生成すると決定した場合、モーダルがアクティブ化されていることを示す、対応するモーダル信号トークンを出力します。技術図は次のとおりです。著者は、NExT-GPT が任意のモーダル入力から任意のモーダル出力への機能を実現する最初の作品ではない可能性があると指摘しています。現在、開拓者の仕事には次の 2 種類があります。

  • 1 つは、最近リリースされた CoDi モデルで、さまざまなモダリティの拡散モデルを統合し、さまざまな組み合わせのモーダル コンテンツを同時に処理して生成できます。しかし、コアコンポーネントとしてのLLMがないため、CoDiはペア(並列)コンテンツの入力と生成に限定されており、複雑なコンテンツ推論と意思決定を実装できず、柔軟に対応できないと著者は指摘しています。ユーザー入力指示に従って。

  • 別のタイプの研究では、LLM を既存の外部ツールと組み合わせて、近似的な「任意のマルチモーダル」の理解と生成を実現しようとしています (Visual-ChatGPT や HuggingGPT などの代表的なシステム)。ただし、このタイプのシステムの異なるモジュール間の情報転送は LLM によって生成されたテキストに完全に依存しているため、その断片化されたカスケード アーキテクチャにより容易かつ必然的にノイズが発生し、異なるモジュール間の機能情報転送の効率が低下する可能性があると著者は指摘しています。 . . また、予測には既存の外部作業のみが使用され、全体的なエンドツーエンドのトレーニングが欠如しており、ユーザーの入力内容と指示を完全に理解するのに有害です。

NExT-GPT は、前述したように既存の作業上の問題を十分に解決できます。それでは、NExT-GPTの重要なポイントは何でしょうか?

  • キーポイント-1: 複雑な推論 + マルチモーダル入力およびマルチモーダル出力を低コストで実装

前述したように、LLM の複雑なコンテンツの理解と推論機能を継承するだけでなく、あらゆるモダリティの入出力を実現する必要もあります。システム全体をゼロから構築することを考えると、(大手メーカーがコストを負担できない限り)コストが膨大になり、オープンソース化や普及には向きません。既存の大型モデルが基本的にマルチモーダル入力を実現していることを考えると、全能の統一マルチモーダル機能を実現するためには、高性能なマルチモーダル出力が最も重要なポイントとなります。この目的を達成するために、NExT-GPT は既存のオープンソースの高性能モジュール (現在最も強力な普及モデルなど) に完全に基づいており、完全に巨人の肩の上に立って、統合されたマルチモーダルな大規模モデルを構築するという目標を達成します。最低コスト(研究室の手頃な価格レベル)で。

  • Key Point-2: 高効率なエンドツーエンドトレーニングとモーダルアライメント学習

適切なエンドツーエンドのシステム トレーニングは、NExT-GPT を他の既存の統合された大規模モデル システムと区別する最も重要なことであり、NExT-GPT が優れたパフォーマンスを発揮することを保証するための前提条件でもあります。一方で、システム内のすべてのモダリティの特徴表現を完全に調整する必要もあります。より良い学習結果を保証するだけでなく、学習コストを包括的に削減および制御するために、この作業には次のハイライトが含まれています。

まず、NExT-GPT は、符号化層と LLM の間、および LLM と復号層の間に投影層 (Projection Layer) を挿入することを検討します。大規模パラメータのベースとなる「符号化層-LLM-復号層」を凍結し、極めて少ないパラメータ量で射影層部分のみを学習させる場合(および命令微調整時にLoRAに基づくLLMの低コスト更新) )、筆者が達成したのは学習コストの1%のみです。具体的には、1) エンコーダ側での LLM 中心のマルチモーダル アライメント学習、2) 強化学習後のデコーダ側命令の局所微調整を通じて実装されます。 さらに、大規模なマルチモーダル モデルの場合、ユーザーの指示に完全に忠実に応答できるようにするために、さらなる指示調整 (IT) が必要です。出力にテキストのみが含まれる既存の大規模なマルチモーダル モデルとは異なり、NExT-GPT システムの入力と出力は両方のモーダル情報をカバーします。ワオソフト アイオット http://143ai.com  

この目的を達成するために、著者はモダリティ切り替え命令微調整学習 (MosIT) を提案しました。その技術的意味は下図に示されています。同時に、既存のマルチモーダル命令微調整データ セットはマルチモーダル LLM シナリオ (つまり MosIT) の要件を満たすことができないため、MosIT データ セットを構築しました。このデータはさまざまなマルチモーダル入出力をカバーしており、NExT-GPT の優れたマルチモーダル命令追従および応答能力の向上に役立つ必要な複雑さと変動性を提供します。結論と今後の展望

全体として、NExT-GPT システムは、普遍的な統合マルチモーダル AI モデルを構築する美しいビジョンと満足のいく可能性を実証しており、AI コミュニティにおけるその後のより「人間レベルの」人工知能研究に貴重なインプットを提供することになります。 。

NExT-GPT に基づいて、その後の研究作業では次の側面を考慮できます。

1. モダリティとタスクの拡張: 既存のリソースによって制限されているため、著者がオープンソース化した NExT-GPT システムは現在、言語、画像、ビデオ、オーディオの 4 つのモダリティのみをサポートしています。著者らは、これらは徐々により多くのモダリティ (例: Web ページ、3D ビジョン、ヒート マップ、テーブル、チャート) およびタスク (例: オブジェクト検出、セグメンテーション、位置特定、追跡) に拡張され、一般的な適用可能性を拡大すると述べています。システムです。

2. より多くのペデスタル LLM を検討する: 現在、著者はバージョン 7B に基づいて Vicuna LLM を実装しており、次のステップは、さまざまなサイズの LLM および他の LLM タイプを統合することであると述べています。

3. マルチモーダル生成戦略: NExT-GPT システムの現在のバージョンでは、拡散モデルの純粋な出力モードに基づいたマルチモーダル出力のみが考慮されます。ただし、生成モデルは誤った空想コンテンツ (幻覚) を出力する傾向があり、出力コンテンツの品質は拡散モデルの機能によって簡単に制限されることがよくあります。したがって、拡散モデルのパフォーマンスをさらに向上させることが重要であり、これはマルチモーダル コンテンツの出力品質の向上に直接役立ちます。さらに、検索ベースの方法を実際に統合して、生成ベースのプロセスの欠点を補うことができるため、システム全体の出力の信頼性が向上します。

4. マルチモーダル サポートのコストを削減する: より多くのモダリティをサポートするコストをさらに削減することを検討してください。NExT-GPT は、ImageBind を考慮して複数のモダリティのエンコードを統合し、それによってエンコード側のコストを節約します。マルチモーダル出力の場合、作成者は複数の異なるモードの拡散モデルを単純に統合します。モダリティが増加するにつれてデコーダの動的な追加をどのように防ぐかは、その後の研究の重要な側面です。たとえば、異なるモーダル生成をサポートする (ただしモーダルの共通性がある) いくつかの拡散モデルを再利用することを検討できます。

5. MosIT データセットの拡張: 現在 NExT-GPT で使用されている MosIT データセットはサイズが制限されており、ユーザーとの対話も制限されます。フォローアップ研究により、モーダル切り替え命令の微調整学習戦略とデータセットをさらに改善できます。

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/133002222
GPT