LLM に基づくマルチモーダル大規模モデル (PALM-E、ArtGPT-4、VPGTrans)

このシリーズはさらに書かれており、新しい記事があれば引き続き追加されます。

この記事では、より複雑な拡張機能や応用記事を最初に置き、後でブランチを作成し、個別にオープンします。現在、主に PALM-E、ArtGPT-4、VPGTrans などが使用されています。


Pathways Language Model with Embodied
PALM-E は、ブロガーが非常に関心を持っている記事の 1 つで、562B 視覚言語モデル (PaLM-540B + ViT-22B) であり、現在世界最大の視覚言語モデルの 1 つです。同時に、ロボット制御、マルチモーダルな身体化インテリジェンスに統合され、すでに強力なモデルにロボットアームが追加されます。マルチモーダルな身体化されたインテリジェンスについては、ブロガーの以前のブログ投稿を読むことができるため、詳細は説明しません:ポータル: 身体化されたインテリジェンスの概要とアプリケーション (身体化された AI)

ここに画像の説明を挿入
モデル構造は下図中段に示されており、PaLM-E は主に画像、状態推定、その他のセンサーモダリティなどの継続的な物理観測を言語モデルに入力します。したがって、モデルへの入力は次のようになります。

  • Give <emb> ... <img> A: How to grasp blue block?

ここでのマルチモーダル入力の処理は、以前のブログ投稿の方法に似ています。また、最初にどのモードとどのエンコーダを使用するかをトークン化し、次に全員をまとめてから、PaLM-E をデコーダとして使用して、自動回帰に進み、テキストを生成します。生成されたテキストはアクションを実行できます。

  • A: First. grasp yellow block and ...

次に、現実世界と対話します。
ここに画像の説明を挿入
論文の結果から、PaLM-E はゼロショットとコットを完全にサポートしています。ただし、現時点では論文とデモのみが公開されており、具体的な内容はまだ明らかになっていない。しかし、少なくとも PALM-E は、マルチモーダル LM + ワールド グラウンディングが本当に有望であることを示してくれました (PR: 一緒にやるためのプライベート メッセージに興味のある友人を歓迎します)。

  • 論文:PaLM-E: An Embodied Multimodal Language Model
  • arxiv:https://arxiv.org/abs/2303.03378v1
  • github:https://palm-e.github.io

ArtGPT-4: アダプター強化 MiniGPT-4 による芸術的視覚言語理解
ArtGPT-4 は一種の拡張モデルであり、主にMiniGPT-4に基づいており、芸術作品の理解における問題を垂直的に解決します。

モデル構造は次の図に示されており、アダプターのチューニングは主にアダプター拡張 MiniGPT-4 戦略を通じて行われます。図に示すように、ビクーニャの線形層と活性化関数は、モデルが複雑な詳細をより適切にキャプチャし、芸術的なイメージの意味を理解できるように主に調整されています。ビクーニャ バックボーンは、次の構造に変更できます。
ここに画像の説明を挿入

トレーニング データ セットは、ChatGPT によって作成された高品質の画像とテキストのペア、つまり合計 3500 ペアの高品質データ セットから取得されます。次に、約 200 GB の画像とテキストのペアを備えた Tesla A100 デバイスで 2 時間トレーニングされます。画像の理解を向上させるだけでなく、より芸術的なセンスを備えた美しい HTML/CSS Web ページなどのビジュアル コードを生成することもできます。

arxiv:https://arxiv.org/pdf/2305.07490.pdf
github:https://github.com/DLYuanGod/ArtGPT-4


VPGTrans: LLM 間でビジュアル プロンプト ジェネレーターを転送する
現時点では、ビジュアル言語モデル (VL-LLM) を最初からトレーニングするには多くのリソースが必要であるため、前のブログ投稿では、既存の言語モデルとビジュアル モデルは基本的に結合されています。この方法ではトレーニングの消費量は削減されますが、リニア レイヤー (プロジェクター) またはビジュアル モジュール (VPG) ではトレーニングが必要になることがよくあります。したがって、この記事での VPGTrans は主に効率改善手法であり、既存のモデルを移行して VL-LLM を取得できます。以下の図に示すように、ビジョン モジュールを最初からトレーニングする場合と比較して、この方法では BLIP-2 FlanT5-XXL のトレーニング コストを 19,000 人民元以上から 1,000 人民元未満に削減できます。
ここに画像の説明を挿入

VPGTrans は主に 2 種類の VPG の移行を検討します。

  • LLM 間サイズ転送 (TaS): たとえば、OPT-2.7B から OPT-6.7B への重要な点は、最初に小さい LLM でパラメータを調整してから、大きい LLM に拡張できることです。
  • クロス LLM タイプ転送 (TaT): たとえば、OPT から FlanT5 への重要な点は、異なる LLM を迅速に切り替えることができることです。

その後、著者らはいくつかの探索的な実験を行い、いくつかの興味深い発見を発見しました。

  • VPG を直接継承すると収束を高速化できますが、加速が制限される + ポイントが落ちます。
  • ポイントの低下を防ぎ、収束を加速するために、最初に 3 エポックの間プロジェクターをウォームアップします。
  • ワード ベクトル コンバーターの初期化は、3 エポックから 2 エポックに高速化できます。これは非常に興味深いことです。著者らは、VPG が画像を LLM が理解できるソフト プロンプトに変換すると信じており、ソフト プロンプトと単語ベクトルは実際には非常によく似ているため、著者は画像から画像への単語ベクトル コンバータ (線形層) をトレーニングし、それを使用してプロジェクターを初期化します。
  • 5 倍の超大学習率により、収束を高速化できます (主に、プロジェクターのパラメーターが複雑ではなく、簡単に崩壊しないため)。

したがって、VPGTrans の最終的なトレーニング構造は次の図に示されており、
ここに画像の説明を挿入
この方法も 2 つの段階に分かれています。

  • 第 1 段階: 新しいプロジェクターの初期化としてワード ベクトル コンバーターと融合用の元のプロジェクターを使用し、その後 5 倍の学習率を使用して新しいプロジェクターを 1 エポックトレーニングします。
  • 第 2 段階: VPG とプロジェクターを通常どおり直接トレーニングします。

デモ:https://vpgtrans.github.io/
論文:https://arxiv.org/pdf/2305.01278.pdf
コード:https://github.com/VPGTrans/VPGTrans

おすすめ

転載: blog.csdn.net/qq_39388410/article/details/130773815