ラージ バイト モデルの新開発: 視覚的な位置決めの最初の導入、きめ細かいマルチモーダル共同理解の実現、オープン ソースとプレイ可能なデモ...

西風は凹神殿
の量子ビットから来る | 公開アカウント QbitAI

ビッグバイトモデル、BuboGPTが登場。

テキスト、画像、音声の 3 つのモードをサポートし、きめ細かいマルチモーダル共同理解を実現します。

どこに答えて何を言うべきか、何が言われ、何が言われないかは一目瞭然です。

d3bb626e44ee787318a29a54ad1b66b8.gif

「賢い目」を持つだけでなく「賢い耳」もあります。BuboGPT は人間が気付かない詳細を聞くことができます。

0b79e8c0c15ff42009aeee40b46043dd.png

前方に高いエネルギーが!

3 つのモーダルの共同理解、テキストの説明 + 画像の位置 + 音声の位置、ワンクリックで取得し、音の発生源を正確に特定します。

6c26e0f2ff245fcdfffc3b29e56c3d6d.gif

心配しないでください、まだ終わっていません!

音声と画像の間に直接の関係がない場合でも、この 2 つの関係の可能性は合理的に説明できます。また、画像を見て音を識別することでストーリーを伝えることも可能です。

275b7e98079a8fdc602e85e12e6bb244.gif

このように見ると、BuboGPT はある程度の作業を行いますが、これは十分「問題ありません」です。

研究者らによると、

最近開発された MiniGPT-4、LLaVA、X-LLM などのマルチモーダル大規模モデルは、入力の特定部分で基本的な接続を実行せず、粗粒マップを構築するだけです。

一方、BuboGPT は、豊富な情報とテキストと他のモダリティ間の明確な対応を活用して、視覚オブジェクトと特定のモダリティを詳細に理解することができます。

したがって、BuboGPT が画像を記述するとき、画像内のオブジェクトの特定の位置を示すことができます。

277529d3eb02dce4f341497b3c78cef4.png

BuboGPT: LLM に視覚的な接続性を初めて導入

著者が YouTube で共有した上記の例に加えて、研究チームは論文の中で BuboGPT が実行するさまざまなトリックも実証しました。

ピアノを弾くカエルを見るのは久しぶりです!このようなグラフ BuboGPT も正確に記述できるでしょうか?

2ae61b2f51bfed24d457030551aaaaac.png

Kangkang は一緒にどう答えましたか。

4ce16d13fbf463a1d5ca00305a12ce9c.png

カエルのポーズを正確に描写できるだけでなく、手がバンジョーに触れていることもわかりますか?

写真の中で興味深い場所はどこですかと尋ねると、写真の背景にあるものすべてを要約することもできます。

BuboGPT「視力 + 聴力 + 表現力テスト」、研究者はこのように再生します。まずこの音声を聞いてみましょう。

BuboGPT の説明を見てみましょう。

e0c8afa2aea5050d7aa862a8704dae3c.png

BuboGPT は、写真の中の人物の性別、音の発生源、写真の中で何が起こったかを正確に理解できます。

Byteは今回、LLMに視覚的な位置決めを導入する方法を使用したため、その効果は非常に優れています。

次に具体的な方法を見ていきます。

BuboGPT のアーキテクチャは、共有された意味論的空間を学習し、さまざまな視覚オブジェクトとさまざまなモダリティの間のきめ細かい関係をさらに探索することによって、マルチモーダルな理解を達成することです。

さまざまな視覚オブジェクトとさまざまなモダリティの間のきめ細かい関係を調査するために、研究者らはまず、SAM に基づいて既製の視覚ローカリゼーション パイプラインを構築しました。

このパイプラインは、タグ付けモジュール、グラウンディングモジュールエンティティ マッチング モジュールの 3 つのモジュールで構成されます

66116fc5d89d52f83c8c5c9712b7442a.png

プロセスは大まかに次のとおりです。

まず、ラベリング モジュールは、入力画像に関連付けられた複数のテキスト ラベルを生成できる事前トレーニングされたモデルです。

SAM ベースのローカリゼーション モジュールは、画像上の各テキスト ラベルに関連付けられたセマンティック マスクまたはバウンディング ボックスをさらにローカライズします。

次に、エンティティ マッチング モジュールは LLM の推論機能を利用して、ラベルと画像の説明から一致するエンティティを取得します。

このようにして、研究者は視覚オブジェクトを他のモダリティに接続するための橋渡しとして言語を使用します。

3 つのモードを任意に組み合わせて入力しても良好な結果が得られるようにするために、研究者らは Mini-GTP4 と同様の 2 段階のトレーニング スキームを採用しました。

シングルモーダルの事前トレーニングとマルチモーダルの命令チューニング

53ee65a347f38e30c9d9af6db61dff10.png

具体的には、BuboGPT はオーディオ エンコーダーとして ImageBind、ビジュアル エンコーダーとして BLIP-2、事前トレーニングされた LLM として Vicuna を使用します。

ユニモーダル事前トレーニング段階では、対応するモダリティ Q-Former レイヤーと線形投影レイヤーが、モダリティとテキストのペアになった大量のデータでトレーニングされます。

視覚に関しては、画像キャプション生成部分の投影レイヤーのみをトレーニングし、BLIP2 の Q-Former を固定したままにします。

音声を理解するために、Q-Former と音声キャプション生成部分の両方をトレーニングしました。

どちらの設定でも、プロンプトを使用せず、モデルは対応する画像または音声のみを入力として受け取り、対応するキャプションを予測します。

ac10fbd1c47a7513d902c311507096e9.png
さまざまな入力の例に従う指示

マルチモーダル命令調整ステージでは、次のような線形投影レイヤーを微調整するために、高品質のマルチモーダル命令データセットが構築されます。

  • 画像とテキスト: MiniGPT-4 と LLaVa の 2 つのデータセットを使用した視覚的な命令のチューニング。 

  • オーディオテキスト: 一連の表現的で説明的なデータは、Clotho データセットに基づいて構築されます。 

  • 音声-画像-テキスト: VGGSS データセットに基づいて、<音声、画像、テキスト> の 3 峰性ガイダンス調整データ ペアが構築され、モデルを強化するためにネガティブ サンプルがさらに導入されます。

セマンティックマッチングにネガティブサンプル「画像と音声のペア」を導入することで、BuboGPT の位置合わせが向上し、マルチモーダルな共同理解能力が強化されることは注目に値します。

現在、BuboGPTのコードとデータセットはオープンソース化されており、デモも公開されているので、早速試してみましょう。

デモライトプレイ体験

BuboGPT デモページの機能エリアは一目瞭然で、操作も非常に簡単で、右側では写真や音声をアップロードでき、左側では BuboGPT の回答ウィンドウとユーザーの質問ウィンドウが表示されます。

abc1a814e155399b269a835a88d78bec.png

写真をアップロードした後、下の最初のボタンをクリックして分割画像をアップロードします。

d535738bad99f03b98a44a731fae80d3.png

例として万里の長城の写真を取ると、BuboGPT はそれを次のように分解し、山、観光名所、城壁を特定しました。

db77b90391bf14c2a2c18460ad165b5a.png

私たちがこの絵について説明するよう尋ねたところ、その答えはより具体的で基本的に正確でした。

2aa4705515541f3a95dadd071b5a93bb.jpeg

回答のテキスト内容に応じて、分割ボックスの内容も変更されていることがわかります。

これは音声付きの別の画像です。BuboGPT も音源と正しく一致します。

e2cc76b7c9c66047b1955c00d41aba90.png

もちろん、認識できずに誤った表現をすることもあります。たとえば、下の写真には誰もいませんし、音声はただのベルですが、その説明は写真と一致していないようです。

3ebaf66f8b916df6a97a74bc02bba537.png

興味のあるご家族は急いで試してみてください~~

ポータル:
[1] https://bubo-gpt.github.io/
[2] https://huggingface.co/spaces/magicr/BuboGPT (デモ)

おすすめ

転載: blog.csdn.net/QbitAI/article/details/132309683