ラージバイトモデルの新たな進歩: 視覚的な位置決めのきめ細かいマルチモーダルな理解、オープンソースおよびデモプレイ可能

アウフェイ寺院からの西風 Qubit | パブリックアカウント QbitAI

ビッグバイトモデル、BuboGPTが登場。

テキスト、画像、音声の 3 つのモードをサポートし、きめ細かいマルチモーダル共同理解を実現します。

どこに答えて何を言うべきか、何が言われ、何が言われないかは一目瞭然です。

b0ea5c7cf790f08e7a03d3a5514736f3.gif

「賢い目」を持つだけでなく「賢い耳」もあります。BuboGPT は人間が気付かない詳細を聞くことができます。

e06801833c57f2d166fafdc76fb7eca6.png

前方に高いエネルギーが!

3 つのモーダルの共同理解、テキストの説明 + 画像の位置 + 音声の位置、ワンクリックで取得し、音の発生源を正確に特定します。

17cda840e15a82556e32ec96b5019476.gif

心配しないでください、まだ終わっていません!

音声と画像の間に直接の関係がない場合でも、この 2 つの関係の可能性は合理的に説明できます。また、画像を見て音を識別することでストーリーを伝えることも可能です。

c314059373ab810475b2a360ccc542ce.gif

このように見ると、BuboGPT はある程度の作業を行いますが、これは十分「問題ありません」です。

研究者らによると、

最近開発された MiniGPT-4、LLaVA、X-LLM などのマルチモーダル大規模モデルは、入力の特定部分で基本的な接続を実行せず、粗粒マップを構築するだけです。

一方、BuboGPT は、豊富な情報とテキストと他のモダリティ間の明確な対応を活用して、視覚オブジェクトと特定のモダリティを詳細に理解することができます。

したがって、BuboGPT が画像を記述するとき、画像内のオブジェクトの特定の位置を示すことができます。

5760bdf2a8fff573599a6fb2d843959c.png

BuboGPT: LLM に視覚的な接続性を初めて導入

著者が YouTube で共有した上記の例に加えて、研究チームは論文の中で BuboGPT が実行するさまざまなトリックも実証しました。

ピアノを弾くカエルを見るのは久しぶりです!このようなグラフ BuboGPT も正確に記述できるでしょうか?

87fe12927f1b9a1f3ae4041fd3dd7506.png

Kangkang は一緒にどう答えましたか。

a58ae164e8b377d10ad27d7e288fe8bd.png

カエルのポーズを正確に描写できるだけでなく、手がバンジョーに触れていることもわかりますか?

写真の中で興味深い場所はどこですかと尋ねると、写真の背景にあるものすべてを要約することもできます。

BuboGPT「視力 + 聴力 + 表現力テスト」、研究者はこのように再生します。まずこの音声を聞いてみましょう。

BuboGPT の説明を見てみましょう。

a5221cad0f7f15cd1107bc9c48c7e4bd.png

BuboGPT は、写真の中の人物の性別、音の発生源、写真の中で何が起こったかを正確に理解できます。

Byteは今回、LLMに視覚的な位置決めを導入する方法を使用したため、その効果は非常に優れています。

次に具体的な方法を見ていきます。

BuboGPT のアーキテクチャは、共有された意味論的空間を学習し、さまざまな視覚オブジェクトとさまざまなモダリティの間のきめ細かい関係をさらに探索することによって、マルチモーダルな理解を達成することです。

さまざまな視覚オブジェクトとさまざまなモダリティの間のきめ細かい関係を調査するために、研究者らはまず、SAM に基づいた既製の視覚ローカリゼーション パイプラインを構築しました。

このパイプラインは、タグ付けモジュール、グラウンディングモジュールエンティティ マッチング モジュールの 3 つのモジュールで構成されます

cf021d2211b8383ca655ba94d1359e4f.png

プロセスは大まかに次のとおりです。

まず、ラベリング モジュールは、入力画像に関連付けられた複数のテキスト ラベルを生成できる事前トレーニングされたモデルです。

SAM ベースのローカリゼーション モジュールは、画像上の各テキスト ラベルに関連付けられたセマンティック マスクまたはバウンディング ボックスをさらにローカライズします。

次に、エンティティ マッチング モジュールは LLM の推論機能を利用して、ラベルと画像の説明から一致するエンティティを取得します。

このようにして、研究者は視覚オブジェクトを他のモダリティに接続するための橋渡しとして言語を使用します。

3 つのモードを任意に組み合わせて入力しても良好な結果が得られるようにするために、研究者らは Mini-GTP4 と同様の 2 段階のトレーニング スキームを採用しました。

シングルモーダルの事前トレーニングとマルチモーダルの命令チューニング

5ddf8645c9a255be7a138493657eff84.png

具体的には、BuboGPT はオーディオ エンコーダーとして ImageBind、ビジュアル エンコーダーとして BLIP-2、事前トレーニングされた LLM として Vicuna を使用します。

ユニモーダル事前トレーニング段階では、対応するモダリティ Q-Former レイヤーと線形投影レイヤーが、モダリティとテキストのペアになった大量のデータでトレーニングされます。

視覚に関しては、画像キャプション生成部分の投影レイヤーのみをトレーニングし、BLIP2 の Q-Former を固定したままにします。

音声を理解するために、Q-Former と音声キャプション生成部分の両方をトレーニングしました。

どちらの設定でも、プロンプトを使用せず、モデルは対応する画像または音声のみを入力として受け取り、対応するキャプションを予測します。

04b88f8122c8f12889983cdb702b4019.png
さまざまな入力の例に従う指示

マルチモーダル命令調整ステージでは、次のような線形投影レイヤーを微調整するために、高品質のマルチモーダル命令データセットが構築されます。

  • 画像とテキスト: MiniGPT-4 と LLaVa の 2 つのデータセットを使用した視覚的な命令のチューニング。 

  • オーディオテキスト: 一連の表現的で説明的なデータは、Clotho データセットに基づいて構築されます。 

  • 音声-画像-テキスト: VGGSS データセットに基づいて、<音声、画像、テキスト> の 3 峰性ガイダンス調整データ ペアが構築され、モデルを強化するためにネガティブ サンプルがさらに導入されます。

セマンティックマッチングにネガティブサンプル「画像と音声のペア」を導入することで、BuboGPT の位置合わせが向上し、マルチモーダルな共同理解能力が強化されることは注目に値します。

現在、BuboGPTのコードとデータセットはオープンソース化されており、デモも公開されているので、早速試してみましょう。

デモの浅いプレイ体験

BuboGPT デモページの機能エリアは一目瞭然で、操作も非常に簡単で、右側では写真や音声をアップロードでき、左側では BuboGPT の回答ウィンドウとユーザーの質問ウィンドウが表示されます。

7b0b41d2a26f1792da4fbb4227bd4469.png

写真をアップロードした後、下の最初のボタンをクリックして分割画像をアップロードします。

9f8366eaa65bf0fd899bed4668f99fc0.png

例として万里の長城の写真を取ると、BuboGPT はそれを次のように分解し、山、観光名所、城壁を特定しました。

c4bcf4c787b62d005265d9a86e84aec5.png

私たちがこの絵について説明するよう尋ねたところ、その答えはより具体的で基本的に正確でした。

25a3318d7b8588c93a1d102bf60b7306.jpeg

回答のテキスト内容に応じて、分割ボックスの内容も変更されていることがわかります。

こちらは音声付きの別の画像です。BuboGPT も音源と正しく一致しています。

c64b25a38848bc2b7a285246ba21ddbe.png

もちろん、認識できずに誤った表現をすることもあります。たとえば、下の写真には誰もいませんし、音声はただのベルですが、その説明は写真と一致していないようです。

7c30d263245fa12d4e8b6339b2164784.png

興味のあるご家族は急いで試してみてください~~

ポータル:
[1] https://bubo-gpt.github.io/
[2] https://huggingface.co/spaces/magicr/BuboGPT (デモ)

公式アカウント「機械学習とAI生成の創造」に注目してください。もっと面白いことがあなたを待っています

寝転がって6万語!30方向130記事!CVPR 2023 の最も完全な AIGC 論文! 一気に読んで

安定拡散の簡単解説:AI塗装技術の潜在的な拡散モデルの解釈

制御可能なAIGC絵画生成アルゴリズムControlNetを徹底解説! 

クラシック GAN は次のように読む必要があります: StyleGAN

d58670e02a3ee3d5ef1bcab250d8a513.png GANのシリーズアルバムを見るには私をクリックしてください~!

一杯のミルクティーでAIGC+CVビジョンのフロンティアになろう!

最新かつ充実の100まとめ!拡散モデルの生成 拡散モデル

ECCV2022 | 対立ネットワーク GAN 生成に関する論文まとめ

CVPR 2022 | 25 以上の方向性、最新の 50 の GAN 論文

 ICCV 2021 | 35 のトピックに関する GAN 論文の概要

記事数は110以上!CVPR 2021 で最も完全な GAN ペーパーコーミング

記事数は100以上!CVPR 2020 で最も完全な GAN ペーパーコーミング

新しい GAN の解体: デカップリング表現 MixNMatch

StarGAN バージョン 2: マルチドメイン ダイバーシティ イメージの生成

添付のダウンロード | 「Explainable Machine Learning」の中国語版

添付のダウンロード | 「TensorFlow 2.0 ディープ ラーニング アルゴリズムの実践」

添付のダウンロード | 「コンピューター ビジョンにおける数学的手法」シェア

「深層学習に基づく表面欠陥検出手法の検討」

ゼロショット画像分類の調査: 10 年間の進歩

「ディープニューラルネットワークに基づく少数ショット学習の調査」

『礼書・薛記』には、「友なしで一人で学ぶのは孤独で無知だ」という言葉がある。

ミルク ティー カップをクリックして、AIGC+CV ビジョンのフロンティア ウェイバーになりましょう! 、  AI によって生成された創造物とコンピューター ビジョンの 知識の惑星に参加してください。

おすすめ

転載: blog.csdn.net/lgzlgz3102/article/details/132353387