アウフェイ寺院からの西風 Qubit | パブリックアカウント QbitAI
ビッグバイトモデル、BuboGPTが登場。
テキスト、画像、音声の 3 つのモードをサポートし、きめ細かいマルチモーダル共同理解を実現します。
どこに答えて何を言うべきか、何が言われ、何が言われないかは一目瞭然です。
「賢い目」を持つだけでなく「賢い耳」もあります。BuboGPT は人間が気付かない詳細を聞くことができます。
前方に高いエネルギーが!
3 つのモーダルの共同理解、テキストの説明 + 画像の位置 + 音声の位置、ワンクリックで取得し、音の発生源を正確に特定します。
心配しないでください、まだ終わっていません!
音声と画像の間に直接の関係がない場合でも、この 2 つの関係の可能性は合理的に説明できます。また、画像を見て音を識別することでストーリーを伝えることも可能です。
このように見ると、BuboGPT はある程度の作業を行いますが、これは十分「問題ありません」です。
研究者らによると、
最近開発された MiniGPT-4、LLaVA、X-LLM などのマルチモーダル大規模モデルは、入力の特定部分で基本的な接続を実行せず、粗粒マップを構築するだけです。
一方、BuboGPT は、豊富な情報とテキストと他のモダリティ間の明確な対応を活用して、視覚オブジェクトと特定のモダリティを詳細に理解することができます。
したがって、BuboGPT が画像を記述するとき、画像内のオブジェクトの特定の位置を示すことができます。
BuboGPT: LLM に視覚的な接続性を初めて導入
著者が YouTube で共有した上記の例に加えて、研究チームは論文の中で BuboGPT が実行するさまざまなトリックも実証しました。
ピアノを弾くカエルを見るのは久しぶりです!このようなグラフ BuboGPT も正確に記述できるでしょうか?
Kangkang は一緒にどう答えましたか。
カエルのポーズを正確に描写できるだけでなく、手がバンジョーに触れていることもわかりますか?
写真の中で興味深い場所はどこですかと尋ねると、写真の背景にあるものすべてを要約することもできます。
BuboGPT「視力 + 聴力 + 表現力テスト」、研究者はこのように再生します。まずこの音声を聞いてみましょう。
BuboGPT の説明を見てみましょう。
BuboGPT は、写真の中の人物の性別、音の発生源、写真の中で何が起こったかを正確に理解できます。
Byteは今回、LLMに視覚的な位置決めを導入する方法を使用したため、その効果は非常に優れています。
次に具体的な方法を見ていきます。
BuboGPT のアーキテクチャは、共有された意味論的空間を学習し、さまざまな視覚オブジェクトとさまざまなモダリティの間のきめ細かい関係をさらに探索することによって、マルチモーダルな理解を達成することです。
さまざまな視覚オブジェクトとさまざまなモダリティの間のきめ細かい関係を調査するために、研究者らはまず、SAM に基づいた既製の視覚ローカリゼーション パイプラインを構築しました。
このパイプラインは、タグ付けモジュール、グラウンディングモジュール、エンティティ マッチング モジュールの 3 つのモジュールで構成されます。
プロセスは大まかに次のとおりです。
まず、ラベリング モジュールは、入力画像に関連付けられた複数のテキスト ラベルを生成できる事前トレーニングされたモデルです。
SAM ベースのローカリゼーション モジュールは、画像上の各テキスト ラベルに関連付けられたセマンティック マスクまたはバウンディング ボックスをさらにローカライズします。
次に、エンティティ マッチング モジュールは LLM の推論機能を利用して、ラベルと画像の説明から一致するエンティティを取得します。
このようにして、研究者は視覚オブジェクトを他のモダリティに接続するための橋渡しとして言語を使用します。
3 つのモードを任意に組み合わせて入力しても良好な結果が得られるようにするために、研究者らは Mini-GTP4 と同様の 2 段階のトレーニング スキームを採用しました。
シングルモーダルの事前トレーニングとマルチモーダルの命令チューニング。
具体的には、BuboGPT はオーディオ エンコーダーとして ImageBind、ビジュアル エンコーダーとして BLIP-2、事前トレーニングされた LLM として Vicuna を使用します。
ユニモーダル事前トレーニング段階では、対応するモダリティ Q-Former レイヤーと線形投影レイヤーが、モダリティとテキストのペアになった大量のデータでトレーニングされます。
視覚に関しては、画像キャプション生成部分の投影レイヤーのみをトレーニングし、BLIP2 の Q-Former を固定したままにします。
音声を理解するために、Q-Former と音声キャプション生成部分の両方をトレーニングしました。
どちらの設定でも、プロンプトを使用せず、モデルは対応する画像または音声のみを入力として受け取り、対応するキャプションを予測します。
△さまざまな入力の例に従う指示
マルチモーダル命令調整ステージでは、次のような線形投影レイヤーを微調整するために、高品質のマルチモーダル命令データセットが構築されます。
画像とテキスト: MiniGPT-4 と LLaVa の 2 つのデータセットを使用した視覚的な命令のチューニング。
オーディオテキスト: 一連の表現的で説明的なデータは、Clotho データセットに基づいて構築されます。
音声-画像-テキスト: VGGSS データセットに基づいて、<音声、画像、テキスト> の 3 峰性ガイダンス調整データ ペアが構築され、モデルを強化するためにネガティブ サンプルがさらに導入されます。
セマンティックマッチングにネガティブサンプル「画像と音声のペア」を導入することで、BuboGPT の位置合わせが向上し、マルチモーダルな共同理解能力が強化されることは注目に値します。
現在、BuboGPTのコードとデータセットはオープンソース化されており、デモも公開されているので、早速試してみましょう。
デモの浅いプレイ体験
BuboGPT デモページの機能エリアは一目瞭然で、操作も非常に簡単で、右側では写真や音声をアップロードでき、左側では BuboGPT の回答ウィンドウとユーザーの質問ウィンドウが表示されます。
写真をアップロードした後、下の最初のボタンをクリックして分割画像をアップロードします。
例として万里の長城の写真を取ると、BuboGPT はそれを次のように分解し、山、観光名所、城壁を特定しました。
私たちがこの絵について説明するよう尋ねたところ、その答えはより具体的で基本的に正確でした。
回答のテキスト内容に応じて、分割ボックスの内容も変更されていることがわかります。
こちらは音声付きの別の画像です。BuboGPT も音源と正しく一致しています。
もちろん、認識できずに誤った表現をすることもあります。たとえば、下の写真には誰もいませんし、音声はただのベルですが、その説明は写真と一致していないようです。
興味のあるご家族は急いで試してみてください~~
ポータル:
[1] https://bubo-gpt.github.io/
[2] https://huggingface.co/spaces/magicr/BuboGPT (デモ)
公式アカウント「機械学習とAI生成の創造」に注目してください。もっと面白いことがあなたを待っています
寝転がって6万語!30方向130記事!CVPR 2023 の最も完全な AIGC 論文! 一気に読んで
制御可能なAIGC絵画生成アルゴリズムControlNetを徹底解説!
クラシック GAN は次のように読む必要があります: StyleGAN
GANのシリーズアルバムを見るには私をクリックしてください~!
一杯のミルクティーでAIGC+CVビジョンのフロンティアになろう!
ECCV2022 | 対立ネットワーク GAN 生成に関する論文まとめ
CVPR 2022 | 25 以上の方向性、最新の 50 の GAN 論文
ICCV 2021 | 35 のトピックに関する GAN 論文の概要
記事数は110以上!CVPR 2021 で最も完全な GAN ペーパーコーミング
記事数は100以上!CVPR 2020 で最も完全な GAN ペーパーコーミング
新しい GAN の解体: デカップリング表現 MixNMatch
StarGAN バージョン 2: マルチドメイン ダイバーシティ イメージの生成
添付のダウンロード | 「Explainable Machine Learning」の中国語版
添付のダウンロード | 「TensorFlow 2.0 ディープ ラーニング アルゴリズムの実践」
添付のダウンロード | 「コンピューター ビジョンにおける数学的手法」シェア
「ディープニューラルネットワークに基づく少数ショット学習の調査」
『礼書・薛記』には、「友なしで一人で学ぶのは孤独で無知だ」という言葉がある。
ミルク ティー カップをクリックして、AIGC+CV ビジョンのフロンティア ウェイバーになりましょう! 、 AI によって生成された創造物とコンピューター ビジョンの 知識の惑星に参加してください。