Google と CMU は、LLM が追加のトレーニングなしで視覚的なタスクの実行を学習できるようにする新しいセマンティック ピラミッドの概念を提案しています

3bde3bfe66894efa8780dddde1eb71ad.png

論文リンク: https://arxiv.org/abs/2306.17842
コードリポジトリ: https://github.com/google-research/magvit/

現在の大規模なモデル コミュニティでは、ChatGPT に代表される純粋言語モデル (LLM) は比較的成熟していますが、GPT-4 に代表されるマルチモーダル モデルは比較的ゆっくりと開発されています。したがって、既存の LLM が本来持つ可能性をさらに引き出し、刺激する方法は非常に興味深い方向性となっており、研究者らは、画像やビデオなどの非言語モダリティを含む理解および生成タスクを、凍結された LLM のみを介して実行する方法について考え始めています

この記事では、Google Research とカーネギー メロン大学の研究を紹介します。この研究で著者チームは、入力されたビジュアル コンテンツを豊富なセマンティクスを含むトークンに変換することを目的とした新しい概念「Semantic Pyramid AutoEncoder (SPAE)」を提案しました。トークンは、ピラミッド構造のマルチスケール表現を示します。ピラミッドの上部層には強力な意味中心概念が含まれ、ピラミッドの下部層は入力のキャプチャに焦点を当てます。画像再構成に必要な詳細な外観表現この設計では、入力された視覚情報を、LLM が理解できる埋め込みスペース トークンに直接変換できるため、他の大規模なマルチモーダル モデルのような大規模な画像とテキストのペアを使用せずに、モデルが後続のさまざまなマルチモーダル タスクを直接実行できるようになります。トレーニングによりモデルのコストが大幅に削減されます。著者は、Google の PaLM 2 と OpenAI の GPT 3.5 モデルを基本的な LLM モデルとして使用して実験を行い、さまざまな画像理解および生成タスクに対して In-Context Learning 評価を実施しました。実験結果は、SPAE がネイティブ LLM に理解能力を与えることができることを示しています。視覚的なコンテンツを生成する場合、同じ実験設定の下で他の画像理解 SOTA パフォーマンスを約 25% 上回る可能性があります。

01. はじめに

現在、コミュニティで一般的に見られる LLM は、通常、バックボーンとして Transformer を使用しており、これにより、さまざまな自然言語処理タスクにおいて自然な利点が得られます。特に大規模なコーパスでの事前トレーニングの後、LLM はいくつかの特定の分野にも登場していますインテリジェントな質問応答、コード生成、推論、数学的問題の解決、その他多くの複雑なタスクなどの「創発」現象。LLM は自然の情景に関する豊富な概念的知識をその語彙埋め込みに取り込むことが実証されています。これは自然な疑問につながります。適切な視覚表現が入力として提供された場合、LLM は視覚モダリティ内の複雑なタスクを解決できるでしょうか?  実際のところ、LLM にとって、微調整用のビジュアル サンプルを使用せずにビジュアル コンテンツを直接エンコードして理解することは、非常に困難な作業です。

LLM にそのようなクロスモーダルタスクを解決する能力を与えるために, 本稿では SPAE 法を提案する. SPAE は主に, 一連の特徴エンコーダを学習することによって, 画像や他の非言語モーダル情報を LLM のトークン空間にマッピングする, そして, LLM の強力なパワーを使用して、セマンティックの理解と生成機能を使用して、さまざまな視覚的なタスクを完了します。さらに、SPAE は、エンコードされたセマンティック トークンをピクセル空間に変換して戻す追加のデコーダもセットアップし、視覚空間から LLM 埋め込み空間への情報伝送ブリッジを構築します。特定の実装では、SPAE は、理解タスクを実行するためにより少ないトークンを使用し、生成タスクを実行するためにより多くのトークンを使用するなど、さまざまな下流タスクに適応するためにビジュアル エンコーディング機能の長さを動的に調整できる新しいセマンティック ピラミッド構造を提供します。著者は、SPAE メソッドは LLM に対していかなる形式のパラメータ更新も実行せず、導入されたエンコーダとデコーダを独立してトレーニングするだけであると述べました。さらに、SPAE はプラグ アンド プレイであり、あらゆる LLM と互換性があります。

02. この論文の手法

セマンティック ピラミッド オートエンコーダー (SPAE) の設計の目標は、画像やその他の非言語モダリティ (ビデオやオーディオなど) を、LLM が直接理解できるトークン シーケンスにモデル化することです。トークン シーケンスの長さは、さまざまな形式に対応するために動的に調整できます。下流タスクについては、SPAE の全体的なフレームワーク図を次の図に示します。

b3333dbfc5b541b49957b488edb6480a.png

2.1 セマンティックピラミッドオートエンコーダ

2.2 プログレッシブコンテキストノイズ除去

eedf5682998f4213869e0f2343eaa6b4.png

03. 実験効果

この手法の柔軟性とさまざまな LLM との互換性を検証するために、著者は実験用に 2 つの代表的な LLM (PaLM 2 および GPT 3.5) を選択し、SPAE の 2 つのバリアント、つまり SPAEPaLM と SPAEGPT を構築しまし。以前の方法 [28] を使用すると、SPAE のエンコーダはサイズ 128 × 128 の画像を 6 層のトークン ピラミッドにエンコードできます。この記事での実験には、従来の視覚的分類タスクと、複雑な視覚的理解と推論タスクが含まれており、前者については、mini-ImageNet 上の少数ショット分類ベンチマークで実行しました。

d068789a301349da80c10cfd5860a326.png

上の表は SPAE と他のベースライン手法の比較を示しており、SPAE の両方のバージョンの小さなサンプルの認識パフォーマンスがベースライン手法よりも高いことがわかります。以下の図は、他の 6 つの少数ショット設定におけるこのメソッドのパフォーマンスをさらに示しています。3 つのレイヤーで21 個のトークンを使用する SPAEPaLM が最高のパフォーマンスを達成することがわかります。これは、SPAE がセマンティック概念の純度と順序において最高のパフォーマンスを達成できることを意味します。長さとそれらの間のトレードオフ

d43f3c6f79e74​​368b02a2e2c7371dee6.png

さらに、著者は他の下流タスクでの SPAE のパフォーマンスをさらに調査し、画像からテキストへの生成タスクと VQA タスクについて、著者は LLM のプロンプト情報として COCO データから 10 個のサンプル例を選択し、異なるSPAE 以下の図に示すように、ピラミッド層はテキスト生成を実行します。

308ff13e09b6416b99b547b6e3aae1fb.png

VQA タスクでは、作成者はサンプルごとに 10 の異なる回答を提供して 10 通りの 1 ショット コンテキスト ヒントを形成し、SPAE を使用して新しいクエリ イメージを予測します。次の図は、質問と回答の効果の一部を示しています。

d76fade4f87a446c85a8375d07b65419.png

SPAE が実際にさまざまなスケールでセマンティック概念と画像の詳細をキャプチャできることを明確に検証するために、著者は以下の図のトークン ピラミッドを視覚化します。ここで、レイヤー 1 ~ 4 は最も頻度の高いトークン ヒストグラムであり、レイヤー 5 と 6 はare モデルによって再構成された画像ご覧のとおり、上部のいくつかのトークンは画像の主要な主題を捉えているように見えます。たとえば、オレンジ色の円でマークされたプレッソはエスプレッソ マシンを表し、他のトークン (ブレンダーなど) はその周囲の関連領域を示しています。 。さらに、レイヤ3およびレイヤ4は、それぞれ、ローカルオブジェクトのその他の詳細情報を表す。たとえば、サーモは写真の左上隅にある温度計を指し、ストーブは写真の右下隅に表示されます。

2977004462c0416da4a2a72e494b29b0.png

04. 概要

この論文では、マルチモーダル理解の新しい概念である意味論的ピラミッドを導入し、これに基づいて、大規模な言語モデルが画像やビデオなどの非言語パターンを含む理解および生成タスクを直接実行できるようにするSPAE フレームワークを提案します。 SPAE は、元のピクセルと LLM に含まれる語彙から解釈可能なトークンを抽出し、その 2 つを結び付けることができます。結果として得られるトークンは、視覚的な再構成に必要な意味論的な概念と詳細をキャプチャし、視覚的に効果的に統合できます。コンテンツは、次のようなものに翻訳されます。 LLM は直接理解できるため、さまざまなマルチモーダル ビジョン タスクを実行できます。さらに、SPAE はモデル間互換性があります。動作を開始するには、事前トレーニングされた LLM の API のみが必要です。非常に高い柔軟性と互換性を備えています。これにより、LLM をビジョン コミュニティにより迅速かつ適切に導入する機会が得られます。まったく新しいパラダイム。

参考

[1] Aaron Van Den Oord、Oriol Vinyals 他、ニューラル離散表現学習。NeurIPS、2017. 2、3

[2] Lijun Yu、Yong Cheng、Kihyuk Sohn、José Lezama、Han Zhang、Huiwen Chang、Alexander G Hauptmann、Ming-Hsuan Yang、Yuan Hao、Irfan Essa 他、MAGVIT: マスクされた生成ビデオ トランスフォーマー、CVPR にて、2023 年.3、4、7


 TechBeat 人工知能コミュニティについて

TechBeat (www.techbeat.net) は江門ベンチャーキャピタルと提携しており、世界的な中国の AI エリートが集まる成長コミュニティです。

私たちは、AI 人材向けによりプロフェッショナルなサービスとエクスペリエンスを作成し、彼らの学習と成長を加速し、それに伴っていきたいと考えています。

これが最先端の AI の知識を学ぶための高台、最新の作品を共有するための肥沃な場所、そして AI の進歩に向かうモンスターとアップグレードして戦うための拠点となることを楽しみにしています。

さらに詳しく紹介 >>中国の世界的な AI エリートが集まる学習と成長のコミュニティ TechBeat

おすすめ

転載: blog.csdn.net/hanseywho/article/details/132112219