素晴らしい統合がここにあります: マルチモーダル共有パラメーターを備えたメタトランスフォーマー

プロデューサー: Towhee テクニカルチーム

著者: チャン・チェン

一般的な人工知能の多くの可能な開発方向の中で、マルチモーダルラージモデル (MLLM) は多くの注目を集めている重要な方向となっています。GPT-4 がグラフィック理解に与える影響により、より多くのモードの理解が学界で話題になっていますが、本当にこの時代が来るのでしょうか?

香港中文大学マルチメディア研究所と上海人工知能研究所の研究チームは、統合マルチモーダル学習フレームワークであるメタトランスフォーマーを提案しました。複数のモーダル情報の統合学習を通じて、モデルは 12 のモダリティを理解し、共有することを学習できます。追加のトレーニングなしでネットワークパラメータを学習します。

代替|Meta-TransformerがサポートするモダリティとImageBindとの比較

この論文では、図に示すように、画像、自然言語、点群、オーディオ スペクトログラム、ビデオ、赤外線、ハイパースペクトル、X 線、IMU、表形式、グラフ、時系列データを含む 12 のモダリティを処理するためのトランスフォーマー アーキテクチャの可能性を探ります。 。

この論文では、各モダリティのトランスフォーマー学習プロセスについて説明し、それらを単一のフレームワークに統合するという課題に対処し、メタトランスフォーマーと呼ばれるマルチモーダル学習のための新しい統合フレームワークを提案します。Meta-Transformer は、同じパラメータ セットを使用して十数のモダリティからのデータを同時にエンコードする最初のフレームワークであり、マルチモーダル学習に対するより一貫したアプローチを可能にします。Meta-Transformer は、データからシーケンスへのトークン化のためのモダリティ エキスパート、モダリティ間で表現を抽出するためのモダリティ共有エンコーダ、およびダウンストリーム タスクのためのタスク固有のヘッドという 3 つのシンプルかつ効果的なコンポーネントで構成されています。

具体的には、Meta-Transformer はまず、マルチモーダル データを共通の多様体空間を共有する一連のトークンに変換します。次に、凍結されたパラメータを持つモダリティ共有エンコーダが表現を抽出します。表現は、ダウンストリーム タスク ヘッダーと軽量トークナイザーのパラメータを更新するだけで、個々のタスクにさらに適応されます。最後に、タスク固有のモダリティ表現と一般的なモダリティ表現を、この単純なフレームワークによって効率的に学習できます。Meta-Transformer は、トランスフォーマーを使用して統合されたマルチモーダル インテリジェンスを開発するという大きな可能性を予告します。

このペーパーでは、12 のモードのさまざまなベンチマークについて広範な実験を実施しています。LAION-2B データセットの画像のみを事前トレーニングすることにより、Meta-Transformer は複数のモダリティからのデータ処理において優れたパフォーマンスを示し、さまざまなマルチモーダル学習タスクにおいて常に最先端の手法を上回ります。

代替|異なるモダリティのデータについては、異なるモダリティの情報特性に基づいて対応する特徴シーケンス構築方法が設計され、その後、取得された特徴シーケンスが事前トレーニング後にパラメータが固定されたエンコーダに入力され、抽出された表現が可能になります。複数の下流タスクを 1 つのモダリティで解決します。

この記事では、Meta-Transformer のいくつかの制限についても述べています。

  • 複雑さ: メタ トランスフォーマーは大量の計算を必要とします。高いメモリコストと重い計算負荷により、モデルの規模とデータサイズをスケールアップすることが困難になります。
  • 方法論: TimeSformer や Graphormer の軸方向の注意メカニズムと比較すると、Meta-Transformer には時間的および構造的な認識が欠けています。この制限は、ビデオの理解、視覚的な追跡、ソーシャル ネットワークの予測など、時間的および構造的なモデリングが重要な役割を果たすタスクにおける Meta-Transformer の全体的なパフォーマンスに影響を与える可能性があります。
  • 応用: Meta-Transformer は主にマルチモーダルな知覚においてその利点を発揮します。モダリティを超えて生成するその能力はまだ不明です。

全体として、この論文では統合マルチモーダル学習のための共通トランスフォーマーの可能性を検討し、トランスフォーマー バックボーンを使用して統合マルチモーダル インテリジェンスを開発するという有望な傾向を強調しています。この論文は、次世代ネットワークにおける変圧器の優位性をある程度裏付けています。重要なのは、CNN と MLP もそれほど遅れをとっていないということです。これらは、データのトークン化と表現投影において重要な役割を果たします。このプロセスは、ニューラル ネットワークの継承法則と人工知能の継続的な進化を具体化しています。

  • 関連リンク:

コードアドレス: https://github.com/invictus717/MetaTransformer

論文アドレス: https://arxiv.org/pdf/2307.10802v1.pdf

この記事はmdniceマルチプラットフォームによって公開されています

おすすめ

転載: blog.csdn.net/weixin_44839084/article/details/131942609