Meta-Transformer: マルチモーダル学習のための統合フレームワーク

9a7bb35d755867ec12c6a0f0a97e2d64.png

来源:专知
本文约500字,建议阅读5分钟
Meta-Transformer由三个主要组件组成。

617f5adeba8b5e8137757dd0aa99634d.png

しかし、それらの間には固有のギャップがあるため、さまざまなモダリティ (自然言語、2D 画像、3D 点群、オーディオ、ビデオ、時系列、表形式データなど) を処理するための統合ネットワークを設計することは依然として困難です。この研究では、固定エンコーダを利用して、ペアのマルチモーダル トレーニング データなしでマルチモーダル知覚を実行する Meta-Transformer というフレームワークを提案します。Meta-Transformer では、さまざまなモダリティからの生の入力データが共有トークン空間にマッピングされ、固定パラメータを持つ後続のエンコーダーが入力データの高レベルの意味論的特徴を抽出できるようになります。Meta-Transformer は、統合データ トークナイザー、モダリティ共有エンコーダー、およびダウンストリーム タスク用のタスク固有のヘッダーという 3 つの主要コンポーネントで構成されます。Meta-Transformer は、12 のモダリティで統合学習を実行し、不対データを使用できる最初のフレームワークです。さまざまなベンチマークでの実験により、Meta-Transformer が基本的な認識 (テキスト、画像、点群、オーディオ、ビデオ)、実用的なアプリケーション (X 線、赤外線、ハイパースペクトル、IMU)、およびデータ マイニング (グラフ、テーブル、時系列) を含む幅広いタスクを処理できることがわかりました。Meta-Transformer は、トランスフォーマーを使用した統合マルチモーダル インテリジェンスの開発に有望な未来を示しています。コードは https://github.com/invictus717/MetaTransformer で入手できます。

58d3e6d158350188412971665115ba43.png

311cee23734e4fd04f077b17091e1b44.png

おすすめ

転載: blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/131886687