来源:专知
本文约500字,建议阅读5分钟
Meta-Transformer由三个主要组件组成。
しかし、それらの間には固有のギャップがあるため、さまざまなモダリティ (自然言語、2D 画像、3D 点群、オーディオ、ビデオ、時系列、表形式データなど) を処理するための統合ネットワークを設計することは依然として困難です。この研究では、固定エンコーダを利用して、ペアのマルチモーダル トレーニング データなしでマルチモーダル知覚を実行する Meta-Transformer というフレームワークを提案します。Meta-Transformer では、さまざまなモダリティからの生の入力データが共有トークン空間にマッピングされ、固定パラメータを持つ後続のエンコーダーが入力データの高レベルの意味論的特徴を抽出できるようになります。Meta-Transformer は、統合データ トークナイザー、モダリティ共有エンコーダー、およびダウンストリーム タスク用のタスク固有のヘッダーという 3 つの主要コンポーネントで構成されます。Meta-Transformer は、12 のモダリティで統合学習を実行し、不対データを使用できる最初のフレームワークです。さまざまなベンチマークでの実験により、Meta-Transformer が基本的な認識 (テキスト、画像、点群、オーディオ、ビデオ)、実用的なアプリケーション (X 線、赤外線、ハイパースペクトル、IMU)、およびデータ マイニング (グラフ、テーブル、時系列) を含む幅広いタスクを処理できることがわかりました。Meta-Transformer は、トランスフォーマーを使用した統合マルチモーダル インテリジェンスの開発に有望な未来を示しています。コードは https://github.com/invictus717/MetaTransformer で入手できます。