[共有] Huawei社のクラウドマルチモーダル融合アルゴリズム--Multimodalコンパクトバイリニアプール

マルチモーダルタスクの抽象多くは、二つのモードの機能の統合が必要です。2つのモードの融合を特徴は、特徴ベクトル、融合後の出力ベクトルを入力されます。最も一般的な方法ステッチされる(連結)、ビットごとの乗算(要素ごとの積)、ビット単位の追加(要素単位の合計)。MCBの著者は外積(外積)として有効とこれらの簡単な操作と信じて、二つのモード間の複雑な関係をモデル化するのに十分ではありません。しかし、高度に複雑な問題の外積があります。

マルチモーダルコンパクトバイリニア・プーリング(MCB)来自EMNLP 2016的论文「ビジュアル質問応答およびVisual接地のためのマルチモーダルコンパクトバイリニアプーリング」。

多くのマルチモーダルタスクは、VQA、視覚位置決めように、2つのモダリティ特性の融合を必要とします。2つのモードの融合を特徴は、特徴ベクトル、融合後の出力ベクトルを入力されます。最も一般的な方法ステッチされる(連結)、ビットごとの乗算(要素ごとの積)、ビット単位の追加(要素単位の合計)。MCBの著者は外積(外積)として有効とこれらの簡単な操作と信じて、二つのモード間の複雑な関係をモデル化するのに十分ではありません。しかし、高度に複雑な問題の外積があります。n次元ベクトル外積ベクトルn ^ 2が得られます。MCBは次にMCBを低次元空間の外積の結果にマッピングされ、提示され、明示的に計算された外積を必要としません。

MCB

ベクトルの外積を計算バイリニア(双線形)。双一次は(バイリニアプーリング)がプールされた双一次融合のための特性であるプールされました。[2]は、畳み込み外側のベクトル積計算の位置の各特徴マップの第1の特徴ベクトルをプールバイリニアが行われ、その後、全ての位置に対する特徴ベクトルを得るために、外積の結果をプール和は、x。署名された平方根L2の正規化をXとした後、最終的な特徴を得ます。

しかし、寸法が非常に高い線形文字、コンパクトバイリニアプーリング(CBP)である[3]は縮小寸法の双一次近似のプールです。

バイリニアプーリング操作は以下のように表すことができます。

1583315685666799.png

線形コアの場合は、以下のとおりです。

1583315685904924.png

理由は次のとおりです。

1583315685821705.png

低次元マッピング機能のための核多項式近似Φは、圧縮されたバイリニアをプールするために使用することができます。テンソルスケッチ[4]は、多項式カーネル近似アルゴリズム、圧縮することができるテンソルスケッチです。テンソルスケッチをプールし、双線形アルゴリズムを使用して近似は次のとおりです。

1583371195910834.png

良好な特性を持っているスケッチ機能を数:

1583372146933604.png1583372146899986.png

1583372146349632.png1583372147708476.png

改善されたCBPのためのMCBは、それが異なるモダリティの統合に適していることを特徴とします。図2.に示すように、MCB計算。

1583310843370247.png

まず、2つのモードの特徴ベクトルは、それぞれ、マッピング機能によってスケッチはスケッチをカウントしますカウント得ました。そして、FFTと機能の融合を得るために逆FFT後。

示されるように、特定の計算ステップアルゴリズム1。

1583310853663840.png

VQA

MCBはVQAは、以下のブロック図に適用されます。

1583311878300259.png

MCBは、ここでは2つのモジュール、第MCB融合された画像特徴とテキスト特徴注意重量が各空間位置の画像について計算される使用しました。二MCBは答えを得るために、画像特徴とテキスト機能を融合しました。

以下は、VQAデータセットの融合の様々な方法を用いた実験結果です。

1583311879491397.png

ビジュアルアース

次のようにビジュアルアースブロック図です。

1583311878850097.png

画像融合提案の特徴や問題のMCBテキスト。

以下はFlickr30kエンティティデータセットの結果です。

1583311878854062.png

参考資料

[1]福井A、パークDH、ヤンD、ら。視覚的な質問応答と視覚アース[J]のためのマルチモーダルコンパクトバイリニア・プーリング。arXivのプレプリントarXivの:1606.01847、2016。

きめ細かな視覚的な認識のための[2]林TY、RoyChowdhury A、マジS.バイリニアCNNモデルコンピュータビジョンのIEEE国際会議の[C] //議事。2015:1449年から1457年。

[3]ガオY、Beijbom O、張N、ら。コンパクトバイリニアプーリングコンピュータビジョンとパターン認識に関するIEEE会議の[C] //議事。2016:317-326。

[4]ファムNは、明示的な機能を介したPAGH R.高速かつスケーラブルな多項式カーネルは、知識発見とデータマイニングの第19回ACM SIGKDD国際会議の議事録// [C]にマッピングします。2013:239-247。

[5] https://zhuanlan.zhihu.com/p/62532887

著者:砂糖寧孟

おすすめ

転載: www.cnblogs.com/huaweicloud/p/12523622.html