ディープマルチモーダルサブスペースクラスタリングネットワーク

ディープマルチモーダルサブスペースクラスタリングネットワーク

作者:Mahdi Abavisani、学生メンバー、IEEE、およびVishal M. Patel、シニアメンバー、IEEE IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING、VOL。12、いいえ。2018年12月6日

これはマルチビュークラスタリングに関する記事です。次に、いくつかの記事の元のテキストを貼り付けます。読みやすくするために、中国語を直接貼り付けます。

概要

畳み込みニューラルネットワークに基づく教師なしマルチモーダル部分空間クラスタリングアルゴリズムを提案します。フレームワークは主に、マルチモーダルエンコーダー、自己表現レイヤー、マルチモーダルデコーダーの3つの部分で構成されています。エンコーダーはマルチモーダルデータを入力として受け取り、それを潜在的な空間表現に融合します。自己表現層は、自己表現を強化し、データポイントに対応するアフィニティマトリックスを取得する役割を果たします。デコーダーは元の入力データを再構築します。ネットワークは、デコーダーの再構築と元の入力の間の距離をトレーニングに使用します。私たちは、初期、後期、中期の融合技術を研究し、空間融合のための3つの異なるエンコーダーを提案しました。異なる空間融合方法では、自己表現レイヤーとマルチモーダルデコーダーは本質的に同じです。さまざまな空間融合手法に加えて、アフィニティ融合に基づくネットワークも提案されており、ネットワーク内の異なるモードに対応する自己表現層は同じです。3つのデータセットでの多数の実験は、提案された方法が最も高度なマルチモーダル部分空間クラスタリング方法よりも大幅に優れていることを示しています。

著者は実際に2つの方法を提案しました。1つは初期、後期、中期に基づく融合技術です。3つの技術の違いは、エンコーダーが異なることです。自己表現層とデコーダー層は同じです(次の図abc)、著者はこれを呼び出します:空間融合ベースのディープマルチモーダルサブスペースクラスタリング:空間フュージョンに基づくディープマルチモーダルサブスペースクラスタリング。後者はアフィニティーフュージョンに基づくネットワークであり(下の図d)、著者はこれをアフィニティーフュージョンベースのディープマルチモーダルサブスペースクラスタリング:アフィニティーフュージョンに基づくディープマルチモーダルサブスペースクラスタリングと呼んでいます。次に、これら2つの方法について個別に説明しましょう

ここに画像の説明を挿入

空間融合ベースのディープマルチモーダルサブスペースクラスタリング

ディープモーダル部分空間クラスタリングネットワークを構築しました。私たちのフレームワークは、エンコーダー、完全に接続された自己表現レイヤー、デコーダーの3つの主要コンポーネントで構成されています。エンコーダーを使用して空間融合を実現してから、融合表現を自己表現レイヤーにフィードバックすることをお勧めします。自己表現レイヤーは、基本的に関節表現の自己表現機能を使用します。次に、自己表現層の出力から生成された結合表現は、結合潜在表現から異なるモードを再構築するマルチモーダルデコーダに供給されます。

AutoEncoderのアップグレード版だと思います。つまり、入力が複数で、入力がマージされ、中間の隠れ層が取得され、次に中間の隠れ層が最適化されて自己表現層が取得されます。 、次に新たに得られた自己表現層表現層をデコードし、複数の出力を取得し、入力と出力の差によって損失を構成します。
ここに画像の説明を挿入
上の写真は初期融合です。これは、機能レベルでのマルチモーダルデータの融合を指し、それを畳み込みのためにネットワークに入力してから、中間層を取得し、中間層が自己表現を行います。次に、式レイヤーデコーダーから出力結果を取得します。
ここに画像の説明を挿入
次に、実際には最初に畳み込みである後の融合技術があり、次に前の段階とそれほど変わらない融合があります。
ここに画像の説明を挿入
次に、中期的な統合がありますが、これは最初の2つとはまだ異なります。この融合では、ネットワークの中間層からの特徴マップが組み合わされて、より良い結合表現が実現されます。通常のアプローチは、弱いパターンまたは関連するパターンを早い段階でグループ化し、残りの強いパターンを高度な段階でマージすることです。
ストロングモードとは何ですか?ウィークモードとは何ですか?著者の発言をご覧ください。ここに画像の説明を挿入
この実験では、マルチモーダル法に次の中間空間構造を追加します。可視領域がメインモードであると仮定して、第2層のS0、S1、およびS2モードを統合し、それらの融合出力を第3層のDPサンプルと組み合わせます。最後に、結果をエンコーダーの最後のレイヤーの表示ドメインとマージします。つまり、作成者はS0、S1、およびS2が弱いモードであると考えているため、最初にマージし、次にDPとマージし、最後に可視とマージします。最後にマージしたため、新しい式の割合が大きくなります。早すぎる割合は徐々に小さくなります。

統合には3つの方法があります

ここに画像の説明を挿入
ここでは3つの表現ですが、最初の表現が複数の表現で同じ位置にある特徴を合計することであることがわかります。2つ目は最大のものを取得することであり、3つ目は元の1次元の特徴をM(ビューの数)次元のテンソルに変換することです。3つの融合方法です。次に、セグメントの反対側のトレーニング最適化機能を紹介します。

エンドツーエンドのトレーニング目標

ここに画像の説明を挿入
最初にΘsを最小化し、次にモデル入力を最小化しますか?中間層と自己表現層の違い、次に各形状と各形状出力の違いを最小化します。λ1とλ2は2つの正則化パラメーターであり、∥・∥pはl1またはl2ノルムのいずれかです。

アフィニティ融合ベースのディープマルチモーダルサブスペースクラスタリング

実際、上記の基盤があれば、これは簡単です。

このセクションでは、クロスデータパターンを融合してより良いクラスタリングを実現するための新しい方法を提案します。空間融合法では、より良いクラスタリング効果を得るために、異なるパターンのサンプルを整列させる必要があります(図4を参照)。対照的に、提案された親和性融合法は、自己発現層の類似性を組み合わせて、マルチモーダルデータの共同表現を取得する。これは、ネットワークに結合アフィニティマトリックスを強制することによって実現されます。これにより、データの整列やフュージョン出力出力(接続など)の次元の増加の問題が回避されます。共有接続行列を実装する動機は、あるモデルで類似している(異なる)データが他のモデルでも類似している(異なる)必要があるということです。図5は、モードに同じ親和性マトリックスを共有させることによって提案された親和性融合方法の例を示しています。
ここに画像の説明を挿入
DSCフレームワーク[16]では、親和性マトリックスは自己表現レイヤーの重みから次のように計算されます:
W = |Θs| + |ΘsT|、
Θsに対応する自己表現レイヤーの重みはエンドツーエンドで学習されますトレーニング戦略を終了する[16]。したがって、Θを共有すると、コモンモードWになります。さまざまなエンコーダー、デコーダー、および潜在的な特性がありますが、実行モードは共通のΘを共有します。
それから彼のネットワークアーキテクチャはここに画像の説明を挿入

これは融合技術を使用しません。自己表現レイヤーを同じに強制し、自己表現レイヤーを一緒にトレーニングするため、各ビューは別々にトレーニングされ、そのセグメントの反対の表現はここに画像の説明を挿入
上記とは異なります。上記はすべてです融合後のビュー自己表現レイヤー、これは各ビューに独自の表現レイヤーがあり、ほとんどすべてが同じであるということです。しかし、発現層の喪失も蓄積する必要があります。だから、それはほとんどそれを意味します。

結論

マルチモーダルデータクラスタリングのための深いマルチモーダル部分空間クラスタリングネットワークが提案されている。特に、空間融合とアフィニティ融合の2つの融合技術が提案されています。深いマルチモーダル部分空間クラスタリングのタスクでは、空間融合法がモード間の空間的対応に依存していることを観察します。一方、提案されたアフィニティー融合は、すべてのモデル間で共有されるアフィニティーを見つけ、実行されたすべての実験で最も高度な結果を提供します。この方法は、拡張Yale-Bデータセット内の画像をクラスター化し、その計算能力は99.22%、正規化された相互情報量は98.89%、調整されたrandインデックスは98.38%です。

最後に、親和性行列Wが得られ、目標が達成されます。

ここに画像の説明を挿入
ここでのCはΘです。コード実行のネットワークアーキテクチャは以下に掲載されています。読んだ後はより明確になるはずです。特定のドキュメントはBaiduからダウンロードできます。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/Asure_AI/article/details/102753565