「論文読解21」等価マルチビューネットワーク

   1. 紙

  • 研究分野: コンピュータビジョン |多視点データ処理における等分散性の実装
  • 論文: 等変マルチビュー ネットワーク
  • ICCV2019

  • ペーパーリンク
  • ビデオリンク

2. 論文の簡単な説明

コンピューター ビジョンでは、モデルは、さまざまな視野角でのデータ (点群、画像など) の変化に対してある程度の応答性を備えています。特定の視点からデータをトレーニングするだけでなく、モデルがこの変化にさらに適応できるようにするために、研究者らは等変マルチビュー ネットワークの概念を提案しました。マルチビュー データを同時に処理し、共有重みやその他のメカニズムを通じてデータの等分散性を維持する機能。

3. 論文の詳細説明

等価マルチビューネットワーク

  • 抽象的な

自然画像で事前トレーニングされたディープ ニューラル ネットワークは、入力画像の複数のビューを独立して処理するために使用され、すべてのビューに対してプーリングのラウンドを実行することによってビュー配置の不変性が実現されます。この操作により重要な情報が破棄され、標準以下のグローバル記述子が生成されると考えられます。この論文では、マルチビュー集約のためのグループ畳み込み手法、つまり、回転グループの離散サブグループでの畳み込みを提案し、最後の層まで、すべてのビューにわたる(不変 このアイデアをさらに発展させて、回転グループ内の小さな離散均質空間を操作します。ここでは、入力ビューの数の一部のみとの等分散性を維持する極ビュー表現を使用します私たちは、複数の大規模な 3D 形状検索タスクに関する新しい最先端の結果を確立し、パノラマ シーン分類における追加のアプリケーションを実証します。

  • 前の研究: 自然画像で事前トレーニングされたディープ ニューラル ネットワークを使用して、入力画像の複数のビューを個別に処理し、すべてのビューに対してプーリングのラウンドを実行することでビューの配置の不変性を実現します。

  • 私たちは、マルチビュー集約のためのグループ畳み込み手法を提案します。つまり、回転グループの離散サブグループでの畳み込みにより、最後の層まで、すべてのビューにわたる(不変

 視点順列不変性とは、3 次元データ (点群や 3D モデルなど) を処理する際に、モデルがさまざまな視野角や観測角度の変化に対して不変であることを意味します。点群処理では、点群の点の順序と配置が異なる視野角で変化する可能性があるため、これらの配置の変更に対する不変性を維持することが、堅牢な特徴抽出と分析を実現するために重要です。

ビューの配置の不変性は、点群の分類、セグメンテーション、オブジェクトの検出など、点群処理の多くのタスクにとって非常に重要です。ビュー配置の不変性を実装すると、モデルが特定の視点からのみ特徴を学習するのを防ぐことができ、モデルがさまざまな視点からの点群データをより適切に一般化できるようになります。

以下に、ビューの配置の不変性を実現するのに役立ついくつかの方法とアイデアを示します

1.さまざまな視野角で点群の特徴を捉え、球面上の等分散性を維持します。

2. 回転不変の特徴抽出方法を設計して、異なる視野角でも点群の特徴が一貫した状態を維持できるようにします。

3. トレーニング中に、ランダムな回転変換を適用してデータの多様性を高めモデルがさまざまな視点から特徴を学習できるようにします。

4.さまざまな視点から抽出された特徴を融合して、より包括的な特徴表現を生成します。

5. **点群の位置合わせ**:トレーニング前に点群を位置合わせして、さまざまな視野角での点の対応をより一貫性のあるものにします。

マルチビュー集約:複数の視点 (または複数の入力) からの情報を統合します。

すべてのビューにわたる結合推論:この方法では、すべてのビューにわたる結合推論が可能になります。つまり、モデルはさまざまなビューからの情報を考慮し、データを処理するときにこのマルチビュー情報を維持できます。

回転グループの個別のサブグループは、一連の個別の回転操作を含む回転グループのサブセットを指します。一般的な例は、Z 軸の離散回転操作を使用して、3 次元空間に離散サブグループを形成することです。これは、他の軸上の回転ではなく、Z 軸を中心に特定の角度を回転する操作のみを考慮することを意味します。このサブグループは、すべての可能な連続回転を考慮するのではなく、いくつかの特定の回転角度のみを考慮するため、離散的です。

回転グループは、可能なすべての連続回転操作を含む連続した無限のグループです。ただし、計算問題または離散問題を検討する場合、問題を単純化したり計算を実行したりするために、回転グループのサブセットが使用されることがあります。

SO(3) 回転グループは、 3 次元空間の原点を静止状態に保つすべての回転操作で構成されます。これらの操作は、任意の軸を中心とした回転を含む 3 次元回転行列で表すことができます。回転グループの要素は、特別な行列式が 1 に等しいという特性を持つ 3x3 の直交行列として表現できます。

 

  • 導入

大規模オブジェクトの 3D データセット [39、3] とシーン全体のデータセット [2、8] の急増に伴い、深層学習モデルをトレーニングして、分類や検索タスクに使用できるグローバル記述子を生成することができます

深層学習モデルをトレーニングして、分類および検索タスクに使用できるグローバル記述子を生成します。

最初に生じる課題は、入力をどのように表現するかです。ボリューム表現 [39、24]、点群表現 [27、32]、およびメッシュベース表現 [23、26] の数多くの試みにもかかわらず、3D 入力の複数のビューを使用すると、2D ドメインに切り替えることができます。学習のブレークスルー (例: [15]) は次元領域に直接適用できるため、最先端のパフォーマンスが促進されます [33、20]。 

マルチビュー (MV) ベースのアプローチには、何らかの形式のビュー プーリングが必要です。

(1) いくつかの中間畳み込み層でのピクセル単位のプーリング [33]、

(2) 最終的な 1D ビュー記述子をプール [34]、

(3) 最終的なロジット [20] を結合します。これは独立した投票とみなすことができます。これらの操作は通常、表示設定に対して不変です。

 

私たちの主なポイントは、ビューセットの共同処理の前に実行される従来のビュー プーリングでは、必然的に有用な機能が破棄され、その結果、標準以下の記述子が生成されるということです。この問題を解決するには、各ビューを回転グループ SO(3)の要素に関連付けることができるため、複数のビューを結合する自然な方法は回転グループの関数として行うことが最初にわかります。

  • 従来のビュー プーリングは、ビューセットの結合処理の前に実行されるため、必然的に有用な機能が破棄され、その結果、標準以下の記述子が生成されます。
  • 各ビューは回転グループ SO(3)の要素に関連付けることができるため、複数のビューを結合する自然な方法は、回転グループの関数として行うことです

この関数を構成するビュー記述子を取得するには、従来の CNN を採用します。グループ変換と等価な表現を学習するために、グループ畳み込みネットワーク (G-CNN、[5] に触発された) を設計します。最後の G-CNN 層をプールすることにより、分類と検索に役立つ不変記述子を取得します。私たちの G-CNN はグループに関する記述子をローカルにサポートしており、層の数が増加して受容野が拡大するにつれて、より複雑な階層記述子を学習できるようになります。

連続グループを操作する [6, 10] とは異なり、複数のビューの有限な性質を利用し、二十面体のような有限回転グループを考慮します。グループ要素ごとに 1 つのビューを処理する計算コストを削減するために、面内拡張回転グループ (対数極座標) に関連する正準座標ビューを考慮することで、ビューの数を大幅に削減し、均一な空間を取得できることを示します ( H 空間)は、算術関係を維持しながら相関によって改善できます。 

私たちは 3D 形状に焦点を当てていますが、パノラマ シーンでの実験で示されているように、モデルは複数のビューで入力を表現できるあらゆるタスクに適用できます。

等変特徴 (等変特徴) とは、入力データの特定の変換の下で、特徴も特定の方法で対応する変換を受けることを意味します。コンピューター ビジョンとディープ ラーニングでは、特に画像、点群、3D モデルなどの変換対称性を持つデータを扱う場合、等分散性は重要な特性です。

等変特徴は、データの主要な特徴をより適切に捕捉できるため、入力データの変換された性質を保持するのに役立ち、それによってモデルの汎化能力とパフォーマンスが向上します。たとえば、3D 点群データの場合、等変フィーチャは、データが回転したり、平行移動したりしたときに、対応するフィーチャの変化を維持できるため、モデルはさまざまな視野角や変換に適切に適応できます。

点群処理では、等変特徴量の実現には、次のような特殊な方法とテクノロジが必要です。

1. **回転等分散**: ニューラル ネットワーク アーキテクチャを設計することにより、ネットワーク入力データが回転すると、それに応じて特徴も回転するため、回転等分散が実現されます。

2. **球面 CNN**: 球面データ (球面点群など) を処理するために使用されるネットワークで、球面上の回転変動を維持することで、点群のさまざまな視点から意味のある特徴を抽出できます。

3. **変換行列ベースの操作**: 変換行列を使用して点群の変換を定義し、これらの変換操作をニューラル ネットワークに組み込んで等変特徴をキャプチャします。

4. **グループ CNN**: 変換対称データを処理できるように、特定のグループ (回転グループなど) 変換の下で等変になるようにネットワーク構造を設計します。

等変特徴量を実装するには、多くの場合、モデルがデータ変換時に特徴量を正確にキャプチャして表現できるようにするための、数学的および幾何学的な深い知識が必要です。これは、画像のような固定構造を持たず、等分散性を達成するために特別な処理方法を必要とする点群などの不規則なデータを扱う場合に特に重要です。

グループ畳み込みは、特定の対称性または構造を持つデータを処理するために使用される畳み込みニューラル ネットワーク (CNN) の操作です。グループ畳み込みでは、入力データの特定の対称性がある程度維持され、データの特性をより効果的に捉えることができます。

グループコンボリューションでは、コンボリューションカーネルを複数のグループ(グループ)に分割し、各グループ内のコンボリューションカーネルは、対応するグループ内の入力チャネルとのコンボリューション演算のみを実行します。このグループ化操作は特定の等分散を達成するのに役立ち、モデルが変換対称性を持つデータをより適切に処理できるようになります。

たとえば、RGB 画像を処理する場合、3 つのカラー チャネル (赤、緑、青) を異なるグループに分割し、各グループ内で畳み込み演算を実行できます。この操作によりカラー チャネル間の対称性が維持されるため、色の特徴に関する情報を抽出するのに役立ちます。

点群処理では、グループ畳み込みも適用できます。点群データに特定の構造または対称性がある場合、点群を異なるグループに分割し、各グループ内で畳み込み演算を適用してデータの等分散性を維持できます。

グループ畳み込みには次のような利点があります。

1. **パラメータと計算量の削減**: グループコンボリューションではコンボリューションカーネルがグループ化されているため、パラメータ数と計算量を削減でき、学習と推論をある程度高速化できます。

2. **特定の対称性を維持**: グループ畳み込みは、モデルが入力データの特定の対称性または構造を捕捉するのに役立ち、それによってモデルのパフォーマンスが向上します。

3. **過学習の削減**: グループ化操作により、各グループ内でのパラメーターの共有を制限でき、過学習のリスクを軽減できます。

グループ畳み込みは、特定の対称性または構造を持つ一部のデータには適していますが、すべての状況に適しているわけではないことに注意してください。ネットワーク アーキテクチャを設計するときは、データの特性とタスクの要件に基づいてグループ畳み込みを使用するかどうかを決定する必要があります。

 

図 1 はモデルを示しています。私たちの貢献は次のとおりです。 

  • 3 次元形状の「アウトサイドイン」ビューでも、パノラマ ビューの「インサイドアウト」ビューでも、複数のビューを集約する新しい方法を紹介します。私たちのモデルは基礎となるグループ構造を利用し、グループの循環の関数である等変特徴をもたらします。
  • 面内回転を介して正準座標に変換し、その後均一空間畳み込みを行うことで、非対称性を維持しながらビューの数を削減できる方法を紹介します。
  • 私たちは有限回転群と均質空間を探索し、これまでで最大の群である二十面体群に関する離散 G-CNN モデルを提案します。このグループのフィルター ローカリゼーションの概念をさらに検討します。
  • 正準姿勢と回転摂動の両方の下で、複数の形状検索ベンチマークで最先端のパフォーマンスを達成し、パノラマ シーン分類への応用を示します。

 

図 1: 私たちの等変マルチビュー ネットワークは、回転グループの関数として複数のビューを集約し、グループ畳み込みを通じてそれらを処理します。これにより、 3 次元回転の等分散性が保証され、すべてのビューにわたる共同推論が可能になり、結果として優れた形状記述子が得られます。20 面体グループのベクトル値関数は 5 辺 12 面体に示され、等次空間 (H 空間) 上の対応する関数は 12 面体と 20 面体に示されます。各ビューはまず CNN によって処理され、結果の記述子はグループ (または H 空間) 要素に関連付けられます。ビューが H 空間として識別されると、最初の操作は、フィーチャをグループ相関にプロモートすることです。グループの初期表現を取得したら、グループ CNN を適用できます。

  • 関連作業

3D形状解析

3D 形状解析のパフォーマンスは、入力表現に大きく依存します。主な表現は、ボリューム、点群、およびマルチビューです。

ボリューム手法の初期の例としては、ModelNet データセットを導入し、ボクセル表現に基づく深い信念ネットワークを使用して 3D 形状分類器をトレーニングした [3] と、3D 畳み込み層と全結合層を使用した方法を提案した [24] があります。建築。

Su et al. [33] は、3D 入力の複数のビューをレンダリングすることで、画像ベースの CNN の機能を 3D タスクに転送できることに気づきました。彼らは、入力の単一ビューのみを使用する場合でも、従来の CNN が容積測定法より優れたパフォーマンスを発揮できること、およびマルチビュー (MV) モデルが分類精度をさらに向上させることを示しています。

Qi et al. [28] はボリューム法とマルチビュー法を研究し、両方の改善を提案し、Kanezaki et al. [20] はカテゴリとポーズのパフォーマンスを共同で予測することで最先端の分類を実現する MV 手法を導入しましたが、明示的なポーズの監督なしで。

GVCNN [12] は、異なるビュー記述子を組み合わせてビュー グループ形状表現を取得する方法を学習しようとしています。GVCNN では、特徴の任意の組み合わせを「グループ」と呼びます。これは、代数的に定義される「グループ」という用語の使用とは異なります。

点群ベースの方法 [27] は、ボリュメトリックとマルチビューの中間のパフォーマンスを達成しますが、計算効率はより高くなります。グリッドはおそらく最も自然な表現であり、コンピューター グラフィックスで広く使用されていますが、グリッド上で直接動作する学習モデルは限られた成功しか収めていません [23、26]。

3D 形状記述子をより適切に比較するために、検索パフォーマンスに焦点を当てます。最近の方法では、検索において大幅な改善が見られました。[41] 点群と MV 表現を組み合わせたもの、Yavartanoo ら [40] は多視点カイフラット投影を導入したもの、Han ら [14] は再帰的 MV 法を実装したものです。

また、ModelNet の回転と、回転された形状を含む SHREC'17 [29] 検索チャレンジのより困難なタスクも考慮します。任意の回転の存在は、等変表現の使用を動機付けます。

等変表現

任意の方向の 3 次元形状を処理するために、多くの回避策が導入されています。典型的な例には、トレーニング時の回転拡張やテスト時の投票 [28]、標準ポーズへの初期回転の学習 [27] が含まれます。[33] のビュー プーリングは、入力ビュー セットの配置に対して不変です。

回転を処理する基本的な方法は、等変になるように設計された表現を使用することですCNN に等分散を埋め込むには、主に 3 つの方法があります。

1 つ目の方法は、フィルター構造を制約することです。これは、リー生成器 [30、17] に基づく方法に似ています。Worral et al. [38] は、円高調波を使用して、並進と 2D 回転の両方の等分散を CNN に導入しました。同様に、Thomas et al. [35] は、3D 点群の並進および回転の等分散を維持するためにテンソル場を導入しました。

2 番目の方法は、座標の変更によるものです。[11, 18]入力に対して対数極変換を実行し、単一点に関する回転とスケーリングの等分散を平行移動の等分散に変換します。

3 番目の方法は、軌道の等変フィルタリングを使用することです。Cohen と Welling は、正方形回転グループを使用したグループ コンボリューション (G-CNN) [5] を提案しました。これは、後に六角形に拡張されました[19]。Worrall と Brostow [37] は、3D ボクセル化データ上で Klein 4 グループを使用する CubeNet を提案しました。Winkels et al. [36] は、八面体対称グループのボリューム CT 画像に 3 次元グループ コンボリューションを実装しました。Cohen et al. [7] は最近、二十面体上の関数を検討しましたが、彼らの畳み込みは私たちのような二十面体ではなく、循環群上で行われました。Esteves ら [10] と Cohen ら [6] は、無限群 SO(3) に焦点を当て、球面調和変換を使用して球面たたみ込みまたは相関を正確に実装します。これらの方法の主な問題は、入力された球面表現がオブジェクト形状の複雑さを捉えることができないこと、また効率が低く、帯域幅の課題に直面していることです。

  • 予選

私たちはデータの対称性を活用しようとしています。対称性は、オブジェクトの構造を維持する操作です。オブジェクトが追加の構造を持たない個別のコレクションである場合、各操作はその要素の並べ替えとして見ることができます。 

群という用語は、閉包性、結合性、恒等性、および反転特性を満たす演算を行う集合の古典的な代数的定義に使用されます。順列のような変換グループは、「抽象グループと対称性の概念の間のミッシング リンク」です [25]。

ビューとは、指向性カメラから撮影された画像と呼ばれます。これは、固定物体に向けられた移動カメラの場合は外側から内側、別の方向に向けられた固定カメラの場合は内側から外側という、光軸方向を基準とした視点とは異なります。同じ視点から複数のビューを取得でき、それらは面内回転によって関連付けられます。

外側から内側: 異なる方向を向いた固定カメラの場合

インサイドアウト: 同じ視点から複数のビューをキャプチャする 

等分散性

等変表現を設計することは、対称性を利用する効果的な方法です。集合 X と変換グループ G を考えてみましょう。集合 X と変換グループ G を考えてみましょう。

おすすめ

転載: blog.csdn.net/peng_258/article/details/132591021