RGB-D 画像に基づくマルチモーダル機能融合

RGB-D 画像に基づくマルチモーダル機能融合


アイデアの融合

デプスマップの空間情報には、通常、距離情報とHHA符号化情報の2つの表現形式があります。距離情報は、対象物体と収集装置の表面との間の距離に関する情報であり、シーン内の物体の空間的な位置関係を反映することができ、多くの場合、単一チャネル画像の形式で計算に含まれます。HHA符号化情報は、3チャンネル画像の形で計算されることが多い距離情報の表現形式は比較的単純で使いやすいのに対し、HHA符号化情報の表現形式は複雑で計算量が多く、多くの計算機リソースを消費します。エンコード情報により、ネットワークはより豊富な深度特徴情報を抽出できるようになります。

RGB画像の特徴情報をいかに効率的に組み合わせるかがフュージョンコアです。


早期統合

初期のマルチモーダル特徴融合構造では、主に 2 つの画像に対して単純なスプライシング操作を実行して、新しい4 チャネル画像または6 チャネル画像を形成し、それをネットワーク モデルに転送しました。このときのネットワークモデルは単一分岐畳み込みニューラルネットワークの符号化・復号化構造であり、RGB画像特徴と深度画像特徴の融合には要素加算法を採用しているが、この方法は単純すぎて後続の他のネットワークを経由しないしたがって、この特徴情報処理方法では、** ネットワークによって抽出される情報の有効性が低くなり、モデルのセマンティック セグメンテーションの精度が低くなります**。このタイプの融合方法は、早期融合と呼ばれます。


後期融合

後者の融合はデュアルブランチ構造を採用しており、ネットワークには 2 つの独立した畳み込みニューラル ネットワーク ブランチが含まれており、これら 2 つのブランチの 1 つは RGB ブランチ、もう 1 つは深さブランチと呼ばれ、それぞれ対応する RGB 特徴と深さ特徴情報を抽出するために使用されます。最後に、2 つの特徴情報はエンコーダの最後で融合されます。Late fusion 構造は、まず奥行き画像に対して畳み込み処理を行うため、画像ノイズが抑制され、前述の Early fusion 構造と比較して、最終的なセマンティックセグメンテーションの精度を効果的にが、この方法を最大限に活用することはできません。エンコーダの各段階での入力画像の相補的な特徴のうち、大量の有用な情報が失われることになります
***

マルチレベルフュージョン

マルチレベル フュージョンもデュアル トリビュタリ構造を使用します。コアは、エンコードまたはデコード中の機能のマルチステージ フュージョンです。マルチレベル エンコード フュージョン、マルチレベルデコードフュージョン、および3 番目のブランチの 3 つの主要なカテゴリに分けることができます。マルチレベルフュージョン


マルチレベルコーディングの融合

多値符号化の融合構造は図に示すとおりであり、エンコーダの各段階で2つのモーダル特徴の相補性を考慮しながら、RGB特徴情報と奥行き特徴情報を符号化の各段階で融合する手法です。この情報処理手法は、前述の初期融合手法や後期融合手法と比較して、RGB-D の特徴を多段階に相補的に利用することができ、大量の有用な情報の損失を避けることができますが、融合手法が単純すぎるため、それを実現することはできません補完的な RGB および深度機能情報。


マルチレベルデコーディングフュージョン

多値復号融合構造は、主にデコーダの各段階の相補的な特徴を考慮しており、図に示すように、抽出されたRGB特徴情報と深さ特徴情報を各段階でスキップ接続してデコーダに送信し、結合することができます。デコーダ自体の機能が融合されています。この情報処理方法は、多値符号化融合方法に似ています。2つのモーダル特徴は複数の段階で相補的に使用できますが、モデル分割のパフォーマンスへの貢献は最終的には限定的です


マルチレベルフュージョンの 3 番目のブランチ

3 番目のブランチのマルチレベル フュージョン構造は、元のRGB ブランチと深さブランチに加えて、新しいフュージョン ブランチを追加しますフュージョン ブランチ構造は単一ではなく、元の RGB と同じ構成を持つ畳み込みニューラル ネットワーク ブランチにすることができます。これは、RGB ブランチと深さブランチから抽出された RGB 特徴情報と深さブランチから抽出された深さ特徴情報を融合するために使用される新しい融合特徴モジュール処理構造であることもできます。 。他の 2 つのマルチレベル フュージョン方法と比較して、マルチレベル フュージョンの 3 番目のブランチは、RGB 特徴と深度特徴のより深い処理を実行でき、より補完的ですが、対応する計算パラメータが増加し、消費されるコンピューティング リソースも増加します。より大きい


実際のアプリケーションでは、これらのタイプの融合手法は相互に組み合わせて使用​​されることが多く、通常は組み合わせた手法の方が優れた結果が得られます。

おすすめ

転載: blog.csdn.net/wagnbo/article/details/127751878