非対称性とアンチパッキング Patt に基づく RGB-D イメージ用の新しいセマンティック セグメンテーション アルゴリズム

非対称およびアンチパッキングパターン表現モデルに基づく RGB-D 画像用の新しいセマンティック セグメンテーション アルゴリズム

非対称性と非圧縮パターン表現モデルに基づいた RGB-D 画像用の新しいセマンティック セグメンテーション アルゴリズム

非対称性と非圧縮パターン表現モデルに基づく RGB-D 画像用の新しいセマンティック セグメンテーション アルゴリズム

YUNPING ZHENG 1、YUAN XU1、SHENGJIE QIU1、WENQIANG LI1、GUICHUANG ZHONG1、および MUDAR SAREM 2
1School of Computer Science and Engineering, South China University of Technology, Guangzhou 510006, China
2General Organisation of Remote Sensing, Damascus, Serious
author: Yunping Zheng ([email protected])この研究は、助成金 2017A030313349、助成金2021A1515011517、および助成金 2023A1515011288
に基づき、中国広東省自然科学財団によって部分的に支援されました。
一部は助成金 61300134 に基づく中国国家自然科学財団による。一部は、助成金 202110561070 および助成金202110561066
に基づく国立学部革新的および起業家トレーニング プログラムによるものです。

概要
深層学習テクノロジーの急速な発展により、画像セマンティック セグメンテーション タスクの精度が大幅に向上しました。ただし、屋内環境の複雑さにより、屋内の RGB-D セマンティック セグメンテーションは依然として困難な問題です。深度センサーの出現により、セマンティック セグメンテーションの効果を向上させるために徐々に深度情報が使用されるようになりました。RGB 特徴と深度特徴の間の重み付けスプライシングをニューラル ネットワークの入力特徴として使用すると、屋内のセマンティック セグメンテーション タスクの精度を効果的に向上させることができます。これまでの研究のほとんどは、畳み込みニューラル ネットワーク構造を調整することでセマンティック セグメンテーションのパフォーマンスを向上させることに焦点を当てていました。これらの研究では、アテンション メカニズムを追加したり、入力フィーチャにデータ拡張を実行したりしていますが、元の RGB 画像の境界情報やテクスチャ情報を完全には活用していません。この論文では、非対称性と非圧縮パターン表現モデル (NAM) に基づいた RGB-D 画像のセマンティック セグメンテーション アルゴリズムを提案します。提案されたアルゴリズムの中心的なアイデアは、セマンティック セグメンテーション タスクをガイドするニューラル ネットワークの入力として、従来の階層画像セグメンテーションによって提供されるプリセグメンテーション ラベルと RGB-D 特徴をチャネル接続することです。人気の屋内 RGB-D セマンティック セグメンテーション データセットに対して広範な実験が行われています。最先端のアルゴリズムと比較して、この論文で提案された方法は、いくつかの一般的なニューラル ネットワーク アーキテクチャ上の画像セマンティック セグメンテーション ネットワークのパフォーマンスを向上させます。
キーワード深層学習 階層型画像セグメンテーション 画像表現 NAM RGB-D およびセマンティック セグメンテーション。
深層学習、階層的画像セグメンテーション、画像表現、NAM、RGB-D、セマンティック セグメンテーション。

I.はじめに

セマンティック セグメンテーションは、コンピュータ ビジョンの研究において重要な役割を果たします。これは、ピクセル レベルで画像を識別すること、つまり、画像内の各ピクセルが属するオブジェクト カテゴリをマークすることを指します。現在、セマンティック セグメンテーションは、自動運転、ロボット認識、医療画像診断などのインテリジェント タスクに広く使用されています [1]、[2]、[3]、[4]、[5]。近年、深層学習に基づく画像分割手法が急速に発展しています。Shelhamer ら [6] が完全畳み込みニューラル ネットワーク (FCN) を提案して以来、畳み込みニューラル ネットワーク (CNN) はセマンティック セグメンテーション タスクにおいて目覚ましい結果を達成してきました。したがって、セマンティック セグメンテーションの分野で広く使用されています。研究者は、AlexNet [7]、VGGNet [8]、ResNet [9] などのいくつかの有名なニューラル ネットワーク スケルトンを提案しています。

意味論的なシーンの認識と理解は、移動ロボットがさまざまな環境で動作するための 2 つの重要なタスクです。ただし、屋内環境の複雑さのため、屋内シーンのセマンティック セグメンテーションは依然として困難な問題です。たとえば、屋内の光の変化やオブジェクト間のオクルージョンによって、多数のピクセルが誤分類されやすくなり、最終的なセマンティック セグメンテーションの結果に影響を与える可能性があります。深度センサー [10] の普及に伴い、RGB-D データの出現により、RGB-D セマンティック セグメンテーションの進歩が促進されました。RGB 特徴は物体の色や明るさなどの外観情報を記述し、深さ特徴には視点シーン内の物体表面までの距離に関連する情報が含まれます。近年、いくつかの研究 [11]、[12]、[13] では、畳み込みニューラル ネットワークの入力として色情報と深度情報を組み合わせ、良好なセグメンテーション結果を達成しています。

屋内のセマンティックセグメンテーションの研究において、近年の多くの研究は空間と形状におけるRGBの色特徴と深さ特徴の相補情報をマイニングすることに焦点を当てていますが、これらの研究は屋内物体に固有の境界特徴とテクスチャ特徴を無視しています。したがって、元の RGB 画像のテクスチャ、形状、色の特徴間の補完情報を完全に活用することができませんでした。しかし、画像のさまざまな特徴に応じて元の画像を異なる領域のレイヤーに分割するために、非対称性と非圧縮パターン表現モデル (NAM) に基づく階層的画像セグメンテーション フレームワークが提案されました [14]。

上記の問題を考慮して、RGB 色特徴と深度特徴を組み合わせることで、非対称および解凍パターン表現モデルに基づく RGB-D 画像の新しいセマンティック セグメンテーション アルゴリズム (NAMLab と呼ばれます) を提案します。このアルゴリズムはまず、Lab 色空間内の 2 つのピクセルのユークリッド距離を定義することにより、画像ピクセルを NAMLab ブロックに迅速かつ効率的にマージします。次に、アルゴリズムは 2 つの NAMLab ベースの領域間の非類似性を定義し、隣接する領域をより大きな領域にマージする NAMLab ベースのアルゴリズムを繰り返し実行して、セグメンテーション樹状図を徐々に生成します。最後に、階層セグメンテーション ラベルが樹状図から抽出されます。さらに、私たちが提案するアルゴリズムでは、これらのラベルが畳み込みニューラル ネットワークのマルチチャネル入力に追加されます。NAMLab アルゴリズムによって生成された階層ブロック ラベルは、画像内のオブジェクトの多層境界特徴を提供し、セマンティック セグメンテーション タスクを効果的にガイドできます。この戦略は、ニューラル ネットワークの入力にチャネル レベルの機能を追加することにより、セマンティック セグメンテーション タスクのパフォーマンスを向上させます。これは、ほとんどの畳み込みニューラル ネットワークに簡単に適用できます。

図1屋内シーンのセマンティック セグメンテーション タスクについて説明します。そこから、深さ情報はオブジェクト自体の固有の境界特徴と形状特徴を無視するのに対し、提案された NAM 領域ラベルはより詳細に注目することがわかります。

提案手法の効率を検証するために、RGB-D 画像セマンティック セグメンテーション ベンチマーク NYUDv2 [15] の包括的な分析を実行します。一方、提案された戦略を 5 つの一般的なセマンティック セグメンテーション アーキテクチャに適用します。この記事の主な革新は次の側面に反映されています。

まず、屋内 RGB-D セマンティック セグメンテーション タスクを処理するために、NAM 機能に基づいたセマンティック セグメンテーション戦略を提案します。

次に、NAM 階層特徴、RGB 特徴、および深度特徴が、ニューラル ネットワークの入力としてチャネルによって接続されます。従来の画像セグメンテーション手法と深層学習ベースの画像セマンティック セグメンテーション手法の利点を組み合わせることで、セマンティック セグメンテーション タスクのパフォーマンスが向上します。

最後に、提示された実験結果は、この論文で提案された戦略がセマンティック セグメンテーション タスクのパフォーマンスを効果的に向上させることができ、また、一般的な RGB-D 画像データセットでより良いセグメンテーション結果を示すことを示しています。さらに、この論文で提案された戦略は、さまざまなセマンティック セグメンテーション ネットワークに簡単に適用できます。

この記事の残りの部分は次のように構成されています。セクション 2 では、画像セマンティック セグメンテーションと階層的画像セグメンテーションに関する関連研究を紹介します。セクション 3 では、NAMLab モデルに基づく RGB-D 画像の新しいセマンティック セグメンテーション アルゴリズムについて詳しく説明します。セクション IV では、我々のアルゴリズムの実験結果を最先端のアルゴリズムと比較して示します。セクション 5 では、結論と将来の取り組みの可能性を示します。

II. 関連作品

A. 畳み込みニューラルネットワークに基づく画像セグメンテーション

Shelhamer et al. [6] が FCN を提案して以来、畳み込みニューラル ネットワークはセマンティック セグメンテーション タスクで広く使用されてきました。FCN は、分類ネットワークの全結合層を畳み込み層に置き換えるため、FCN は任意のサイズの元の画像を入力し、アップサンプリングを通じて対応するサイズの出力を生成できます。ただし、CNN の畳み込み演算とプーリング演算により、元の画像の解像度とサイズが大幅に低下し、詳細が失われます。この問題に対処するために、Liu ら [16] は、グローバル情報を取得するためのコンテキスト モジュールを追加することで FCN を改善する ParseNet を提案しました。さらに、Ronneberger ら [17] は FCN に基づいて U 字型ネットワークを提案しました。U 字型のネットワーク構造は、エンコーダで 4 回ダウンサンプリングし、デコーダで 4 回アップサンプリングします。同じ段階で、高レベルのセマンティック機能を直接監視する代わりに、スキップ接続構造を採用します。高レベルの意味論的特徴マップは元の画像の解像度に復元され、それによってコンテキスト情報と位置情報の両方が取得されます。Zhao et al. [18] は、拡張ネットワーク戦略を備えた特徴抽出器を使用して入力画像からパターンを抽出し、さまざまな領域のコンテキスト情報を集約するピラミッド シーン解析ネットワーク (PSPNet) を提案しました。画像セマンティック セグメンテーションの分野で最も有名なフレームワークの 1 つは DeepLab シリーズです。DeepLab [19] は、デコンボリューション カーネルを使用して、ディープ畳み込みニューラル ネットワーク (DCNN) の最大プーリングとダウンサンプリングによって引き起こされる情報損失を回避します。条件付きランダム フィールド (CRF) を使用して、詳細をキャプチャするモデルの機能を向上させます。次に、DeepLab V2 [20] は Atrous 空間ピラミッド プーリング (ASPP) を使用します。ASPP は、異なるサンプリング レートで複数の Atrous 畳み込みを使用して、マルチスケール機能を統合します。さらに、DeepLab V2 では、ResNet が VGG16 に置き換えられ、異なるサンプリング レートを持つ複数の Astor コンボリューション カーネルが特徴の抽出に使用されました。DeepLab V3 [21] では CRF が削除され、ASPP モジュールが改善され、非線形畳み込みが見直されました。カスケードモジュールとピラミッドアンサンブルの枠組みの下で受容野を拡張し、マルチスケールの情報を抽出します。DeepLab V3+ [22] は、セマンティック セグメンテーション タスクに Xception モデルを採用し、エンコーダ/デコーダ構造に空間ピラミッド プーリング (SPP) モジュールを使用することで、DeepLab V3 をさらに拡張しています。エンコーダーは特徴マップを徐々に縮小して豊富なセマンティック情報を抽出し、デコーダーはそれを復元します。

B. 階層的な画像セグメンテーション

深層学習に基づく画像セグメンテーション手法と比較して、従来の画像セグメンテーション手法は、色の違いのマイニング、サブ領域間の補完情報、テクスチャと形状の特徴間の階層情報により多くの注意を払っています。実際、従来の画像セグメンテーション手法は、深層学習手法の欠点を効果的に補うことができます。現在、深層学習ベースのセグメンテーション アルゴリズムのパフォーマンスは、特に医用画像分析などの特定のアプリケーション分野で横ばいになっていることが一般的に受け入れられています [23]。パフォーマンスを向上させるために、[23] の著者らは、CNN ベースの画像セグメンテーション モデルと、著名な「古典的な」モデル画像セグメンテーション手法との組み合わせをさらに検討する必要があると考えています。CNN とグラフィカル モデルの統合は研究されていますが、アクティブ コンター、グラフ カット、その他のセグメンテーション モデルとの統合はより最近のことであり、さらなる研究に値します [23]。

一般的な移動平均アルゴリズム (MShift) [24]、グラフベースの画像セグメンテーション アルゴリズム (GBIS) [25]、およびマルチスケール正規化カット アルゴリズム (MNCut) [26] は、実際には、特定の画像に対して最適な画像を探します。方法。新しい画像セグメンテーション アルゴリズムが数多く提案されていますが、これまでのところ、画像を人間の視覚にとって「意味のある」領域に効果的にセグメント化し、異なる解像度でセグメント化された領域の一貫性を確保する方法は、依然として非常に困難な課題です。

以前の従来の画像セグメンテーション方法のほとんどは、単一のセグメンテーション結果しか生成できません。ただし、研究者の中には、異なる数のターゲット セグメンテーションを使用した多層セグメンテーションの結果により、画像をより適切にセグメント化できる可能性があると考えている人もいます。Syu et al. [27] は、反復的な縮小とマージに基づいた階層的セグメンテーション フレームワークを提案しました。彼らは、一意のセグメンテーション結果しか生成できないアルゴリズムは適切なアプローチではない可能性があると指摘しています。Arbeláez et al. [28] は、階層的画像セグメンテーションのための gPbOWT-UCM アルゴリズムを提案しました。このアルゴリズムはまず、gPb を介して各ピクセルが境界である可能性を計算します。次に、OWT は gPb の結果を複数の閉じた領域に変換します。最後に、UCM は上記の領域セットを階層ツリーに変換します。

NAMLab と「グローバルファースト」不変知覚理論に触発されて、Zheng ら [14] は、アフィニティ値の定義に一般的に使用されるエネルギー関数とグラフ ラプラシアン行列を使用する必要がないため、まったく異なる階層的画像セグメンテーション フレームワークを提案しました。さらに、彼らは高速 NAMLab ベースの階層画像セグメンテーション アルゴリズムも提案しましたが、これも従来のセグメンテーション方法です。

C. 深度特徴と RGB 特徴の融合に基づく画像セグメンテーション

深度センサーの普及により、研究者はシーン内の深度情報を簡単に取得できるようになりました。RGB-D画像の研究も大きく進歩しました。現在の RGB-D 画像セマンティック セグメンテーション タスクでは、研究者は 3 つのカテゴリの方法の研究に取り組んでいます。最初のカテゴリは、深度機能と RGB 機能を融合する戦略を提案することです。2 番目のカテゴリは、RGB-D データ用の特別なネットワーク構造を設計することです [13]、[29] 3 番目のカテゴリは、畳み込み層を追加または置き換える構造を設計することです [30]、[31]。ただし、この論文で提案する戦略は最初のカテゴリーに属します。

最初のカテゴリについては、Couprie et al. [32] が、畳み込みニューラル ネットワークの入力として画像の RGB 特徴と深度特徴のチャネルレベルのスプライシングを実行するプレフュージョン法を提案しました。Gupta et al. [33] は、ピクセルの水平方向の差分、地面からの高さ、局所的な表面法線角 (HHA) を抽出することによって、単一チャネルの深度画像を 3 チャネルの画像に変換するコーディング方法を提案しました。Fusion は、屋内のセマンティック セグメンテーション タスクをより適切にガイドできます。FuseNet [34] と RedNet [35] は、深い特徴を RGB エンコーダに融合します。これは、意味的により豊かな RGB 特徴が相補的な深度情報を使用してさらに強化できるという直観に従っています。

2 番目のカテゴリに関しては、Jiang ら [35] は、バックボーン段階でマルチレベルの機能を融合するゲート融合法を提案しました。Fooladgar と Kasaei [29] は、深度モードと RGB モードの特徴マップ間の相互作用を統合するために、注意ベースの融合ブロックを備えた効率的なエンコーダ/デコーダ モデルを提案しました。Hu et al. [13] は、RGB および深度ブランチから特徴を選択的に収集するためのアテンション相補ネットワークを提案しました。

3 番目のカテゴリに関しては、Chen et al. [36] は、ピクセル間の深さの類似性を利用して重み付けされた、手作りのガウス関数に基づく深さを意識した畳み込みを提案しました。Cao et al. [37] は、セマンティック セグメンテーションにおける通常の畳み込み層を置き換えることができる形状認識畳み込み層を設計し、これにより、ネットワークが必要に応じて形状情報にさらに注意を払うことができ、RGB-D セマンティック セグメンテーション タスクのパフォーマンスを向上させることができます。

III. RGB-D 画像に対する NAM ベースのセマンティック セグメンテーション アルゴリズム このセクションでは、NAM 方法について簡単に説明します。次に、NAM ベースの階層イメージ機能が導入されます。最後に、RGB-D 画像に対する NAM ベースのセマンティック セグメンテーション アルゴリズムを提案します。

A. NAMの説明

非対称および圧縮防止パターン表現モデル (NAM) [38]、[39] は圧縮防止の問題です。NAM の考え方は次のように簡単に説明できます。圧縮パターンと、異なる形状の n 個の事前定義されたサブパターンが与えられると、これらの n 個のサブパターンが圧縮パターンから選択され、圧縮パターンは組み合わせで表されます。これらのサブパターンの。
NAM の考え方は次のように説明できます。圧縮パターンとさまざまな形状の事前定義されたサブパターンが与えられると、これらのサブパターンが圧縮パターンから選択され、これらのサブパターンの組み合わせを使用して、圧縮されたパターン。以下は NAM の抽象的な説明です。元のパターンが 0 であると仮定すると、再構成されたパターンはΓ '' \Gamma 'となります。C'すると、NAM はΓ \Gammaからの関数ですΓからΓ '' \Gamma ''C'変換モード。変換プロセスは次のように記述できます。

Γ ' = T ( Γ ' ) (1) \Gamma ' = T(\Gamma ') \tag{1}C=T ( G _( 1 )

ここで、T ( ⋅ ) T(・)( )は変換またはエンコード関数です。符号化処理は次の式で求められます。
Γ ′ = ∪ j = 1 npj ( v , A ∣ A = { a 1 , a 2 , ⋯ , ami } ) + ε ( d ) (2) Γ ^ { \プライム } = \cup _ { j = 1 } ^ { n } p _ { j } ( v , A | A = \{ a _ { 1 } , a _ { 2 } , \cdots , a _ { m_ i } \ } ) + ε ( d ) \tag{2}C=j = 1pj( v A A={ _1ある2あるメートル私は})+e ( d )( 2 )
ここでΓ '' \Gamma ''C'は再構成モードです;P = p 1 , p 2 , . . . . . pn P = p_1, p_2, ... p_nP=p1p2……は事前定義されたサブパターンのセット、n はサブパターン タイプの数、pj ∈ P p_j∈PpjPは jj番目ですj個のサブパターン (1 ≤ j ≤ n 1≤j≤n1j);vvvpj p_jpj的值; A = a 1 , a 2 , . . , a m i A={a_1, a_2, . . , a_{m_i}} =ある1ある2.. あるメートル私ははサブパターンpj ( 1 ≤ j ≤ n ) p_j(1≤j≤n)pj( 1jn )パラメータセット。2 つのサブパターンのタイプが異なる場合、A のパラメータの数と意味も異なります。

B. NAM に基づく階層的な画像の特徴

人間の視覚特性に従って、カラー画像を知覚的に均一に表現するために、NAMLab に基づく特徴表現には、画像のより強力なローカルおよびグローバル特徴が含まれています [14]。提案された特徴表現方法には、色、空間、サイズ、およびテクスチャの特徴が組み込まれており、さまざまな画像インスタンスを処理する能力が向上しています。NAMLab に基づく領域マージ ルールには、プレゼンテーション モジュール、マージ モジュール、削除モジュールの 3 つのモジュールが含まれます。

表現モジュールにおけるモデルの考え方は、非対称反転レイアウトのパターンを通じて入力画像のパッチを表現することです。画像をラスタースキャンにより1ラインずつ走査し、隣接するピクセル間の距離をLabカラーとグーローの公式に従って判断して領域を拡張し、元の画像を初期のNAMLab長方形領域に分割します。最後に、ブロック マップの 2 次元ベクトルを使用して、各ピクセルに対応する NAMLab 長方形領域番号を記録し、その Lab 特徴の平均と分散も記録します。

マージ モジュールでは、2 つの隣接する NAMLab 領域について、2 つの Lab 特徴の平均と分散の差がそれぞれ 2 つの特定のしきい値未満である場合、2 つの NAMLab ブロックをマージできます。一般的なプロセスは次のとおりです。 各 NAMLab ブロックをラスター方式でスキャンします。現在の NAMLab ブロックの場合、まず西の境界の左側から開始して、隣接するすべてのピクセルの NAMLab ブロックを下から上にスキャンします。現在の隣接ピクセルが属する NAMLab ブロックが現在の NAMLab ブロックと異なる場合、後述する NAMLab ベースの領域間の相違度が一定の閾値を超えるかどうかに基づいて、2 つの NAMLab ブロックをマージするかどうかが判断されます。 。次に、北の境界から開始して、隣接するすべてのピクセルが左から右にスキャンされます。現在の隣接ピクセルが属するNAMLabブロックが現在のNAMLabブロックと異なる場合、NAMLabベースの領域間の非類似性に基づいて、2つのNAMLabブロックをマージするかどうかが決定される。この走査プロセスは、北の境界から始まるすべての隣接ピクセルが処理されるまで繰り返されます。
NAMLab ブロックのマージ プロセス中に、色の平均と分散が隣接する一致する領域の色平均と分散とは大きく異なるいくつかの小さな残差領域が存在するため、それらはマージできません。したがって、領域のサイズのしきい値をカスタマイズします。現在の領域のサイズがしきい値より小さい場合、現在の領域は、すべての隣接する領域の中で最も差が小さい領域にマージされます。

上記の方法で得られた領域を最下位ノードとして、隣接する領域をマージしてより大きな領域を作成し、段階的に階層的に分割された樹形図を形成することができます。最後に、階層的セグメンテーションの結果を取得できます。図 3 は、NAMLab に基づく階層的画像セグメンテーションのプロセス全体を示しています。各セグメンテーション マップの異なる色は、異なる領域を表します。元の画像は、表現モジュール、結合モジュール、除去モジュール、およびスキャンモジュールを通過します。最後に、図 3 の最後の列では、異なる領域番号 (10、20、30、40、50、60 など) を持つ階層画像特徴が上から下に出力されます。
NAMLab に基づいて領域 i と領域 j の間の非類似性を測定するには、まず以下に説明するようにいくつかの式を定義する必要があります。2 つの領域間の領域サイズの類似性と差異の尺度は次のように定義されます。

其中 n i n_i n私はそして、nj n_jnjはそれぞれ領域 i と領域 j の総ピクセル数を表します。
2 つの領域間のテクスチャ特徴の類似性と差異の尺度は次のように定義されます。

其中 w l d i wld_i ウォルド_私はwldj wld_jウォルド_jエリアを表すiiとエリアjjjのテクスチャ特徴ベクトルは、Weber 局所記述子の理論に従って取得されます [40]。

2 つの領域間の色特徴の非類似性の尺度は次のように定義されます。

其中 c i c_i c私はそしてcj c_jcjはそれぞれエリア i とエリア j の平均 LAB カラーです。
2 つの領域の境界における平均色差の類似性と差異の尺度を定義するために、3 × 3 のローカル ウィンドウが画像内の境界領域に適用されます。

ここで、bri は領域 i と境界領域の交差点を表すため、p ∈ brip∈b_{r_i}pbr私はそしてq ∈ brjq∈b_{r_j}qbrj境界の両側の領域を表します。
領域 i を表すピクセルpi p_iの場合p私はpi p_iでp私は5×5 のローカル ウィンドウを確認してくださいwpi w_{p_i}wp私は、それらの中で最も一般的なインデックスを見つけます。I pi I_{p_i}として表されます。p私は2 つの領域間の空間的な織り交ぜの類似性と差異の尺度は次のように定義されます。ここに画像の説明を挿入します

関数 ψ(-) は次のように定義されます。

式では、D ij D_{ij}DイジNAMLab に基づいてエリア i とエリア j の類似度と相違度を説明します。NAMLab は、2 つのエリア i とエリア j の間の類似性と相違度を次のようにより包括的に定義します。

パラメータα、βについて α、βa bc cγの選択は、それぞれ 2 つの NAMLab 領域間の差を測定するタスクにおける色特徴、テクスチャ特徴、およびエッジ特徴の重みであり、λ は空間インターリーブを測定するための補正係数です。その選択は実験的な経験に基づいており、4 つのパラメータの値は画像セグメンテーションの効果に応じて継続的に調整され、最適な値が見つかります。具体的には、α=1.0、β=1.97、γ=1.97、λ=67.0 α=1.0、β=1.97、γ=1.97、λ=67.0ある=1.0 b=1.97 c=1.97 =67.0

C. RGBD 画像に対する NAM ベースのセマンティック セグメンテーション戦略

深度センサーの普及により、研究者はセマンティック セグメンテーション タスクをガイドするために画像の深度特徴を使用することが増えています。Guptaら[33]は、深度画像に基づいて、水平差分、地上高、局所領域の各ピクセルの3つのチャネルを使用して深度画像を符号化するHHA符号化方法を提案しました。ピクセル 表面法線の角度。

図2RGB オリジナル画像、深度画像、HHA 特徴画像、NAMLab の階層化特徴画像が表示されます。

RGB-D セマンティック セグメンテーション用に特別に設計されたネットワーク構造とは異なり、この論文で提案する NAMLab 階層特徴ガイダンスに基づく戦略はより一般的な方法であるため、ほとんどの畳み込みニューラル ネットワークの入力に簡単に適用でき、制限されません。 RGB-D セマンティック セグメンテーション タスクに。

図4戦略全体が説明されています。セマンティック セグメンテーションで高レベルのバックボーンを利用するには、RGB オリジナル画像、深度画像、および NAMLab 階層特徴画像をチャネル次元で畳み込みニューラル ネットワークへの入力として接続する必要があります。深度画像は深度画像または HHA 画像であり、ネットワーク構造は FCN を例にしています。記号Cは、チャネルレベルの連結を表し、記号ORは、入力された深さ情報がHHA特徴または深さ特徴であることを表す。

IV. 実験

この記事で提案されている戦略は、オープンソースの深層学習フレームワーク Pytorch に実装されています。他の研究者の実験データを参照するベースライン実験を除いて、すべての実験は同じハードウェアおよびソフトウェア環境で実行されました。GPUはNVIDIA TITAN Xpを使用しています。CPU は Inter® Xeon® CPU E5-2680 v4 @ 2.40GHz です。メモリ容量は16GBです。提案手法の有効性を検証するために、一般的な RGB-D 屋内画像データセット NYUDv2 [15] で手法を評価し、アブレーション実験を行います。NYUDv2 データセットには 1,449 個の屋内 RGB-D 画像が含まれており、そのうち 795 個がトレーニングに使用され、654 個がテストに使用されます。このデータセットでは、トレーニングとテストに使用されるすべての画像ピクセルが、それぞれ 13 クラス (つまり NYUDv2-13) と 40 クラス (つまり NYUDv2-40) としてラベル付けされています。

私たちの実験結果は、次のプロトコルと指標を使用して評価されます。説明を容易にするために、次の表記上の詳細に注意します [41]: k + 1 k+1があると仮定します。k+1クラス(L0L_0L0L k L_kL、空のクラスまたは背景を含む)、pij p_{ij}pイジiiと推測されるjjクラスiクラスjのピクセル数
ピクセル Acc (PA) は、合計ピクセル値に対する予測された正しいピクセル値の割合を表し、次のように定義されます。

平均 Acc (MPA) は、すべてのカテゴリのピクセル精度の合計の平均を表し、次のように定義されます。


平均 IoU (MIoU) は、すべてのカテゴリの予測とグラウンド トゥルースの交差および和集合の平均比率を表し、次のように定義されます。%x #pic_center# =50%x#pic_center# =50%x)

最後に、Fw IoU (FWIoU) は、元の平均 IoU を改良したもので、発生頻度に応じて各カテゴリの重要度を重み付けし、次のように定義されます
。 cn/ a251f365507244ffb8d2738eebc002a9.png#pic_center# =50%x#pic_center# =50%x)

ImageNet [39] で事前トレーニングされた ResNet [9] および ResNeXt [42] モデルを使用してバックボーン ネットワークを初期化します。DeepLabV3+ は、ベースライン手法として主要なセマンティック セグメンテーション ネットワーク アーキテクチャとして使用されます。すべてのベースライン メソッドで、入力は RGB 生画像と HHA 深度画像のチャネル連結です。ベースライン手法と比較して、他の設定を変更せずに、入力特徴タイプ (つまり、元の画像と深度画像のチャネル接続を備えた NAMLab 階層特徴) のみを変更したため、得られたパフォーマンスの向上が私たちの効果によるものであることがわかります。提案された方法によるものであり、他の要因によるものではありません。さらに、特に明記されていない限り、マルチスケール フリッピング (MS-F)、条件付きランダム フィールド CRF [19]、データ拡張などの戦略は、すべての実験で採用されているわけではありません。

NYUDv2-40 データセットでは、DeepLabV3+、DeepLabV3、UNet、PSPNet、FPN などのさまざまな一般的なセマンティック セグメンテーション ネットワーク アーキテクチャでも実験を実施しました。バックボーン ネットワークは、ImageNet で事前トレーニングされた ResNet101 モデルを使用します。同じデータセットでアブレーション実験も実施しましたが、ネットワーク アーキテクチャは DeepLabV3+ で、バックボーンは依然として ImageNet で事前トレーニングされた ResNet101 モデルでした。

A. RGBD イメージに対する NAM ベースのセマンティック セグメンテーション戦略

ベースライン手法と NYUDv2-13 上の異なるバックボーンを使用した我々の手法の結果を表 1 に示します。採用されたアーキテクチャはDeepLabV3+です。存在するタブ。1, NAM6 とは、6 層の NAMLab 階層特徴、RGB 生画像、HHA 深度画像をチャネル接続し、セマンティック セグメンテーション ネットワークに入力したことを意味します。10階、20階、30階、40階、50階、60階の6フロアで構成されています。表 1 からわかるように、私たちの戦略は一般に、さまざまなバックボーンでベースライン手法よりも優れています。

ベースライン手法と、異なるバックボーンを使用した NYUDv2-40 での我々の手法の結果を以下に示します。表2真ん中。NAM-1 は、NAMLab 階層特徴、RGB 画像、および HHA 深度画像のチャネルレベルの連結をレイヤー 60 で実行し、これらの画像がセマンティック セグメンテーション ネットワークへの入力として使用されることを意味します。ご覧のとおり、私たちの戦略は全体的にいくつかの改善を達成しました。
実験は、変更や拡張を行わずに、同じ NYUDv2-40 データセットで実施されました。表3ご覧のとおり、私たちの戦略は 4 つの指標すべてでより良い結果を達成しています。

B. さまざまなアーキテクチャでの実験

私たちが提案する戦略はセマンティック セグメンテーション ネットワークの入力段階に適しているため、ほとんどの畳み込みニューラル ネットワークに簡単に適用できます。私たちの手法は、DeepLabV3+、DeepLabV3、UNet、PSPNet、FPN などのいくつかの代表的なセマンティック セグメンテーション アーキテクチャに対しても評価されています。実験結果を以下に示します。表4それが普遍的かどうかを判断するためです。
ここに画像の説明を挿入します

から表4見てわかるように、私たちの戦略は PSPNet を除くすべてのアーキテクチャでパフォーマンスの向上を実現します。

アブレーション実験

異なる深さと HHA の画像を結合した場合の NAM-6 および NAM-1 の機能の有効性を検証するために、アブレーション実験を実施しました。から表5アーキテクチャが DeepLabV3+ でバックボーンが ResNet101 の場合、深度画像と HHA 画像のどちらが入力として接続されているかに関係なく、NAM-1 と NAM-6 の設定によりセマンティック セグメンテーション タスクのパフォーマンスが向上することがわかります。表 5 の RGB、深度、および HHA は、ネットワーク入力に追加される特徴タイプを表します。

結論は

現在、深層学習ベースのセグメンテーション アルゴリズムのパフォーマンスは、特に医療画像分析などの特定のアプリケーション分野で横ばいになっていることが一般的に受け入れられています。パフォーマンスをより高いレベルに向上させるために、CNN ベースの画像セグメンテーション モデルと、最近公開された著名な「古典的な」NAMLab ベースの画像セグメンテーション手法との組み合わせをさらに調査します。このアルゴリズムの中心的なアイデアは、セマンティック セグメンテーション タスクをガイドするニューラル ネットワークの入力として、従来の階層画像セグメンテーションによって提供される RGB-D 特徴の事前セグメンテーション ラベルとチャネル接続を使用することです。この論文では、一般的な屋内 RGB-D セマンティック セグメンテーション データセットについて広範な実験を実施しています。最先端のアルゴリズムと比較して、この論文で提示された実験結果は、私たちが提案した方法がいくつかの一般的なニューラルネットワークアーキテクチャ上で画像セマンティックセグメンテーションネットワークのパフォーマンスを向上させることを示しています。
ただし、RGB-D 屋内セマンティック セグメンテーション モデルのパフォーマンスには、まだ改善の余地があります。将来的には、NAM 階層特徴間の補完情報、または NAM 特徴、RGB 特徴、および深度特徴間の補完情報を抽出するための独自で効果的なネットワーク アーキテクチャを設計する予定です。この作業により、セマンティック セグメンテーション タスクのモデルがさらに最適化されると考えています。

参考文献

[1] W. Zhou、J. Liu、J. Lei、L. Yu、および J.-N. Hwang、「GMNet: RGB サーマル都市シーンのセマンティック セグメンテーションのための段階的特徴マルチラベル学習ネットワーク」、IEEE Trans. 画像処理 Vol.1 [ 2
] X. Ren、S. Ahmad、L. Zhang、L. Xiang、D. Nie、F. Yang、Q. Wang、および D. Shen、「タスク分解」およびセマンティック生物医学画像セグメンテーションのための同期」、IEEE Trans. 画像処理 Vol.1 [3] Y. Cai、L. Dai、H. Wang、および Z. Li、「自動運転におけるセマンティック セグメンテーションを改善するための
マルチターゲット パンクラス固有関連性駆動モデル」 」IEEEトランス。画像処理 Vol.1 30、9069–9084ページ、2021年。
[4] S. Zhou、D. Nie、E. Adeli、J. ying、J. Lian、および D. Shen、「低コントラスト医療画像セグメンテーションのための高解像度エンコーダ-デコーダ ネットワーク」、IEEE Trans. 画像処理 Vol.1 [5] T. Wu、S. Tang、R .
Zhang、J. Cao、および Y. Zhang、「CGNet: セマンティック セグメンテーションのための軽量コンテキスト ガイド ネットワーク」 ' IEEE Trans. 画像処理 Vol.1
[6] E. Shelhamer、J. Long、および T. Darrell、「セマンティック セグメンテーションのための完全畳み込みネットワーク」、IEEE Trans パターンアナル。マッハ。インテリジェンス、vol. 39、いいえ。[7] A. Krizhevsky、I. Sutskever、および GE Hinton、「深層畳み込みニューラル ネットワークによる
ImageNet 分類」、Commun。ACM、vol. 60、いいえ。2、84–90ページ、2012年6月。
[8] K. Simonyan および A. Zisserman、「大規模画像認識のための非常に深い畳み込みネットワーク」、2014 年、arXiv:1409.1556。
[9] K. He、X. Zhang、S. Ren、および J. Sun、「画像認識のための深層残差学習」、Proc. IEEE会議 計算します。ヴィス。パターン認識。(CVPR)、2016 年 6 月、770 ~ 778 ページ。
[ 10] Z. Zhang、「Microsoft Kinect センサーとその効果」、IEEE MultiMedia、vol. 19、いいえ。2、4–10 ページ、2012 年 2 月
[11] Y. He、W.-C. Chiu、M. Keuper、および M. Fritz、「STD2P: 時空間データ駆動型プーリングを使用した RGBD セマンティック セグメンテーション」、Proc. IEEE会議 計算します。ヴィス。パターン認識。(CVPR)、2017 年 7 月、7158 ~ 7167 ページ。
[12] X. Gao、M. Cai、および J. Li、「マルチスケール機能を使用した改良された RGBD セマンティック セグメンテーション」、Proc. 顎。コントロールの決定。会議 (CCDC)、2018 年 6 月、3531 ~ 3536 ページ。
[13] X. Hu、K. Yang、L. Fei、および K. Wang、「ACNET: RGBD セマンティック セグメンテーションの補完機能を利用する注意ベースのネットワーク」、Proc. IEEE国際 会議 画像処理。(ICIP)、2019 年 9 月、1440 ~ 1444 ページ。
[14] Y. Zheng、B. Yang、および M. Sarem、「非対称およびアンチパッキング パターン表現モデルに基づく階層的画像セグメンテーション」、IEEE Trans。画像処理 Vol.1 30、2408–2421ページ、2021年。
[15] N. Silberman、D. Hoiem、P. Kohli、R. Fergus、S. Lazebnik、P. Perona、Y.Sato、および C. Schmid、「RGBD 画像からの屋内セグメンテーションとサポート推論」コンピューター ビジョン - ECCV。ベルリン、ドイツ:Springer、2012 年、746 ~ 760 ページ。
[16] W. Liu、A. Rabinovich、および AC Berg、「ParseNet: より良く見るためにより広く見る」、2015 年、arXiv:1506.04579。
[17] O. Ronneberger、P. Fischer、T. Brox、J. Hornegger、WM Wells、および AF Frangi、「U-Net: 生物医学画像セグメンテーションのための畳み込みネットワーク」、『Medical Image Computing and Computer-Assisted Intervention』 — ミッカイ。Cham、スイス: Springer、2015、234–241 ページ。
[18] H. Zhao、J. Shi、X. Qi、X. Wang、および J. Jia、「ピラミッド シーン解析ネットワーク」、Proc. IEEE会議 計算します。ヴィス。パターン認識。(CVPR)、2017 年 7 月、6230 ~ 6239 ページ。
[19] L.-C. Chen、G. Papandreou、I. Kokkinos、K. Murphy、および AL Yuille、「深い畳み込みネットと完全に接続された CRF を使用したセマンティック画像セグメンテーション」、2014 年、arXiv:1412.7062。
[20] LC Chen、G. Papandreou、I. Kokkinos、K. Murphy、および AL Yuille、「DeepLab: 深い畳み込みネット、アトラス畳み込み、および完全に接続された CRF を使用したセマンティック画像セグメンテーション」、IEEE Trans. パターンアナル。マッハ。インテリジェンス、vol. 40、いいえ。4、834–848ページ、2016年6月。
[21] L.-C. Chen、G. Papandreou、F. Schroff、および H. Adam、「セマンティック イメージ セグメンテーションのための atrous 畳み込みの再考」、2017 年、arXiv:1706.05587。
[22] L.-C. Chen、Y. Zhu、G. Papandreou、F. Schroff、および H. Adam、「セマンティック画像セグメンテーションのための Atrous 分離可能畳み込みを備えたエンコーダ – デコーダ」、2018 年、arXiv:1802.02611。
[23] S.Minaee、YY Boykov、F.Porikli、AJ Plaza、N.Kehtarnavaz、および D.Terzopoulos、「深層学習を使用した画像セグメンテーション:調査」、IEEE Trans. パターンアナル。マッハ。インテリジェンス、vol. 44、いいえ。
[24] D. Comaniciu および P. Meer、「平均シフト: 特徴空間解析に対する堅牢なアプローチ」、IEEE Trans . パターンアナル。マッハ。インテリジェンス、vol. 24、いいえ。[
25] PF Felzenszwalb および DP Huttenlocher、「効率的なグラフベースの画像セグメンテーション」、Int. J.Comput.ヴィズ、vol. 59、いいえ。[26] T. Cour
、F. Benezit、および J. Shi、「マルチスケール グラフ分解によるスペクトル セグメンテーション」、Proc. IEEE コンピューティング。社会 会議 計算します。ヴィス。パターン認識。(CVPR)、vol. 2、2005 年 6 月、1124 ~ 1131 ページ。
[27] J.-H. シュウ、S.-J. ワン、L.-C. Wang、「反復的な縮小と結合に基づく階層的画像セグメンテーション」、IEEE Trans. 画像処理 Vol.1 26、いいえ。[
28] P. Arbeláez、M. Maire、C. Fowlkes、J. Malik、「輪郭検出と階層的画像セグメンテーション」、IEEE Trans. パターンアナル。マッハ。インテリジェンス、vol. 33、いいえ。
[29] F. Fooladgar および S. Kasaei、「RGB 深度画像のセマンティック セグメンテーションのためのマルチモーダル アテンションベースの融合モデル」、2019 年、arXiv:1912.11691
[30] W. Wang および U. Neumann、「RGB-D セグメンテーションのための深度認識 CNN」、Proc. ユーロ。会議 計算します。ヴィス。(ECCV)、2018 年 9 月、135 ~ 150 ページ。
[31] Y. Xing、J. Wang、および G. Zeng、「順応性のある 2.5 D 畳み込み: RGB-D シーン解析のための深さ軸に沿った受容野の学習」、Proc. ユーロ。会議 計算します。ヴィス。Cham、スイス: Springer、2020、555–571 ページ。
[32] C. Couprie、C. Farabet、L. Najman、および Y. LeCun、「深さ情報を使用した屋内セマンティック セグメンテーション」、2013 年、arXiv:1301.3572。
[33] S. Gupta、R. Girshick、P. Arbeláez、および J. Malik、「物体の検出とセグメンテーションのための RGB-D 画像からの豊富な特徴の学習」、Proc. ユーロ。会議 計算します。ヴィス。Cham、スイス:Springer、2014 年、345 ~ 360 ページ。
[34] C. Hazirbas、L. Ma、C. Domokos、および D. Cremers、「FuseNet: 融合ベースの CNN アーキテクチャを介したセマンティック セグメンテーションへの深さの組み込み」、Computer Vision—ACCV。Cham、スイス:Springer、2016、213–228 ページ。
[35] J. Jiang、L. Zheng、F. Luo、および Z. Zhang、「RedNet: 屋内 RGB-D セマンティック セグメンテーション用の残留エンコーダ - デコーダ ネットワーク」、2018 年、arXiv:1806.01054。
[36] L.-Z. チェン、Z. リン、Z. ワン、Y.-L. ヤンとM.-M. Cheng、「リアルタイム RGBD セマンティック セグメンテーションのための空間情報ガイド付き畳み込み」、IEEE Trans. 画像処理 Vol.1 [ 37
] J. Cao、H. Leng、D. Lischinski、D. Cohen-Or、C. Tu、および Y. Li、「ShapeConv: 形状認識畳み込み層屋内 RGB-D セマンティック セグメンテーション、Proc. IEEE/CVF 国際 会議 計算します。ヴィス。(ICCV)、2021 年 10 月、7068 ~ 7077 ページ。
[38] H. Liang、S. Zhao、C. Chen、および M. Sarem、「NAMlet 変換: 非対称およびアンチパッキング モデルに基づく新しい画像スパース表現方法」、Signal Process.、vol 。137、251–263ページ、2017年8月。
[オンライン]。利用可能: https://www. sciencedirect.com/science/article/pii/S0165168417300282
[39] Y. Zheng および M. Sarem、「非対称およびアンチパッキング モデルと拡張シェーディング表現を使用した圧縮グレー画像上の高速領域セグメンテーション アルゴリズム」、J . ヴィス。共通。画像表現、vol. 34、153–166ページ、2016年1月。
[オンライン]。入手可能: https://www.sciencedirect.com/science/article/pii/S1047320315002205
[40] J. Chen、S. Shan、C. He、G. Zhao、M. Pietikäinen、X. Chen、および W. Gao 、「WLD: 堅牢なローカル画像記述子」、IEEE Trans。パターンアナル。マッハ。インテリジェンス、vol. 32、いいえ。9、1705–1720ページ、2010年9月。
[41] A. Garcia-Garcia、S. Orts-Escolano、S. Oprea、V. Villena-Martinez、J. Garcia-Rodriguez、「セマンティック セグメンテーションに適用された深層学習技術のレビュー」、2017 年、arXiv :1704.06857。
[42] S. Xie、R. Girshick、P. Dollár、Z. Tu、および K. He、「ディープ ニューラル ネットワークの集約残差変換」、Proc. IEEE会議 計算します。ヴィス。パターン認識。(CVPR)、2017 年 7 月、5987 ~ 5995 ページ。
[43] Y. Cheng、R. Cai、Z. Li、X. Zhao、および K. Huang、「RGB-D 屋内セマンティック セグメンテーションのためのゲート型融合を使用した局所性依存型デコンボリューション ネットワーク」、Proc. IEEE会議 計算します。ヴィス。パターン認識。(CVPR)、2017 年 7 月、1475 ~ 1483 ページ。
[44] S.リー、S.-J. パーク、K.-S. ホン、「RDFNet: 屋内セマンティック セグメンテーションのための RGB-D マルチレベル残差特徴融合」、Proc. IEEE国際 会議 計算します。ヴィス。(ICCV)、2017 年 10 月、4990 ~ 4999 ページ。
[45] D. リン、G. チェン、D. コーエン-オール、P.-A. Heng および H. Huang、「RGB-D 画像のセマンティック セグメンテーションのためのカスケード機能ネットワーク」、Proc. IEEE国際 会議 計算します。ヴィス。(ICCV)、2017 年 10 月、1320 ~ 1328 ページ。
[46] Y. Liu、Q. Fan、S. Zhang、H. Dong、T. Funkhouser、および L. Yi、「TupleInfoNCE との対照的なマルチモーダル融合」、Proc. IEEE/CVF 国際 会議 計算します。ヴィス。(ICCV)、2021 年 10 月、754 ~ 763 ページ。
[47] Z. Xue、S. Ren、Z. Gao、および H. Zhao、「マルチモーダル知識拡張」、Proc. IEEE/CVF 国際 会議 計算します。ヴィス。(ICCV)、2021 年 10 月、854 ~ 863 ページ。

おすすめ

転載: blog.csdn.net/wagnbo/article/details/131154593