屋内環境向けの効率的なマルチタスク RGB-D シーン分析

屋内環境の効率的なマルチタスク RGB-D シーン分析

arXiv:2207.04526v1 [cs.CV] 2022 年 7 月 10 日
記事アドレス: https://arxiv.org/abs/2207.04526
コードアドレス: https://github.com/TUI-NICR/EMSANet

まとめ

セマンティックなシーンの理解は、さまざまな環境で動作するモバイルエージェントにとって非常に重要です。セマンティックセグメンテーションは多くの情報を提供しますが、個々のオブジェクトやシーン全般に関する詳細は欠落していますが、現実世界の多くのアプリケーションには必要です。ただし、モバイルプラットフォームのコンピューティング機能とバッテリー機能が限られているため、複数のタスクを個別に解決するにはコストがかかり、リアルタイムで実行することはできません。この論文では、意味論的セグメンテーションとインスタンスセグメンテーション (パノラマセグメンテーション)、インスタンス方向推定、およびシーン分類を同時に実行する、RGB-D シーン分析 (EMSANet) のための効率的なマルチタスク手法を提案します。私たちは、単一のニューラルネットワークを使用してモバイルプラットフォーム上でパフォーマンスを低下させることなくすべてのタスクをリアルタイムで完了できることを示します。これとは対照的に、個々のタスクは相互にメリットをもたらします。マルチタスクアプローチを評価するために、セグメンテーションと方向推定のために一般的な RGB-D 屋内データセット NYUv2 および SUNRGB-D のアノテーションを拡張します。私たちの知る限り、NYUv2 および SUNRGB-D での屋内シーン分析のためのこのような包括的なマルチタスク設定に関する結果を提供したのは私たちが初めてです。

索引用語– マルチタスク学習、方向推定、パノラマセグメンテーション、シーン分類、セマンティックセグメンテーション、NYUv2、SUNRGB-D

1. はじめに

図 1. パノラマセグメンテーション、方向推定、シーン分類を同時に実行する、私たちが提案する Efficient Multi-Task Scene Analysis Network (EMSANet) の予測。NVIDIA Jetson AGX Xavier を 24.FPS で搭載しており、モバイルロボットアプリケーションに最適です。セマンティックラベルの色については、図 4 を参照してください。色の変化は個々のインスタンスを示します。

コンピュータービジョンでは、セマンティックシーンの理解は、画像の各ピクセルにセマンティックラベルを割り当てることによってシーン構造に関する正確な情報を取得できるため、セマンティックセグメンテーションと同一視されることがよくあります。しかし、この知識は、環境内で自律的に動作する必要がある現在進行中の研究プロジェクト MORPHIA および CO-HUMANICS のエージェントにとっては十分ではありません。モバイルロボットが意味論的なエンティティ (たとえば、図 1 に示すように、リビングルームにある一連の椅子の中の特定の椅子) に移動する必要があると想像してください。このような高度なタスクを実行するには、シーンについてのより幅広い理解が必要です。まず、環境のセマンティックグラフ [1] があっても、ロボットは環境のどの部分がリビングルームに属しているかを知る必要があります。次に、同じ意味カテゴリの個々のインスタンスを区別できる必要があり、最後に、正しい方向から椅子に近づくために、その向きが必要になります。

この論文では、このような高度なタスクを達成するために上記のすべての課題に対処する、効率的なマルチタスクシーン分析ネットワーク (EMSANet) と呼ばれるアプローチを提案します。私たちの方法では、シーンの分類、セマンティックおよびインスタンスのセグメンテーション (パノプティックセグメンテーション)、およびインスタンスの向きの推定が可能になります。ただし、モバイルプラットフォーム上の限られたコンピューティングリソースとバッテリーリソースを考慮すると、これらすべてのタスクを個別に解決するにはコストがかかり、リアルタイムで実行することはできません。したがって、単一の効率的なマルチタスクネットワークを使用して、上記のタスクすべてを解決する方法を設計します。私たちの方法は、パノラマセグメンテーション、インスタンス方向推定、およびシーン分類を処理する追加のヘッドを追加することにより、効率的なセマンティックセグメンテーション方法である ESANet [2] を拡張します。ESANet は、RGB データと深度データの両方を入力として処理します。[2] に示されているように、特に屋内環境では、深度データは、雑然とした屋内シーンの分析に役立つ補完的な幾何学的情報を提供します。この論文では、これがパノラマセグメンテーション、インスタンス方向推定、およびシーン分類にも当てはまることを示します。したがって、私たちの方法は RGB と深度データにも依存します。

このようなマルチタスクアプローチのトレーニングには、包括的なデータセットが必要です。ただし、私たちの知る限り、現実世界の RGB-D 屋内データセットには、上記すべてのタスクに対するグラウンドトゥルースアノテーションが含まれていません。したがって、既存のデータセット NYUv2 [3] および SUNRGB-D [4] にインスタンスセグメンテーションとインスタンス方向推定のためのアノテーションを追加します。このデータを使用して、最初に単一タスクのベースラインをトレーニングし、次に複数のタスクを複数のマルチタスク設定で組み合わせます。私たちの実験では、パフォーマンスを低下させることなく、単一のニューラルネットワークを使用してすべてのタスクをリアルタイムで解決できることが示されています。対照的に、個々のタスクは相互に強化されます。私たちの完全にマルチタスクなアプローチは 24 に達します。モバイルプラットフォーム NVIDIA Jetson AGX Xavier 上の FPS でありながら、最先端のパフォーマンスを実現します。したがって、モバイルプラットフォームでの実用的なアプリケーションに非常に適しています。

要約すると、私たちの主な貢献は次のとおりです。

新しいインスタンス方向エンコーディングを含む、パノラマセグメンテーション、シーン分類、インスタンス方向推定 (EMSANet) のための効率的な RGB-D マルチタスク手法
豊富な NYUv2 および SUNRGB-D アノテーション
NVIDIA Jetson AGX Xavier のシングルおよびマルチタスク設定におけるパフォーマンスとそれに対応する推論スループットに関する詳細な実験。

私たちのコード、NYUv2 および SUNRGB-D の追加のアノテーション、およびトレーニングされたモデルは、https: //github.com/TUI-NICR/EMSANet で公開されています。

2.関連作品

以下では、各タスクに関連する作業を簡単にまとめます。さらに、マルチタスク環境におけるタスクの構成に関する洞察も提供します。

A. セマンティックセグメンテーション

セマンティックセグメンテーションのアーキテクチャは通常、エンコーダ/デコーダ設計に従って、高密度のピクセルレベルの予測を実現します。PSPNet [5] や DeepLab シリーズ [6] ～ [8] などのよく知られた手法は良好な結果をもたらしますが、中間特徴表現のアンダーサンプリングのため、モバイルプラットフォームではリアルタイムで実行できません。したがって、高いパフォーマンスを維持しながら推論時間の短縮に焦点を当てた、別の研究分野が登場しました。たとえば、ERFNet [9] は、高価な 3 × 3 畳み込みを 3 × 1 および 1 × 3 畳み込みに空間的に分解することで、より効率的なブロックを導入し、計算量を削減します。対照的に、SwiftNet [10] は、事前にトレーニングされた ResNet18 [11] をエンコーダーとして使用し、早期かつ高度なダウンサンプリングを実行するため、推論時間は短くなりますが、それでも良好なパフォーマンスが得られます。

上記の方法は、特に屋内アプリケーションの場合、RGB データのみを扱いますが、他の方法 [12] ～ [16] は、乱雑なシーンの分析に役立つ補完的な幾何学的情報を提供するため、深度データも組み込んでいます。ほとんどの方法では、最初に 2 つのエンコーダを使用して RGB と深度データ (RGB-D) を別々に処理し、次に結果として得られる特徴をネットワーク内で融合します。ただし、ほとんどすべての RGB-D 手法は深く複雑なネットワーク構造を使用しており、高速推論に焦点を当てていません。対照的に、私たちが最近公開した ESANet [2] は、高効率と RGB-D セマンティックセグメンテーションの利点を組み合わせています。これは、高ダウンサンプリングと空間因数分解コンボリューションを備えた RGB-D ResNet ベースのデュアルブランチエンコーダを特徴とする慎重に設計されたアーキテクチャを活用し、高速推論を可能にします。[2] の実験では、明るいスケルトンを使用して RGB および深度データを処理する方が、RGB データと暗いスケルトンのみを利用するよりも優れていることが示されています。したがって、私たちのアプローチは ESANet に従い、残りのタスクを処理するために追加のヘッドでそのアーキテクチャを拡張します。

B. パノラマセグメンテーション

パノラマセグメンテーション [17] は、セマンティックセグメンテーション (各ピクセルにカテゴリラベルを割り当てる) とインスタンスセグメンテーション (同じインスタンスのピクセルに一意の ID を割り当てる) を 1 つのタスクに統合することを目的としています。パノラマセグメンテーションでは、可算オブジェクトの意味クラスが、前景を表すモノのクラスとして扱われます。壁や床などのバックグラウンドクラス (スタッフクラスと呼ばれる) にはインスタンスは必要ありません。したがって、関連するすべてのピクセルは同じインスタンス ID を持ちます。パノラマセグメンテーション方法は、トップダウン、ボトムアップ、エンドツーエンドの方法に分類できます。トップダウン手法は通常、Mask R-CNN [18] などの 2 段階のインスタンスセグメンテーション手法を拡張し、セマンティックセグメンテーション [19]、[20] のためのデコーダを追加します。トップダウンのアプローチは多くの場合優れたパフォーマンスを実現しますが、いくつかの大きな欠点があります。インスタンスセグメンテーションメソッドは重複するインスタンスマスクを出力する可能性があるため、インスタンスセグメンテーションとセマンティックセグメンテーションを矛盾なくマージするには、これらの問題を解決するためのさらなるロジックが必要です。さらに、複雑なトレーニングと推論パイプラインが必要なため、モバイルアプリケーションにはあまり適していません。一方、ボトムアップアプローチは、セマンティックセグメンテーションのためにエンコーダ/デコーダベースのアーキテクチャを拡張し、ピクセルをクラスタにグループ化することで物事のカテゴリをインスタンスに分離します[21]–[23]。ボトムアップ手法では、領域の提案も、複数のマスクの独立した推定も、さらなる洗練ステップも必要としないため、トレーニングと推論のパイプラインはトップダウン手法よりも長くなり、はるかに単純になります。しかし、Panoptic DeepLab [23] が登場するまでは、ボトムアップ手法はパノラマ品質の点でトップダウン手法と競合できませんでした。それにもかかわらず、トップダウンとボトムアップの両方のアプローチでは、インスタンスとセマンティックセグメンテーションを組み込むための追加のロジックが必要です。最近提案された Max-DeepLab [24] は、新しいデュアルパスコンバータアーキテクチャ [25] に基づく別のアプローチを採用し、エンドツーエンドパイプラインを使用してユビキタスセグメンテーションを直接予測することを試みます。ただし、このような手法に関する研究は現在、高速かつ効率的な推論ではなく、新しいアーキテクチャを確立することに焦点を当てています。

セマンティックセグメンテーションとは異なり、効率性を目的とする方法はわずかです [26]–[30]。ただし、ハイエンド GPU での推論時間のみをレポートするため、ターゲットハードウェアは異なります。NVIDIA Jetson AGX Xavier などのモバイルプラットフォームでの実行は、はるかに遅くなることが予想されます。

私たちのアプローチは、ESANet に直接統合でき、モバイルプラットフォームでのより高速な推論を約束するため、ボトムアップの哲学に従っています。

C. 方向推定

方向推定は 3D 境界ボックス検出 [31] ～ [33] と一緒に行われることが多く、このアーキテクチャに深く統合されています。密な予測を達成するためにこれらの検出器を調整するには根本的な変更が必要となるため、私たちのアプリケーションには適していません。方向推定に密接に関連するもう 1 つの研究分野は、人間の知覚です [34] ～ [38]。人間の本質的な方向性を推定するためにスケルトン [34] を使用することに加えて、パッチ [35] ～ [38] から直接方向性を推定する方法もあります。これは、分類または回帰を使用して行うことができます。しかし、[35] に示されているように、この分類法では離散性の不正確さがさらに増大し、周期性が十分に考慮されていません。したがって、[35]、[36] などの方法は回帰に依存し、サイン部分とコサイン部分によって角度を推定します。これはバイタニオン符号化と呼ばれることがよくあります [35]。同じ著者は、計算の周期性をさらに改善し、不連続性を回避するため、L1 または MSE 損失の代わりにフォンミーゼス損失関数 [35] を使用することも提案しました。

私たちのアプローチは後者の考え方に従い、方向推定を回帰として定式化します。ただし、パッチベースの方法を使用する代わりに、密な方向推定を達成するための新しい方法を提案します。

D. シーンの分類

キッチンやリビングルームなどの入力画像にシーンラベルを割り当てるシーン分類は、ImageNet-Challenge [39] などの他の分類タスクと似ています。したがって、よく知られているアーキテクチャ [11]、[40] ～ [42] を使用できます。

E. マルチタスク学習

マルチタスク学習とは、ニューラルネットワークで複数のタスクを同時に学習することを指します。これらのタスクは通常、少なくとも一部のネットワークパラメーターを共有するため、タスクごとに個別のネットワークを使用する場合に比べて推論が高速になります。さらに&#x

【EMSANet2022】屋内環境向けの効率的なマルチタスク RGB-D シーン分析