紙の読み取り - RGB-D 画像でのアモーダル 3D オブジェクト検出のためのディープ スライディング形状

RGB-D 画像でのアモーダル 3D オブジェクト検出のためのディープ スライディング形状

2日前にこの記事を目にしたのですが、読んだ後、自分の考えを整理したいと思います。
この記事の著者はプリンストン出身で、記事は CVPR16 に掲載されました。原文はここにあります。

概要

私たちは、 RGB-D 画像における非モーダル3D オブジェクト検出のタスクに焦点を当てます。その目標は、最大スケールでメートル形式のオブジェクトの 3D 境界ボックスを生成することです。Deep Sliding Shapes を導入します。これは、RGB-D 画像の 3D 立体シーンを入力として受け取り、3D オブジェクト境界ボックスを出力する 3D ConvNet 定式化です。私たちのアプローチでは、幾何学的形状から物体性を学習する初の 3D 領域提案ネットワーク (RPN) と、3D の幾何学的特徴と 2D 特徴の色を抽出する初の共同物体認識ネットワーク (ORN) を提案します。特に、モダリティフリーの RPN と ORN の 2 つの異なるスケールをトレーニングして、さまざまなサイズのオブジェクトを処理することにより、3D バウンディング ボックスを回帰します。実験の結果、私たちのアルゴリズムは mAP の点で最先端のものより 13.8 倍優れており、元の「スライディング シェイプ」よりも 200 倍高速であることが示されています。ソース コードと事前トレーニングされたモデルが提供されます

この記事では、著者は RGB-D 画像のアモーダル オブジェクト検出 (アモーダル オブジェクト検出) のタスクに焦点を当て、オブジェクトの 3D 境界ボックスを取得することを目的としており、3D 世界のターゲットの完全な境界ボックスを取得できます。トランケーションやオクルージョンの影響を受けません

当時、2D 中心のディープ RCNN ネットワークは 3D 中心のネットワークよりも優れていましたが、その理由は ImageNet データベースの強度とネットワーク設計の成熟度によるものと考えられるため、著者は 3D でディープラーニングが可能かどうかを尋ねました。より堅牢な検出方法を提供できるでしょうか?

助ける

1. 3D 領域提案ネットワーク (RPN) が初めて提案される;
ここに画像の説明を挿入
2. 共同物体認識ネットワーク (共同 ORN) -----画像特徴を抽出するための 2D ConvNet が初めて提案され、3D ConvNet深い幾何学的特徴を提供します;
ここに画像の説明を挿入
3. 3D フレームが初めて直接使用され、3D ConvNet が幾何学的特徴をより適切にエンコードできることを示す実験が行われました。
ここに画像の説明を挿入
次に、著者はアルゴリズムが優れている5 つの理由についても説明します。
私たちのデザインは 3D を最大限に活用しています。したがって、私たちのアルゴリズムは次の 5 つの側面から自然に恩恵を受けます。
まず、追加の CAD データからモデルをフィッティングする追加の手順を行わずに 3D 境界ボックスを予測できます。ネットワークは最終目標に合わせて直接最適化できるため、パイプラインが大幅に簡素化され、速度が向上し、パフォーマンスが向上します。
第 2 に、オクルージョン、限られた視野、投影による大きなサイズの変化のため、モダリティの提案を 2D で生成および認識するのは困難です。しかし 3D では、同じカテゴリのオブジェクトは通常同様の物理的寸法を持ち、オクルーダーの干渉がウィンドウの外に現れるため、3D スライディング ウィンドウ提案の生成は自然にパターンフリー検出をサポートできます。
第三に、形状を 3D で表現することにより、ConvNet はより適切に位置合わせされた空間で意味のある 3D 形状特徴を学習できます。
第 4 に、RPN では、自然界の受容野がサイズを自然に表し、それがアーキテクチャ設計の指針となります。
最後に、「マンハッタンの世界」の仮定を使用して境界ボックスの方向を定義することにより、単純な 3D コンテキスト事前分布を利用できます。

プロセス

1. 3Dコーディング表現

この論文では、3D コード表現に Truncated Signed Distance Function (TSDF) を使用し、3D 空間を等距離 3D ボクセル グリッドに変換します。方向性 TSDF を使用して、各ボクセルは [dx, dy, dz] を格納し、3 つの各方向で最も近いサーフェスの距離を計算し、計算を高速化するために投影された TSDF も使用します。

2. マルチスケール3D領域選択ネットワーク

1.
重力の方向に合わせて回転する任意の 3D シーンをカメラ座標系として入力します。仕様によると。ほとんどの RGB-D カメラでは、3D 空間の有効範囲を水平 [-2.6、2.6] メートル、垂直 [-1.5、1] メートル、奥行き [0.4、5.6] メートルとして定義します。この点で、グリッド サイズ 208×208×100 のボリューム TS25 のボリューム TSDF によって 3D シーンをエンコードし、これが 3D RPN への入力になります。

2. 方向の選択
筆者は、マンハッタン世界を仮定したRANSAC平面フィッティングを用いて、その結果を提案ボックスの方向として使用していますが、多くの場合、この方法によりかなり正確なボックスの方向が得られます。

3. アンカー ポイントを選択します。
各スライディング ウィンドウ (両方の畳み込み) の位置について、さまざまなサイズとサイズの N 個のボックスを予測します。この記事で使用するN = 19 \N = 19N=1 9

4.
マルチスケール RPN アンカー ボックスのサイズは大きく異なりますが、マルチスケール RPN を使用して、大きなサイズのオブジェクトをプーリング層に通過させて受容野を増加させ、アンカーの物理的なサイズとアンカーの物理的なサイズに応じてアンカーを分割します。 2 つのレベルで、異なる受容野を通じて予測します。

5. 完全な 3D 畳み込み構造
を図 1 に示します。2x2x2 フィルタは lv1 のアンカーに適用され、その受容野は 0.4m 3であり、5x5x5 フィルタは lv2 のアンカーに適用され、その受容野は 1m 3です。

6. 空のボックスを削除します。 1 で説明した範囲、解像度、およびネットワーク構造を考慮すると、各画像には 1,387,6​​46 個のアンカー (19x53x53x26) があり、そのほとんどは空であり、ポイント密度は非常に低くなります (0.005 ポイント/cm 3
未満) 。したがって、3D インテグラル イメージを使用してこれらの空のポイントが削除され、平均 107,674 個のポイントが残りました。テスト セット データとトレーニング セット データの両方がここで処理されます。

7. トレーニングサンプリング?
残りのアンカーについては、真の IOU スコアが 0.35 より大きい場合は陽性としてマークされ、0.15 未満の場合は陰性としてマークされます。この実装では、各ミニバッチに 2 つのイメージが含まれます。各画像では 256 個のアンカーが正負の比率 1:1 でランダムにサンプリングされます。陽性サンプルが 128 個未満の場合は、同じ画像からの陰性サンプルでミニバッチを埋めます。最終的な畳み込み層の各アンカーに重みを割り当てることで、それらを選択します。ここがよくわかりません

8. 3D ボックス回帰
各 3D ボックス (アンカーの固定方向、および人間が注釈を付けたグラウンド トゥルース) を表します。3D ボックス リグレッサーをトレーニングするには、アンカー ボックスとそのグラウンド トゥルース ボックスの中心とサイズの違いを予測します。簡単にするために、方向性については回帰しません。各フォワード アンカーとそれに対応するグラウンド トゥルースについて、ボックスの中心のオフセットをカメラ座標系におけるそれらの差 [∆cx, ∆cy, ∆cz] で表します。サイズの違いについては、まず 2 つのボックス間で最も近い主方向の一致を見つけてから、一致する各方向でのボックス サイズのオフセット [Δs1, Δs2, Δs3] を計算します。[17] と同様に、サイズの差をアンカー サイズで正規化します。各ポジティブアンカー t = [∆cx, ∆cy, ∆cz, ∆s1, ∆s2, ∆s3] について、3D ボックス回帰ターゲットは 6 要素ベクトルです。

9. マルチタスク損失関数
マルチタスク損失関数は、L ( p , p ∗ , t , t ∗ ) = L cls ( p , p ∗ ) + λ p ∗ L reg ( t , t ∗ ) L(p ,p^ *,t,t^*)=L_{cls}(p,p^*)+\lambda p^*L_{reg}(t,t^*)L ( p ,pt )=Lクラス_ _( p ,p )+p_ _ Lレグ_ _( t ,t )、前者はターゲット スコアを表し、後者はターゲット ボックス スコアを表します。

10. 3D NMS
RPN ネットワークは、残りのすべてのアンカーのターゲット スコアを生成します。3D 非最大抑制 (3D NMS) を適用して、IOU しきい値が 0.35 を超えるボックスの認識ネットワークへの出力として上位 2000 ボックスのみを選択します。これは、このアルゴリズムが元の 3D スライディング アルゴリズムよりも高速である主な理由でもあります。

3. 共同モードレス目標認識ネットワーク

3D 提案ボックスを取得した後、各ボックス内の 3D 空間をオブジェクト認識ネットワーク (ORN) に入力します。これにより、ORN によって提供される最終提案がオブジェクトの最終境界ボックスになります。著者は、ターゲットの完全な空間を取得するためにアモーダル ボックス (ここでは明確に理解されていないため、さらなる理解が必要です) を使用することを提案しています。

1. 3D ターゲット認識ネットワーク: 提案されたフレームごとに 12.5% パディングしていくつかのコンテキスト関係をエンコードし、空間を 30x30x30 のボクセル グリッドに分割し、TSDF を使用してジオメトリの形状をエンコードします。特定のネットワーク パラメータについては、ここでは詳しく説明しません。

2. 2D ターゲット認識ネットワーク: ImageNet でトレーニングされた VGG モデルを直接使用します。

3. 結合ネットワーク:
パイプラインは、投稿 2 の図に示すように、2D と 3D を組み合わせた認識ネットワークを構築し、3D VGG ネットワークと ORN ネットワークを 1 つの特徴ベクトルにマージし、入力として全結合層に渡します。ターゲットのラベルとボックスを予測します。

4. マルチタスク損失:
損失関数は分類損失と 3Dbox 回帰損失で構成され、損失関数は次のとおりです:
L ( p , p ∗ , t , t ∗ ) = L cls ( p , p ∗ ) + λ ' [ p ∗ > 0 ] L reg ( t , t ∗ ) L(p,p^*,t,t^*)=L_{cls}(p,p^*)+\lambda '[p^*> 0]L_{reg} (t,t^*)L ( p ,pt )=Lクラス_ _( p ,p )+' [p>0 ] Lレグ_ _( t ,t )
p は 20 のオブジェクト カテゴリの予測確率です。負の非オブジェクト オブジェクトは 0 カテゴリとして分類されます。各ミニバッチでは、さまざまな画像から 384 個のサンプルがサンプリングされ、陽性:陰性の比率は 3:1 です。ボックス回帰の場合、各ターゲットのオフセットが損失関数として使用されます。

5. SVM と 3D NMS
全結合層から特徴を抽出し、オブジェクト カテゴリに従って SVM をトレーニングし、それを 3D NMS に適用して、スコアに従ってターゲット ラベルを予測します。ターゲット ボックスの回帰については、直接ニューラル ネットワークの結果の出力を使用します。

6. 境界ボックスのサイズを構築する
モーダル境界ボックスを使用する場合、境界ボックスのサイズはオブジェクト認識に役立つ情報を提供します。そこで著者は、各方向のボックスのサイズ、各ボックスのエッジのアスペクト比を確認し、トレーニングセットで収集された分布と比較し、分布の1%~99%の範囲内にない場合は、 、ボックスが異常であることを意味し、2 ポイント減点します。

実験

RPN トレーニング時間は 10 時間、ORN トレーニング時間は 17 時間、テスト時間は PRN-5.62 秒/画像、ORN-13.93 秒/画像で、ディープ RCNN およびスライディング法よりもはるかに高速です。

ここに画像の説明を挿入
ここに画像の説明を挿入

要約する

個人的には、この記事のアイデアの大部分は、深度画像での 3D オブジェクト検出のための Sliding Shapesの記事から来ていると感じています。重要なのは、スライディング ウィンドウを使用してアモーダル ボックスを生成することで、より良い検出結果が得られるということですが、具体的な原理はまだ不明です。

おすすめ

転載: blog.csdn.net/ll594282475/article/details/105386252