RGB-D センサーによる 3D 再構成のためのテクスチャ マッピング (CVPR_2018) 読み物付き中国語翻訳論文

ペーパーリンク

抽象的な

3D モデルのリアルなテクスチャの詳細を取得することは、3D 再構築において重要です。ただし、ノイズの多い RGB-D センサー データによって引き起こされる幾何学的誤差の存在により、カラー イメージを再構築された 3D モデルに正確に位置合わせすることが常に妨げられます。この論文では、より望ましいテクスチャ マッピング結果を得るために、グローバルからローカルへの補正戦略を提案します。私たちのアルゴリズムは、まず 3D モデルの各面に最適な画像を適応的に選択します。これにより、複数の画像のブレンドによって生じるぼやけやゴーストのアーティファクトを効果的に除去できます。次に、非剛体グローバルからローカルへの補正ステップを採用して、テクスチャ間の継ぎ目を削減します。これにより、カメラのポーズのドリフトや幾何学的な誤差によって引き起こされるテクスチャや幾何学的なずれを効果的に補正できます。さまざまな複雑なシーンで提案されたアルゴリズムを評価し、3D モデルのシームレスで忠実度の高いテクスチャを生成する際の効果的なパフォーマンスを実証します。

1. はじめに

RGB-D センサーの出現により、3D 再構成は近年大幅に進歩しました。小規模なオブジェクトと大規模なシーンの両方を印象的な幾何学的な詳細でモデル化できますが [10、17、26、27、28]、3D モデルからのテクスチャ復元の忠実度はまだ満足のいくものではありません [7、13、22]。

テクスチャ マッピングが 3D モデリングに比べて遅れているのはなぜですか? 理由は 4 つあります。 1) 深度データのノイズにより、再構成された 3D モデルには常に幾何学的エラーと歪みが伴います。2) カメラ軌道推定では、姿勢残差が徐々に蓄積され、カメラ ドリフトの原因となります。3) キャプチャされた深度フレームとカラー フレーム間のタイムスタンプは完全には同期されていません。4) RGB-D センサーは通常解像度が低く、カラー画像も光や動きの状況の影響を受けやすくなります。上記の課題はすべて、幾何学的モデルと対応する画像の間の位置ずれを引き起こし、最適ではないマッピング結果をもたらします。

プロジェクション マッピング手法 [21、23] は、複数の画像のブレンドによって引き起こされるぼやけやゴースト アーティファクトを軽減できますが、幾何学的な位置合わせエラーやカメラ軌道のドリフトにより、異なるビューの境界でのテクスチャ ブリーディングは避けられません。Zhou と Koltun [30] は、幾何学的な位置ずれを補償するローカル画像ワーピングを使用した最適化フレームワークを提案しました。ただし、この方法ではグリッドモデルを細分化する必要があるため、データ量が大幅に増加し、適用範囲が制限されます。さらに、マルチ画像ブレンディングで一般的に採用される加重平均戦略は、光の変化や、カメラの高速移動によって引き起こされるモーション ブラーの影響を受けやすくなります。

これらの課題を克服するために、この論文では、グローバルからローカルへの非剛体補正最適化を実行できる新しいテクスチャ マッピング方法を提案します。まず、複数の画像のブレンドにおけるアーティファクトを回避するために、各顔に最適な画像を選択します。グローバル最適化ステップでは、ジョイントのカラー一貫性とジオメトリ一貫性の最適化を使用して、さまざまなビューからの各テクスチャ パッチのカメラ ポーズを修正します。次に、局所的な最適化ステップで、幾何学的誤差によって引き起こされるテクスチャ座標のドリフトを改善するために、パッチの境界頂点の追加の変換を見つけます。最後に、テクスチャ アトラスを使用して、テクスチャを目的の 3D モデルにマッピングします。

一連の複雑なシーンに対する提案手法の有効性を検証し、忠実度の高いテクスチャを示します。方法 [30] とは対照的に、私たちの方法ははるかに高速で、必要な三角形情報がはるかに少なくなります。テクスチャブラーアーティファクトも大幅に除去されます。[23] と比較して、私たちの方法は面の境界間の継ぎ目の不一致を効果的に軽減でき、幾何学的な位置ずれを許容できます。

2. 関連作品

テクスチャ マッピングは、リアルな 3D モデルを取得するための重要なステップです [11、16、26、29]。このセクションでは、テクスチャ マッピングを改善するための関連する方法をいくつか確認します。

ブレンドベースのアプローチ: テクスチャ マッピングへの一般的なアプローチは、さまざまな加重平均戦略を使用して複数の画像をテクスチャにブレンドすることです [3、8、20]。現在の RGB-D 再構成システム [25、19、7] は主に、切り捨て符号付き距離関数 (TSDF) 表現に依存しています。これは、TSDF ボリューム グリッドに加えて、複数のイメージの加重平均を実行して頂点ごとのカラーを計算するカラー ボリューム グリッドを追加する必要があることを意味します。ただし、そのため、この方法は計算ノイズの影響を受けやすくなり、復元されたカメラのポーズや 3D ジオメトリがわずかに不正確な場合、ブラーやゴーストが発生しやすくなります。さらに、モデルの細分化のプロセスや、さまざまな視点でのモデル サイズの変化もパフォーマンスに影響します。

投影ベースのアプローチ: もう 1 つのメカニズムは、各面または頂点を適切なイメージに関連付ける投影テクスチャ マッピングです。[21] は、ペアごとのマルコフ確率場を使用して、各顔に最適な画像を選択しました。この研究に触発されて、Allene et al. [2] と Gal et al. [14] は、より適切なビューを選択するためにデータ項と平滑化項を洗練するための追加のメトリクスを導入しました。ただし、これらの方法は、隣接する顔のテクスチャ間の視覚的な継ぎ目をどのように軽減するかという困難な問題に直面しています。この問題を克服するには、マルチバンド ミキシング [6] とポアソン編集 [15] をそれぞれ利用して後処理を追加する必要がありました。[23] は、ビューの投影によって引き起こされる視覚的な中断を減らすためのグローバルな色調整アルゴリズムを提案しました。これらの方法では、複数画像のブレンドによって生じるぼやけやゴーストのアーティファクトを大幅に軽減できますが、幾何学的な位置合わせエラーやカメラ軌道のドリフトにより、異なるビューの境界でテクスチャのにじみが避けられません。

ワープベースの方法: 上記の方法とは異なり、ワープベースの方法は、幾何学的なエラーやカメラのドリフトによって引き起こされる位置ずれの問題に対してより耐性があります。Eisemann et al. [12] は、投影されたテクスチャ イメージ間のオプティカル フローを推定することにより、ローカル テクスチャ ワーピング法を導入しました。Aganj et al. [1] は、復元されたメッシュを適合させるために、異なる画像に異なる変形を適用します。変位フィールドは、薄板スプラインを使用してさまざまなビューの特徴点を近似的に一致させることによって計算されます。さらに、Zhou と Koltun [30] は、カメラのポーズと幾何学的エラーの両方がローカル画像ワーピングによって修正されるテクスチャ マッピング フレームワークを設計しました。ただし、この方法ではグリッドモデルを細分化する必要があるため、データ量が大幅に増加し、適用範囲が制限されます。さらに、これらの方法では、加重平均混合戦略が依然として使用されているため、不鮮明なアーティファクトも発生します。最近、Bi ら [4] はパッチベースの合成を使用して顔ごとに新しいターゲット テクスチャ イメージを生成し、カメラのドリフトと再構成エラーを補正しましたが、動的なシャドウを含むシーンはこの方法では困難です。

3. 概要

この作業の目的は、市販の深度カメラで取得した 3D モデルにテクスチャ画像をマッピングすることです。入力は、深度フレームと対応するカラー フレームを含む RGB-D シーケンスまたはリアルタイム ビデオで、出力は高忠実度のテクスチャを伴う 3D モデルです。この目標を達成し、前述の課題を克服するために、4 つの主要なステップで構成されるグローバルからローカルへの最適化戦略を提案します。図 1 に提案手法の概要を示す。

図 1: 本論文で提案する手法の概要。 (a) テクスチャ マッピング用の入力画像。 (b) 各顔に対して選択された最適なテクスチャ画像。 異なる色の数字は、選択された画像のインデックスを示します。 (c) グローバル最適化の結果のみが使用されます。 (d) グローバルからローカルへの最適化の結果。

入力:アルゴリズムへの入力は、Kinect v1 によって取得された RGB-D シーケンスまたはリアルタイム ビデオです。より詳細な色の情報を得るには、Kinect の上に HD カメラを追加して高解像度のテクスチャ画像を取得することもお勧めします。ただし、公平な比較を行うために、実験入力として Kinect V1 の低解像度カラー画像を使用します。

前処理:入力深度シーケンスからメッシュ モデルをテクスチャ マッピングの初期モデル M0 として再構築し、元のカラー シーケンスからフレームのサブセットをテクスチャ候補として抽出します。品質を向上させ、計算の複雑さを軽減するために、[30] とは異なり、KinectFusion [18、22] の代わりに [28] を利用して 3D モデルを再構築し、画像の鮮明さ、ジッター、ブラー、およびビューポート オーバーレイの要素に重み付けしてテクスチャ候補を選択します。画像。このステップでは、初期モデル M0 と、選択されたカラー画像サブシーケンス {Ci} および深度画像サブシーケンス {Di} に対応するカメラポーズのセット {T0 i} が生成されます。

最適化:高忠実度のテクスチャを構築するために、私たちの方法は [23] と [30] の利点を組み合わせています。複数の画像のブレンドによって生じるぼやけを避けるために、モデルの各面に最適なテクスチャ画像を選択します。したがって、各候補画像をラベルとして扱うことにより、カメラのポーズと法線マップの間の角度、投影面積、モデルの顔から画像までの距離を含むマルチラベルのマルコフ場として選択問題を定式化します。カメラ平面の距離。ただし、T0 も m0 も絶対的に正確ではないため、通常は、異なるラベルを持つ隣接する面を完全にステッチすることはできません。この問題を解決するために、グローバルからローカルへの最適化戦略を採用します。グローバルな最適化のために、関連するブロック間の色の一貫性と幾何学的な一貫性に従って、各テクスチャ ブロックのカメラ ポーズを調整します。ローカル最適化段階では、追加の変換をインポートして、さまざまなブロックの境界上のテクスチャ座標を調整し、シームレスにタイル化されたテクスチャを作成します。

テクスチャ アトラス:最後に、テクスチャ アトラスを利用して、目的のテクスチャを 3D モデルにマッピングします。最適化されたカメラのポーズで、各顔が関連付けられたテクスチャ イメージに投影され、投影された領域が取得されます。各投影領域は、各三角形の面の頂点座標を記録しながら、テクスチャ アトラスを構築するために使用されます。次に、それらをアトラス空間に変換します。このようにして、各頂点のテクスチャをテクスチャ座標を通じてアトラス内で直接取得でき、最終的なテクスチャ モデルを生成できます。

4. テクスチャマッピング方法

このセクションでは、各ステップについて詳しく説明します。M0 がテクスチャ マッピング用に再構成されたメッシュ モデルを表すものとします。{vi} と {fi} はそれぞれ M0 の頂点セットと面セットであり、各面はモデル上の三角形メッシュを表します。T は、M0 の頂点 vi をワールド座標からローカル カメラ座標に変換する 4 × 4 変換行列で、次のように定義されます。 ここで、
ここに画像の説明を挿入
R は 3 × 3 回転行列、t は 3 × 1 変換ベクトルです。
また、3D 頂点 v = [x,y,z]T の 2D 画像平面への透視投影を Π と指定します。したがって、画像平面上の頂点 v のピクセル座標 u(u, v) は次のように計算できます。 ここで、
ここに画像の説明を挿入
K はカメラの固有行列、fx、fy は焦点距離、cx、cy はカメラの座標に対応します。ピンホールカメラモデルの中心。さらに、深度画像を表すために D を使用し、カラー画像を表すために C を使用し、カラー画像の強度に対応するために I を使用します。

4.1. モデルの再構築

パイプラインへの入力は、深度画像のストリームとそれに付随する RGB カラーのシーケンスです。私たちのシステムでは、Microsoft Kinect V1 を使用してこれらのデータをキャプチャします。Kinect V1 の入力フレーム解像度は低く、モーション ブラーやジャダー効果の影響を受けやすいため、シーン モデリングとテクスチャ マッピング用に信頼性の高いフレームのサブセットを選択しました。
私たちの方法では、KinectFusion [18、22] の代わりに Sparse Sequence Fusion (SSF) メソッド [28] を利用して、初期 3D モデルを再構築し、高い信頼性でカラー フレームを抽出します。この方法では、ジッター、ぼやけ、およびスキャン ノイズに寄与するその他の要因が考慮されます。スパース深度画像シーケンス {Di} からメッシュ モデル M0 を再構成できます。[28] の基本関数は次のように定義されます。
ここに画像の説明を挿入
ここで、Esel(i) は深度画像 Di の選択を制御するスイッチ項目です。現在の画像が統合するのに有効な画像であるとみなされる場合は 1 に設定され、そうでない場合は 0 に設定される必要があります。Ejit(i) は、選択した画像間の瞬間的な視点の変化を計算することにより、ジャークの影響を測定します。連続項 Edif(i) は、カメラのポーズの変化を計算することで、選択された 2 つのサポート画像間で十分なシーンの重なりを保証し、Evel(i) はカメラの動きの速度を評価します。これらの要素に加えて、高精細な画像を得るために、各色フレームの品質を表す用語も導入しました。式 4 は、フレーム抽出の目的関数を示しています。
ここに画像の説明を挿入

ここで、Essf は SSF 項、λ cla はバランス パラメーターです。実験では λ cla = 10 を使用し、その他は [28] に従って設定されます。シャープネス項 Ecla は次のように定義されます。
ここに画像の説明を挿入
ブラー値 θ は [9] によって計算されます。式 5 は、奥行き画像 Di がサポート サブセットに追加されると、対応するカラー画像 Ci の鮮明度を計算する必要があることを示しています。そうでない場合は、Esel(i) の値に従って直接無視されます。この繰り返しは、キャプチャされたすべての画像が処理されるまで続きます。これにより、テクスチャ候補として使用できる関連するカメラ ポーズ {T0 i} を含む一連のスパース カラー イメージ {Ci} が生成されます。

4.2. テクスチャ画像の選択

多くのテクスチャ マッピング方法 [3、8、20] は、複数のイメージ プレーンにメッシュを投影し、加重平均ブレンディング戦略を採用してピクセルからモデル テクスチャを合成します [11、16]。彼らは理想的には、推定された幾何学的表面とカメラのポーズが十分に正確であると仮定していますが、実際には、これは簡単に破られます。したがって、複数の画像から直接合成するのではなく、モデル m0 の各面に最適なテクスチャ画像を個別に選択します。各候補画像をラベルとして扱うことで、この選択問題を [2] に基づいてペアごとのマルコフ確率場 (MRF) として定式化します。データ項目 Ed は各モデルの顔を各候補画像 Ci に投影し、その面積を測定します
ここに画像の説明を挿入
。投影された領域は、角度ビューの近接性、角度、画像解像度、可視性の制約に関連しており、次のように定義されます。 8 に示す式で記述される平滑化項 Es は、色差を測定するためにエッジ e に沿って積分計算されます
ここに画像の説明を挿入
。ここで、e は、異なるテクスチャ イメージ (Ci、Cj) に割り当てられた隣接する面間の共通エッジです。ε はモデル m0 のエッジ セット全体です。
ここに画像の説明を挿入この式の式 6 の MRF 関数 E(C) は、グラフ カットとアルファ拡張によって最小化されます [5]。

4.3. グローバル最適化

上記の手順により、各顔がテクスチャ イメージ Ci に関連付けられます。ただし、テクスチャ ステッチや色調整後処理 [21、14] を直接使用しても、幾何学的誤差やカメラ ドリフトのため、隣接する面のテクスチャを視覚的に一貫させることはできません。これが、プロジェクション テクスチャ マッピング手法の主な課題です。視覚的な継ぎ目を排除するために、オフメッシュ補正のアイデアを借りて、隣接する面の間にテクスチャをステッチします。

外部行列 T0 と内部行列 K を通じて、モデルの顔を関連する画像に簡単に投影して、テクスチャ カラーを取得できます。ただし、行列 {T0 i} には常にノイズが含まれるため、これらの変換によって得られるテクスチャ カラーも不正確になる可能性があります。したがって、このセクションでは、さまざまなテクスチャ イメージのすべての顔が厳密に位置合わせできるように、{T0 i} を最適化する必要があります。

まず、テクスチャ イメージ {Ci} に基づいて顔のクラスタリング プロセスを実行します。つまり、2 つの隣接する顔が同じテクスチャ イメージに対応する場合、それらを同じラベル付きクラスタに置きます。すべての面を走査した後、図 2 に示すようにクラスターのコレクションを取得できます。わかりやすくするために、同じクラスター内のすべての面にchartという名前を付けます。堅牢性を向上させるために、チャートi 内の面 Fi の数がしきい値 FN 未満の場合、チャートは次の 3 つの要素によって測定される最も近い隣接面 j にマージされます。 1)チャートi と j テクスチャ間の視点角度画像は最小限にする必要があります。2)面数がFj>FNの基準を満たしている。3) グラフ i のすべての頂点のグラフ j のテクスチャ イメージへの投影は、依然として境界内に留まるはずです。後続の実験では、経験的に FN = 50 を設定しました。クラスタリングに基づいて、チャートから無向接続グラフ G を構築します。2 つのチャートが互いに隣接している場合、それらをリンクするエッジ gij ∈ G が存在します。
図 2: テクスチャ イメージに基づいてモデルの顔をクラスタリングします。
チャート内の面のテクスチャは同じ画像からのものであるため、うまく並んでいます。つまり、モデルの自然なテクスチャを生成するには、異なるチャート間でテクスチャを調整するだけで済みます。理想的なテクスチャ マッピングでは、チャートの境界テクスチャは、隣接するチャートのテクスチャによって完全に復元できると考えられます。この観察に基づいて、可能な限り隣接するチャートを位置合わせして、各チャートとその隣接するチャートの関連および投影されたテクスチャ間の不一致を最小限に抑えることができます。テクスチャー。ただし、色の一貫性のみを考慮すると、テクスチャが適用されていない領域で位置がずれる可能性があります。したがって、式 9 の正則化項である幾何学的一貫性も考慮します。以下のように、各チャートの色の一貫性と幾何学的一貫性を測定することによって目的関数の式を構築します。

ここに画像の説明を挿入

ここで、vk はチャートiに設定された頂点全体を表し、N はその番号です。chart N は、モデル m0 上のチャートの数を示します。関数 φ(x) は、ベクトル x の Z 成分を計算します。Gi はチャートiの近傍を示します。最初の項は、チャートi のテクスチャを、隣接するチャートjの投影されたテクスチャと一致させます。第 2 項は、T が変更された場合に、最適化されたカメラ ポーズによってテクスチャが一貫性を持つだけでなく、再構成されたモデルが RGB-D カメラによって取得された深度画像と一貫性を持つことを保証し、カメラ ポーズ T が変化しないことを保証します。色の制約が不十分です 初期値 T0 から外れています。式 9 を最小化することで、各チャートの調整変換行列を計算できます。これにより、隣接するチャートが互いに近づき、視覚的な継ぎ目が減少します。

4.4. 局所的な最適化

グローバル最適化ではほとんどのテクスチャ領域をステッチできますが、幾何学的誤差が大きい一部の領域 (図 1© の赤いボックスで示されている) では、テクスチャを正確に位置合わせすることができません。グローバル最適化では、各チャートのカメラ ドリフトのみを修正できます。再構築されたジオメトリが十分に正確であれば、グローバル最適化後にすべてのテクスチャが適切にステッチされます。残念ながら、幾何学的なエラーが蔓延しているため、高忠実度のテクスチャ マッピングにはグローバルな最適化が不十分です。したがって、モデルの各面にさらに調整を導入して、局所的なテクスチャも適切に位置合わせできるようにしました。

チャート上のすべての面は同じテクスチャ イメージに対応するため、チャート全体を最適化する必要はありません。さらに、各グラフはグローバル最適化ステップでほぼ位置合わせされているため、幾何学的誤差によって引き起こされるテクスチャの位置ずれを補正するために修正する必要がある頂点はほんの一部だけです。メッシュ モデルを編集する代わりに、チャートの境界頂点の投影座標を変更することをお勧めします。図 3(b) に示すように、頂点 v でテクスチャを位置合わせするには、画像 A 内の v の投影座標をシフトして、画像 B 内の v のテクスチャを位置合わせします。境界線の頂点が最適化されている限り、チャート全体のテクスチャは適切に調整されます。

図 3: (a) 2 つの隣接する *チャート* のそれぞれのテクスチャ イメージ上の投影領域。 (b) *chart* A の頂点 v のテクスチャ座標を修正して、*chart* B のテクスチャ イメージの頂点 v の座標と揃えます。
ただし、頂点の投影座標を移動するのは不適切な問題です。この課題に対処するために、各境界頂点のテクスチャ座標の最適な移動ベクトルを見つけ、それを隣接するチャートテクスチャと位置合わせします。これを行うには、移動ベクトルを直接計算する代わりに、チャート境界上の頂点 v の追加の変換行列を計算します。追加の変換により、頂点 v が存在するチャートがv に接続されているチャートと十分に位置合わせされることが保証されます。次に、この行列を使用して、v の最適な投影座標をテクスチャ座標として取得します。テクスチャ座標補正プロセスにより、各境界頂点 v でのローカル テクスチャの十分な位置合わせが可能になります。次のように、画像内のテクスチャ座標を補正するための v 行列を計算する目的関数を設計します。

ここに画像の説明を挿入
ここで、 j はチャートi の境界頂点を表し、 k は頂点 j を共有する i の隣接するチャートを表し、 v はチャートiの頂点全体を表します。Tij は、チャートiの頂点 j の投影されたテクスチャが、隣接するチャートkのテクスチャ イメージ上の投影されたテクスチャと一致するように、頂点 j のテクスチャ座標を修正するために使用される追加の変換行列です。Ti と Tj は、グローバル最適化によってチャートA とチャートB に対して最適化された変換行列です。I は単位行列を表します。最初の項目は、チャートの境界上の頂点のテクスチャをできるだけ近くに揃えるデータ項目です。2 番目の項は正則化項で、追加の行列がグローバル最適化の結果から逸脱しないことを保証します。

ガウス-ニュートン反復を使用して、方程式 9 と 10 を解きます。グローバル最適化後の各チャートのカメラ変換 Ti を取得しますチャート境界上の頂点については、投影されたテクスチャ座標を修正するための追加の変換を取得します。これにより、テクスチャがその頂点で隣接する面のテクスチャと位置合わせされます。次に、すべての境界テクスチャ座標が処理されるまでこのプロセスを繰り返します。

Ti によりチャート全体をテクスチャ画像に投影してテクスチャ座標を取得し、チャート境界上の頂点についてはさらに非剛体補正用の変換 Tij を使用して補正されたテクスチャ座標を取得します。テクスチャ座標を保存し、テクスチャ アトラスを取得します。最後に、テクスチャ アトラス技術を使用して、シームレスにテクスチャ化されたモデルを生成できます。

5. 結果

わずかに

6. 結論

この論文では、RGB-D センサーを介して 3D モデルを再構成するための非剛体テクスチャ マッピング手法を提案します。私たちのメソッドへの入力は RGB-D ビデオ シーケンスで、出力は高品質のテクスチャを備えた 3D 再構成モデ​​ルです。テクスチャの位置を調整するグローバル最適化ステップを導入し、テクスチャ境界をさらに洗練するためにローカル最適化を設計します。実験では、私たちの方法が困難なシーンであっても忠実度の高いテクスチャモデルを生成できることを示しています。将来的には、より詳細なテクスチャ復元のために、視覚的な顕著性情報 [24] をフレームワークにインポートしたいと考えています。

7.参考文献

わずかに。

おすすめ

転載: blog.csdn.net/qq_44324007/article/details/127122302