[論文概要] IS-MVSNet: サンプリングベースの MVSNet (ECCV 2022) の重要性

1. 論文の簡単な紹介

1.筆頭著者:王立康

2. 発行年: 2022年

3. 掲載誌: ECCV

4. キーワード: MVS、3D再構成、重要度サンプリング、教師なし誤差分布推定

5. 探索動機:粗いものから細かいものまでの方法で深度マップを予測します。これにより、解像度の制限が部分的に緩和されます。粗い段階から細かい段階へのアルゴリズムの背後にある基本的な仮定は、粗い段階での予測が真実の信頼できる推定値であるということです。しかし、粗密戦略を採用したとしても、深度分解能は依然として高精度と高効率の同時達成を妨げる重要な要因です。既存の粗密アルゴリズムは、深度範囲全体にわたって各候補深度値を同等に扱うため、以前は信頼できた予測仮定を十分に活用できません。

6. 作業目標:この文書では、最も有望な候補値を選択することに焦点を当てています。したがって、新たな問題は、どの深さが最も信頼できるかを区別することです。大まかな予測は実際の深さに近いことを前提としていますが、100% 正確ではありません。したがって、グラウンドトゥルースをより正確に特定するには、粗い予測の誤差分布を推定することが重要になります。

7. 中心的なアイデア:上記の考慮事項に基づいて、重要度サンプリングベースの MVSNet (IS-MVSNet) が提案され、深度を大幅に改善することでコストのかからない方法で実行できる効果的な候補深度サンプリング戦略が導入されます。真の値に近い解像度、より正確な深度予測。

  1. 私たちは、候補深度をサンプリングするための重要度サンプリング モジュールを提案しました。これにより、追加コストを発生させずに、より高い深度解像度を効果的に達成し、より良い点群結果が得られます。
  2. さらに、重要度サンプリングモジュールの密度変動を調整するための教師なし誤差分布推定手法を提案しました。
  3. 特に、提案されたサンプリング モジュールは追加のトレーニングを必要とせず、ベースライン モデルの事前トレーニングされた重みで適切に機能します。

8. 実験結果:

Tanks & Temples(TNT)、ETH3D、および DTU は、現在の SOTA に対する IS-MVSNet の優位性を示しています。ISMVSNet の F スコアは 62.82% で、TNT の中間ベンチマークで公開されているすべての MVS アルゴリズムを明らかに上回っています。

9. 論文のダウンロード:

https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136920663.pdf

https://github.com/NoOneUST/IS-MVSNet

2. 導入プロセス

1. IS-MVSNetの概要

IS-MVSNet は、次の図に示すように、粗いものから細かいものまでネットワーク構造を継続します。

  1. IS-MVSNet は、Feature Pyramid Network (FPN) を使用して、参照イメージとソース イメージのマルチレベル表現を抽出します。
  2. さらに評価するために、一連の仮説的な深さをサンプリングします。最も粗いステージ S=1 では、仮想深度が事前定義された深度範囲にわたって均一にサンプリングされます。ステージ S>1 の場合、重要度サンプリングに基づく詳細な仮説選択戦略が提案され、効率を犠牲にすることなく IS-MVSNet により効率的なサンプリング方法を提供します。重要度サンプリングに適したハイパーパラメータを推定するための教師なし方法も提案されています。
  3. コスト本体を計算します。
  4. 3D CNN を使用して、コスト ボリュームを正規化し、それぞれのグラウンド トゥルースの仮説深度の確率を予測します。
  5. 深度サンプルの内積と、現在のステージの深度予測として対応する予測の確率を計算します。

2.重要度サンプリングに基づく仮説の深さの選択

IS-MVSNET は、粗いアルゴリズムから細かいアルゴリズムまで、深さの予測を段階的に改良します。ステージ S>1 の場合、前の予測 D s 1は実際の深さ D GTにほぼ近いものの、両者の間にはまだギャップがあります。ピクセルごとの深度予測誤差を推定できると仮定して、より高い解像度でグラウンド トゥルースの周囲の仮説深度をさらにサンプリングします。この場合、モデルの細部をキャプチャする能力が大幅に向上します。

ピクセルごとの誤差を推定することは困難で非現実的ですが、データセット全体の誤差分布を推定し、それに応じて想定される深度サンプリングを調整することを提案します。しかし、既存の MVS アルゴリズムは誤差推定を考慮しておらず、予測誤差を一様確率変数として盲目的にみなしています。IS-MVSNET では、前のステージの深度予測 D s 1と深度予測誤差 δ️️に基づいて、ステージ S>1 の各ピクセルに対して N s個の適切な深度値の候補 di を見つける方法を提案します。密度関数 (PDF)、F(δ) は、データセット内のすべてのピクセルに対して推定されます。次に、 di でサンプリングして、より正確な深度予測 Ds を生成します。

ここで、p(di) は、候補深さ Di が dgt の最近傍である確率を表します。

このようにして、最も有望な深さの候補をより正確に特定し、より多くの注意を割り当てることができます。その結果、真の値付近で深度解像度が最も細かく増加するため、深度精度が向上します。

エラー定式化。最初の問題は、誤差分布をどのように定式化するかです。3 つの理由から、エラー PDF を単峰関数として近似することが合理的であると考えられます。第一に、予測誤差に影響を与える多くの要因があるため、中心極限定理は誤差がゼロ平均単峰分布になる傾向があることを示しています。第二に、一様なサンプリングを通じて大まかな予測を生成することによって不偏推定が達成されます。第三に、実験により検証されます。誤差は平均がゼロに近い単峰分布に従うということです。特に、前の段階で、特定のピクセルの仮説深度の単峰性の確率的予測を行う必要はありません。代わりに、実際の深度から、すべての仮説深度から計算された深度予測までの距離が単峰分布に従うことが期待されます。

前の段階でのほとんどのピクセル深度推定が正しいと仮定すると、私たちの方法は均一サンプリングよりも大幅に優れたパフォーマンスを発揮します。図 4d では、実際のデータセットでの実験により、ゼロ平均ガウス分布に従ったサンプリングの方が、一様分布よりも実際に大幅に優れていることが示されています。さらに、ガウス分布に従うサンプリングは、前の段階の極端なケースではほとんどのピクセル深さの推定が間違っていたとしても、これらのピクセルの実際の深さでより高いサンプリング密度を提供するため、ほとんどのピクセルに利益をもたらします。平均値とサンプルを推定するためにゼロ平均ガウス分布に従わなかったとしても、私たちの方法は均一なサンプリングよりも多くのピクセルの恩恵を受けます。私たちのサンプリング方法は、反復的でテクスチャのない領域、背景から遠く離れた小さなオブジェクトなど、誤った予測が最も多く含まれる領域でも、均一サンプリングよりも優れたパフォーマンスを発揮するか、同等のパフォーマンスを発揮します。

離散的な間隔。離散間隔には、連続 PDF からのサンプリングに比べて 2 つの利点があります。まず、有限の深さ (たとえば 8) を指定すると、離散間隔の方が iid サンプリングよりも安定したサンプリング密度が得られ、実際の誤差分布に近くなります。第 2 に、隣接するピクセルのサンプリング深度が同様であり、畳み込みには空間相関が重要であるため、離散間隔は畳み込みに有益です。

これらの考慮事項に基づいて、一連の事前定義された間隔に従って深度候補を不均一にサンプリングすることをさらに提案します。正確には、エラー PDF は深さの間隔を制御する必要があります。PDF が大きい場合は間隔を小さくする必要があり、そうでない場合は間隔を大きくする必要があります。μs e−1 が s−1 ステージの平均誤差を表すとすると、Dps−1+μs e−1 に近い深さ間隔はより小さく、そうでない場合はより大きくなるはずです。シンプルで典型的な幾何学的配列を採用し、要件を満たす間隔パターンに適合させます。同様の傾向を持つ他のシーケンスは、ガウス分布 N(μes−1, σse−1) の同様の特性を持っている場合、つまり、μes−1 で単峰性が 1 つだけあり、シーケンスが σes と同じ特性を持っている場合に許容されることに注意してください。 (N(μ se−1, σes−1)) 個の同様の効果パラメーターの場合は 1。さらに、区間数が ∞ の方向の場合、区間列が N(μs e−1, σes−1) に収束するように厳密に強制する必要はありません
たとえば、等差数列もうまく機能します。このアプローチでは、局所的な一貫性を維持しながらエラー分布の深さをサンプリングします。重要度サンプリング アルゴリズムの詳細については、以下で説明します。

アルゴリズムの詳細。連続 PDF から直接深度をサンプリングするのではなく、離散間隔を使用して、一定範囲の深度に対して深度仮説を立てます。第 1 段階では、段階 s=1 では事前の不偏深さ推定が与えられていないため、深度範囲 R1 全体がサイズ R1/n1-1 の n1-1 個の等価区間に分割されます。次の段階 s ∈ {2,3,…} では、通常の等比数列を使用して深さの仮説が生成され、中央領域のサンプリング密度が増加します。離散化された間隔は、間隔の形状を決定するハイパーパラメータである ks でパラメータ化されます。図 2 に示すように、最小間隔は 1ks に短縮され、間隔長の変化速度は cs となり、ks によって制御されます。ks が大きいほど、修正された事前予測における Dps−1+μes−1 付近のサンプリングがより密になることを意味します。ks > 1 の場合、中心の仮想深さの間隔は 1/ks に減少し、エッジ深さの間隔は増加します。すなわち、中心間隔rs/ksは、均一サンプリング間隔rsよりも1/ks小さい。ks=1 の場合、重要度サンプリングは均一サンプリングにダウングレードされます。0 < ks < 1 の場合、このメソッドは、以前の予測が間違っていたほとんどのケースを処理できます。

図 2: 深さの数が 6 の場合の深さの選択の概略図。このサンプリング戦略では、深度範囲は変更されません。最小深さ間隔は 1 ks に減少し、間隔の長さは式 (1) の ks 特性によって制御される cs の比率によって増加します。ks が大きいほど最小間隔は小さくなり、cs が大きいほど間隔の長さの変化は速くなります。

具体的には、深さの間隔は対称的な等比数列を形成します。

 cs は隣接する区間の公比です。ネットワークの深さ範囲と想定される深さの数をベースライン モデルと同じに保つことが望ましいため、cs は式 (1) に従って ks、Rs、ns によって一意に制御されます。実際には、cs は式 (1) の根として数値的に計算されます。

各ピクセルに一意の深度候補を定義します。具体的には、第 1 に、各ピクセルは一連の間隔で定義された独自の離散深さ候補のセットを持ち、第 2 に、深さ候補と深さ範囲 R の間の間隔 (つまり、間隔の合計) は、すべてのピクセルのサイズで一貫しています。第3に、深度軸に沿った深度範囲Rの中心位置を、各ピクセルに対する以前の深度推定値Dps−1に設定する。したがって、各ピクセルは、ピクセル間で間隔が同じである一意の深さ候補のセットを持ちます; 第 4 に、平均誤差 μes-1 が推定される場合、さらに「補正された」範囲の位置は Ds-1p+ μes-1 になります。

3. 教師なし誤差分布推定

IS-MVSNet では、s > 1 の段階でサンプリング関数 gs(x) の形状を調整するために、2 つの新しいハイパーパラメータ ks と µs を導入します。実際のアプリケーションでは、深度推定誤差はゼロ付近に集中します。したがって、デフォルトでは平均誤差 µs = 0 を扱い、ks のみを推定します。ただし、このセクションで提案する ks 推定スキームは µs にも適用できます。ks と µs の両方を推定したい場合は、まず ks を修正して µs を推定し、次に µs を修正して ks を推定します。

前のセクションで分析したように、真の深さがわかっている場合、サンプリング関数 gs(x) と実際の誤差分布との差を最小限に抑えることで、最適な k を一意に決定できます。ただし、実際のシーンの実際の深度は分からず、スケール、照明、カメラの組み込み要素はデータセットごとに異なります。したがって、各データセットの ks を推定する必要があります。実際の深さへの手掛かりとしてマッチング コストを取り上げ、誤差分布の推定はマッチング コストを最小化することと同等であり、これは常に達成可能であることを示します。このセクションでは、重要度ベースのサンプリング モジュールがすべてのシナリオでハイパーパラメーターによって制約されないようにする、一般的な教師なしハイパーパラメーター ks 選択戦略を提案します。

MVS では、入力 2D イメージとカメラ パラメータが常に利用可能であり、異なるビュー間に測光の一貫性があることを思い出してください。参照ビュー内の深さ dr と投影 Pr を持つ 3D 点 P が与えられると、v 番目のソース ビュー内の P の投影 Pv の座標は Pv = Hv(dr)Pr として計算できます。ここで、Hv(dr) はホモグラフィ行列です。 。

奥行き推定値 Dps が正しいと仮定すると、Pvs = Hv(Dps)Psr は Psr と同じ 3D 点、つまり Psr の特徴 Frs = Fvs を表すはずです。複数のビューが与えられているため、分散 Var[Fvs] を使用してそれらの類似性を測定します。したがって、最適な深度推定値は Dp*=argminVar[Fvs] となります。

前のセクションで述べたように、k は推定誤差分布 PDF を決定します。具体的には、k が大きいほど、分散が少ない誤差分布を示します。k=1 の場合、重要度サンプリングは一様サンプリングと同じです。k=∞ の場合、1 つの候補点のみがサンプリングされる機会があります。明らかに、両方の k = {1, ∞} により、推定された PDF と実際の PDF の間に最小ではない差が生じます。したがって、k が 1 から増加すると、モデルのパフォーマンスは最初に向上し、その後徐々に低下します。パフォーマンスの k カーブを近似するために単峰関数を採用しました。この考察に基づいて、アルゴリズム 1、アルゴリズム 2、および図 3 に示すように、三分探索に基づく教師なしハイパーパラメーター k 選択アルゴリズムを提案します。三分探索では反復ごとに探索範囲が一定の割合で縮小されるため、非常に高速に収束します。一般に、3 ~ 5 回の反復で満足のいく k を取得できます。図 4c の実験は、スキャンごとに 2 つの参照ビューをランダムに選択するだけで k を決定するのに十分であることを示しています。

図 3: 誤差分布推定モジュールの概略図。測光損失を考慮して k を評価し、三分探索を適用してアルゴリズム 1 とアルゴリズム 2 に最適な k を見つけます。

4. 実験

4.1. データセット

 4.2. 先進技術との比較

Vis-MVSNet を続けると、ハーフサイズの深度マップが予測されますが、他の言及された方法はフルサイズです。DTU 内のオブジェクトは非常に小さいため、深度マップにはより高い平面解像度が必要です。したがって、TNT での改善は DTU での改善よりも顕著です。UCSNet はより優れた全体距離を示しますが、その利点は深度範囲決定戦略に依存しており、深度範囲に依存しないサンプリング アルゴリズムと競合しません。

おすすめ

転載: blog.csdn.net/qq_43307074/article/details/130659310