寧波大学が提案: 自然画像のみを使用した物理学に基づく効率的なフルプロジェクター補正

下のカードをクリックしてCVer」公式アカウントをフォローしてください

AI/CV 重量物乾物、初めて納品

クリックして入力 —> [Computer Vision and Transformer] Exchange グループ

自然画像のみを使用した物理ベースの効率的な完全なプロジェクター補正

Yuqi Li、IEEE メンバー、Wenting ying、Jiabao Li、Xijiong Xie

この論文は、物理モデルベースの完全な投影補償アーキテクチャを設計し、いくつかのサンプリングされた自然画像ペアを通じてプロジェクタ カメラ システム (Procams) の幾何学的補正とラジオシティ補償を実現することを目的としています。この研究では、動きによって引き起こされる形状と反射率の変化に対応するための数値最適化問題として、プロジェクター全体の補償に取り組んでいます。物理ベースの補償スキームにより、本方法は投影面の正確な色計算と反射率推定を保証します。実験結果は、提案された方法が、計算時間の短縮、メモリ消費量の削減、画質の向上、幾何学的精度の向上により、最先端のエンドツーエンドのフルプロジェクター補正方法よりも優れていることを示しています。

記事リンク (トップジャーナル TVCG に既に掲載されています): https://www.computer.org/csdl/journal/tg/5555/01/10138930/1NBiTaSSkTK

オープンソースコード: https://github.com/kylin-leo/FullProjectorCompensation

1. 研究動機

プロジェクターは、インタラクティブなエンターテイメント、視覚化、芸術作品の仮想展示に広く使用されています。過去 20 年にわたり、Procams の「刺激応答」モデルの分析や入力プロジェクター画像の修正などの技術が、観察画像の幾何学的歪みや色の偏りに対する非平面テクスチャ表面の影響を除去するために開発されてきました。投影ディスプレイでは、幾何学補正とラジオシティ補正を組み合わせたプロセスを完全投影補正と呼びます。

完全投影補償タスクに関する現在の研究では、ほとんどの手法は、Procam が静止していることを前提とし、複数の構造化光画像とカラー サンプリング画像を Procam を介して投影面に投影し、それらをキャプチャして、対応する幾何学的関係と色変換を分析します。機能。ただし、実際の環境では、表示プロセス中のプロジェクター、カメラ、または投影面の移動は避けられず、予測できないため、既存の Procam では、移動が発生した後に再キャリブレーションと補正を実行する必要があります。さらに、既存の完全補正方式は、投影補正や補正のために投影内容とは関係のない余分なフレームを投影する必要があるため、連続表示には適していません。これにより、表示プロセスが大幅に中断され、視聴者の視聴体験が低下します。情報技術とニューラル ネットワークの発展に伴い、投影補償問題を解決するためにニューラル ネットワークも導入されました。これらの方法では、プロジェクターとカメラの画像の幾何学的マッピングを取得して、下にあるテクスチャ表面の影響を取り除くことができますが、ネットワーク トレーニングでは完全に補正するために長い待ち時間 (多くの場合 10 分以上) が必要であり、これらの方法でも依然としていくつかの投影を行う必要があります。単色の画像、投影面の反射率を計算するための画像。したがって、完全な投影補償の問題は依然として深刻な課題のままである。

これらの問題に対処するために、この方法では完全な投影補償を統合された最適化問題として定式化します。以前の方法とは異なり、この方法には 3 つのコア設計があります。1 つ目は物理ベースの完全な投影補正方法で、少数の自然画像のみを使用して投影面の幾何学的歪みを補正し、色の偏差を補正できます。この手法では自然画像を実験に使用するため、ムービーやスライドショーのキーフレーム内容を選択して投影補正を行うことができ、Procamsの利便性が向上します。第 2 に、この方法は、Procams の画質に影響を与える動的要因と静的要因を分離して個別にモデル化するため、方法の解釈可能性と柔軟性が向上します。静的なプロジェクター応答関数については、この方法はディープ ネットワークを使用してフィッティングと解決を行い、第三に、プロジェクター画像からカメラ画像への動的に変化する幾何学的オフセットについては、オプティカル フロー推定に基づいた新しい幾何学を提案します。を解き、正則化行列因数分解最適化法により投影面の反射率を推定する。

2. 研究方法

この手法は、Procams によってキャプチャされたプロジェクターとカメラの画像ペアに対してモデル トレーニングを実行し、プロジェクターの応答関数、投影面の反射率、ピクセル間の幾何学的オフセットを解き、各入力画像に対応する補正画像を計算します。視覚補正は、補償画像を投影するときに行われます。

7cf3859cb6fa8c126a995417faec4ae5.png

完全な投影補正タスクの全体構造図

Procams では、投影面に表示される画像の物理モデルは次のように表現できます。

カメラによってキャプチャされた画像内のピクセルの RGB チャネル強度を表し、カメラの RGB チャネルの分光感度関数 (SSF) を表します。ピクセルが位置する投影面の分光反射率関数を表し、対応するスペクトルを表します。プロジェクターの入力画像のピクセル p に対するパワー分布 (SPD) は、人間の目に見える波長の範囲であり、下付き文字は、その波長での各関数値を取得するためのサンプリング操作を示します。

dc04a699b97aa27599801f425a49cd1b.png

投影面に映像を表示するProcamsの物理モデル

投影面の光はプロジェクターの複数の原色によって寄与されるため、各ピクセルの SPD は各原色の SPD の重みとその寄与に織り込むことができます。この関数は、各入力 RGB チャネルの強度から各原色の加重値までの伝達関数を表すために使用され、パラメーターを表します。プロジェクターに原色があると仮定すると、関数は RGB 入力ごとにそれをベクトルにマッピングできます。各原色のスペクトルパワーと重みの積を分解すると、式は次のように変換できます。

Procams システムのデバイスと投影面が決定され、一定に保たれる場合、カメラの SSF、プロジェクターの伝達関数、および各原色の SPD は表示中に固定されます。したがって、投影表示中の唯一の動的要因は、投影画像とカメラ画像の間の変位と分光反射率だけです。$$ \int_{400nm}^{780nm} \mathbf{P} \lambda 、 \mathbf{R} \lambda(\mathbf{x}) \mathbf{S}^{r,g,b}_\lambda と置きます。 , d \lambda $$ は次のように圧縮されます。

ここで、 は観測画像における各画素の強度ベクトル、 はベクトル、 は混色行列を表す。したがって、投影補償を実行する前に、静的関数のパラメータ、プロジェクターとカメラ画像の間の空間オフセットを推定し、既知の投影画像とカメラ画像から色混合行列を解く必要があります。そうすれば、目的関数は次のようになります。次のように構築されます:

その中で、それは L2 ノルムを表し、照射されたピクセルのセットを表し、空間オフセットの事前分布を表し、核ノルムを表し、重みを表します。最初のデータ項は、照射されたすべてのピクセルの二乗再構成誤差を計算しますが、このモデルは最適化されるべき不適切な設定のモデルであるため、可能な解の数を減らすために合計の正則化項が導入されます。ただし、 のパラメーターの陰的な表現を取得することは困難であるため、最適化問題を解くために、方程式に補助変数を導入し、目的関数を次のように変換できます。

各変数は物理的に互いに独立しているため、目的関数の解は、 、 、および に関する 4 つの部分問題を交互に最適化するように変換できます。

これら 4 つの副問題を解決するには、すべてのパラメータに対して最適な解決策を得るために、代替最適化を複数回繰り返す必要があります。各反復で、変数 、 、および は部分問題を最適化することによって更新されます。の最適化は最小二乗問題に変換でき、勾配降下法アルゴリズムが最適化に適用されます。

(1) プロジェクター応答機能

プロジェクターの応答関数を近似するために、この方法では、投影された入力画像をネットワークの入力として受け取り、同じ空間解像度とメイン チャネル数をネットワークの出力として受け取る畳み込みニューラル ネットワークを設計します。メインチャンネルの数は非常に多い。プロジェクターの製品仕様から簡単に取得できます。

c4efcf28729e73cae0e0a2e51e5b8701.png

残差ネットワークを用いて近似したプロジェクター応答関数のネットワーク構造

残差ネットワーク構造を使用すると、おおよそ正確な初期化だけでネットワークをトレーニングできるため、ネットワーク内の他のパラメーターの最適化が高速化されます。さらに、スキップ接続層は、入力 RGB 値がネットワーク出力で支配的であることを保証できるため、出力の結果サイズを大まかに決定できます。同時に、ネットワーク出力を決定することで、和の過剰な自由度によって引き起こされる行列分解での無意味な解の出現を回避できます。ニューラル ネットワークでの勾配爆発を防ぐために、ネットワークの各層でスペクトル正規化操作が実行され、ネットワークの最適化がより安定します。マルチスケール UNet 構造と比較して、ネットワークはメモリとコンピューティング リソースの消費が少ないため、効率的なパラメータ推定と補償を実現できます。

(2) 幾何補正

幾何学的な補正は、プロジェクターの入力画像とカメラでキャプチャされた画像の間のピクセルの対応関係を取得することであり、これは推定された変位オフセットに従って解決できます。この方程式は、オプティカル フロー推定問題の目的関数の最適化と一致しています。既存のオプティカル フロー方式の要件を満たすには、

オプティカル フローの入力としての最初の 3 つのチャネルの最大強度により、目的関数は次のように変換されます。

選択された 3 つのチャネルのインデックスを示し、プロジェクター入力画像とカメラでキャプチャした画像の間の変位または密な流れの事前分布を表します。本稿では深度オプティカルフロー推定手法としてGMAを適用する。GMA は現在、セルフ アテンション メカニズムを利用してオプティカル フロー推定の最も効果的かつ堅牢な方法を実現する既存の最良の方法です。

(3) 色補正

カメラや投影面が移動すると、カメラで撮影した画像の各画素の分光反射率Rもそれに応じて変化するため、動的に変化します。Procam が決定された後、プロジェクターの原色 P とカメラの分光感度関数も決定されるため、 の変化は の変化を直接反映します。

色混合行列を解決するには、半二次分割法を使用して補助変数を導入し、隣接する勾配降下法によって合計を交互に最適化します。この論文では、一般的な軟しきい値アルゴリズムを使用して、行列の特異値にスパース制約を課し、色混合行列のランクを下げます。次に、目的関数は次のように変換されます。

ここで、 は重み値を表し、目的関数の解は最適化合計に変換されます。の最適化は勾配降下法アルゴリズムを使用して実行でき、 の更新には特異値分解 (SVD) ソフトしきい値法を使用できます。

このうち、勾配降下法のステップサイズは、行列 H を SVD で分解した後に得られる行列、つまりソフト閾値演算、つまり $soft(y_1,y_2) = max(y_1-y_2, 0) \ fracy_1}{y_1|\sigma は、しきい値パラメータ (\cdot)_+ が活性化関数と一致していることを示します。ここで \mathcal{U} と \mathcal{V} はそれぞれサイズ n \times 3m と 3m \times 3m の行列です。低ランクの正則化を適用した後、 \hat{\mathbf{H}} のランクが k (k<3m) に減らされると仮定すると、 \mathcal{U} と \mathcal{V} の最後の 3m-k$ 列は次のようになります。ゼロ。したがって、ここで SVD 手法を使用すると、マトリックスのランクを下げるだけでなく、表示プロセスにおける静的要素と動的要素を分離することもできます。

(4) 補正アルゴリズム

各部分問題の最適化アルゴリズムが決定されると、既知の推定パラメータを使用して、単一画像の補正表示を直接実現できます。入力補正された投影イメージは、まず未知の行列として扱われ、次に固定小数点反復アルゴリズムを使用して最適化されます。ネットワーク トレーニングをより効率的にするために、この記事では目的の画像で初期化し、トレーニングされたネットワークの順モデルを使用して補正された画像を生成します。

アルゴリズムの収束は、モデルに適用されたスペクトル正規化により保証されます。収束解析によれば、反復回数が増加するにつれて、シミュレートされた補正画像の色は期待される色に近づきます。私たちのネットワークには完全に接続された 4 つのレイヤーと数十のパラメーターのみが含まれており、計算の複雑さが低いため、GPU の並列アクセラレーションの下では、600 × 800 画像の各反復は 1.1 ミリ秒以内に完了できます。

3. 実験結果

この方法は、キャプチャされたプロジェクターとカメラの画像データセットに対して実験され、 を推定することによって模擬観察画像が生成されます。反復回数が増えるにつれて、シミュレーション結果は目的の画像にどんどん近づきます。一方、20 回の反復の補正は社内で行うことができます。

85685f98ca52f6d1b5253b286ad994dd.png

異なる反復での補正イメージとシミュレーション レンダリング (Iter =5、10、20)

この手法の効率をより良く示すために,本稿の手法は現在の最適な完全射影補償手法とも比較されており,PSNR,SSIM,幾何学精度の点で,我々の手法はCompensNeSt++よりも優れた補償品質を提供している。幾何学的精度は、平均幾何学的再投影誤差を使用して評価されました。同時に 2 つの手法のネットワーク計算消費量を比較すると、CompensNeSt++ と比較して、この手法は学習と補正の時間が短くなります。図 5 は、2 つの方法の補正効果を視覚化したものです。どちらもトレーニングに異なるサンプル画像 (Num=5、10、20) を使用します。5 つのサンプル画像のみを使用したネットワーク トレーニングの補正結果は、20 のサンプル画像を使用してトレーニングした CompensNeSt++ の補正結果よりも優れていることに注意してください。詳細は原文をご参照ください。

98bcf1e3dd78bf2795873a9cf8d5e168.png

5a5f90172c2b18996ff6a77363e07503.png

c90390e74ca71704d8970f3879cfc9ef.png

4. 結論

この論文では、表示プロセス中に Procams によって生成される幾何学的歪みと色の偏りを補償するための、物理ベースの完全投影補償フレームワークを提案します。本論文では、Procams と投影撮影された自然画像ペアの特性を分析することにより、画像表示品質に影響を与える動的要因と静的要因を個別にモデル化して解決し、新しい入力投影画像に対して対応する補正画像を迅速に生成できるようにします。実験結果は、私たちの方法がより高いジオメトリ推定精度、より良い補償画像表示品質、より短いトレーニング時間を有することを示しています。

 
  

クリックして入力 —> [Computer Vision and Transformer] Exchange グループ

ICCV/CVPR 2023 ペーパーとコードのダウンロード

 
  

バックグラウンド返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理するのは簡単ではありません、いいねして見てくださいb1ea0b44e478e48bf6b3de9accb244ab.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/132353502