カメラ座標系、ワールド座標系、ピクセル座標系変換、OPENGLDEFocal Length と Opengl の Fov 変換

目的: カメラの仕組み、レンダリング、およびカメラでキャプチャされた深度マップを理解する

最近、カメラパラメータとopenglレンダリング画像の間のパラメータ関係が研究されています。プロジェクトマトリックスは、カメラ座標系からピクセル座標系に移行する過程で遭遇します。

理論的なカメラ変換

カメラベースの学習理論の知識。通常、プロジェクトを構築するにはカメラパラメーターを使用し、次の 2 つのプロセスを経る必要があります: カメラ
座標系 -> 画像座標系 -> ピクセル座標系頂点 $x_c)$
カメラ座標系 $p (x 、 y 、 z)$ 、画像 $p(x_i,y_i)$ 。その変換行列は $M_{proj}$
以下にいくつかの手順を紹介します。

カメラ座標系から画像座標系 $M_{p2c}$
同じ場所でも、異なるカメラでは異なる写真が得られます。このプロセスは一般的にカメラのパラメーターに関連していることがわかります。カメラの一部のパラメータは通常、カメラのマニュアルに記載されています。また、インターネット上で対応する形式のドキュメントを見つけることもできます。また、一部のパラメータは設定ファイルにも含まれています (たとえば、スキャナ内のイメージカメラのカメラパラメータ)。これらのパラメータの機能を理解するには、カメラのイメージング (小さな穴のイメージング) の原理を理解する必要があります。

画像内の座標系は $(O^{「} \times 、」 ○^{'} y)$ 、カメラ座標系は $O_cx_c, O_cy_c , O_cz_c)$ を理解しやすくするために、視覚的なビューを変換します。なぜなら $(O^{「} \times 、」 ○^{'} y)$ 和 $O_cx_c, O_cy_c , O_cz_c)$ 在 $O_cx_c, O_cy_c)$ 平行。したがって、幾何対称性に従って、画像座標系は下図に示すように鏡映位置に移動します。ここで、 $\angle{O_cAB}$ 直角です。画像はあまり正確ではありません。

ここに画像の説明を挿入
なぜなら、相似な三角形 (1) :
$\bigtriangleup ABO_c \sim \bigtriangleup oCO_c$
次の式を取得します。
$\frac{O_co}{O_cZ_c} = \frac{oC}{AB} = \frac{O_cC}{O_cB} \スペース \スペース \スペース (1)$
別の式 ( $O_c$ が原点、記号を変更)
$\frac{O_co}{O_cZ_c} = \frac{f}{Z_c} \space \space \space (2)$
$\frac{oC}{AB} = \frac{x}{X_c} \space \space \space (3)$

なぜなら、相似な三角形 (2) :
$\bigtriangleup ABO_c \sim \bigtriangleup oCO_c$
次の式が得られます。
$\frac{O_cC}{O_cB} = \frac{Cp}{BP} \space \space \space (4)$
別の式 ( $O_c$ は原点、記号を変更)
$\frac{Cp}{BP} = \frac{y}{Y_c} \space \space \space(5)$
なぜなら $(1) (2) (3) (4) (5)$ 式は次のようになります:
$\frac{f}{Z_c} = \frac{x}{X_c} = \frac { y}{Y_c}$
さらに次の式に変換します。
$x=\frac{f*X_c}{Z_c} \space \space \space(6)$
$y=\frac{f*Y_c}{Z_c} \space \space \space(7)$
そのうち $(6) 、 (7)$ 式は次のように行列の形式で記述されます。
$\begin{bmatrix} x\\ y \\ z \end{bmatrix} = \begin{bmatrix} f & 0 & 0 & 0 \\ 0 & f & 0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} X_c\\ Y_c \\ Z_c \\ 1 \end{bmatrix}$
最終的な行列方程式 $M_{p2c}$ デフォルト:
$M_{p2c}= \begin{bmatrix} f & 0 & 0 & 0 \\ 0 & f & 0 & 0 \\ 0&0&1&0 \end{b行列}$
短縮式は次のように取得できます。
$\begin{bmatrix} x\\ y \\ z \end{bmatrix} = M_{p2c}\begin{bmatrix } X_c \\ Y_c \\ Z_c \\ 1 \end{bmatrix}$
この時点で得られた $\begin{bmatrix} x\\ y \\ z \end{bmatrix}$ 物理的な単位です。ピクセル単位ではないため、ピクセル単位に変換する必要があり、各ピクセルの特定の物理長が必要です。カメラのセンサーパラメータは必須です。カメラ座標からピクセル座標までを以下に説明します。

画像座標系をピクセル座標系に変換 $M_{i2p}$
カメラ座標系をピクセル座標系に変換する必要があります。これには 2 つの問題があります。
1) 2 つの座標系の問題。画像座標系では、一般に原点は中心にあります。ただし、従来のピクセル表示座標系の原点は画像の左上隅であり、このベクトルを変換する必要があります。
2) 単位変換の問題: 各ピクセルが何個の物理単位 (通常は mm) を持つかを知る必要があります。物理単位はミリメートルです。 $d_x,d_y$ を知る必要があります。 $d 、 d$ 各列と各行が何 mm であるかを示し、列の幅を表します $\space ピクセル = d_x \space mm$ ; 線の幅 $1 ピクセル = dy mm 1 \ space$ $d_y \space mm$ 、一般に $dx = dy$ $d_x=d_y$ 。したがって $x$ 座標で表されるピクセルは $\frac{x}{dx}$ 、対応する $y$ 座標で表されるピクセルは $\frac{y}{dy}$
図に示す 2 つの座標系は次のとおりです。

座標系を変換すると次の式が得られます。
$\frac{x}{d_x}+u_0 \space \space \space (8)$
$\frac{y}{d_y}+v_0 \space \space \space (9)$
そのうち $(8) 、 (9)$ この式は次のように行列の形式で記述されます。
$\begin{bmatrix} u\\ v \ \1 \end{ bmatrix}= \begin{bmatrix} \frac{1}{d_x}&0&u_0 \\ \frac{1}{d_y}&0&v_0 \\0&0&1 \end{bmatrix}\begin{bmatrix} u\\ v \\1 \end {bmatrix}$
得られた行列式は次のとおりです。
$M_{i2p}= \begin{bmatrix} \frac{1}{d_x}&0&u_0 \\ \frac{ 1 {d_y}&0&v_0 \\0&0&1 \end{bmatrix}$

上記 2 つの変換をまとめると、次のようになります。
$M_{proj}= \begin{bmatrix} \ frac{1}{d_x}&0&u_0 \\ \frac{1}{d_y}&0&v_0 \\0&0&1 \end{bmatrix} \begin{bmatrix} f & 0 & 0 & 0 \\ 0 & f & 0 & 0 \ \ 0 & 0 & 1 & 0 \end{bmatrix}$
最後に、数式射影行列が得られます。
$M_{proj}= \begin{bmatrix } \frac{f}{d_x}& 0 & u_0 & 0 \\ 0 & \frac{f}{d_y} & v_0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix} = \begin{bmatrix } f_x & 0 & u_0 & 0 \\ 0 & f_x & v_0 & 0 \\ 0 & 0 & 1 & 0 \\end{bmatrix}$
公式で関係を理解すると、 $f_x=\frac{f}{d_x}となります。$ 、焦点距離が何ピクセルであるかを示します（これはピクセル単位です）、同様に $f_y=\frac{f}{d_y}$ また、ピクセル数も示します。一般に、 $d_x=d_y となります。$ 、焦点距離は 1、上図の $f$ 。

要約は次のとおりです:
$M_{proj}= \begin{bmatrix} f_x & 0 & u_0 & 0 \\ 0 & f_x & v_0 & 0 \\ 0 & 0 & 1 & 0 \end{bmatrix}$

OpenGL 座標レンダリング理論

カメラベースの OPENGL 理論的知識。通常、カメラパラメーターを使用して、より多くの fov、アスペクト比、近距離、遠距離を必要とするプロジェクトを構築します。その中で、特定のレンダリングには 4 つのパラメーターがあり、空間に必要なパラメーターを正確にレンダリングでき、理解しやすく、正規化操作と簡単なレンダリング計算のためのスペースを削減できることがわかりました。詳細については、カメラ設定に関する Baidu learnopengl を参照してください。上記4つのパラメータについて設定します。2 種類のプロジェクトがあり、以下にその原理を紹介します。
ここに画像の説明を挿入
fov、アスペクト比、近距離、遠距離に変換しない場合は、マトリックスを直接投影し、glFrustum を通じて完成させることができます。ただし、opengl レンダリングの学習では、通常 gluPerspective が使用され、使用されるパラメーターは fov、アスペクト比、near、far です。シェーダーにプロジェクトマトリックスを直接設定して、レンダリングされたプロジェクトマトリックスを取得できます。また、gluPerspective を模倣してプロジェクトマトリックスを生成すると同時に、上記 4 つに変換することもでき、opengl の gluPerspective を使用してプロジェクトマトリックスを生成することができます。どちらの方法でも問題なく動作します。
1) カメラのパラメータは fov、アスペクト比、近距離、遠距離の 4 つのパラメータに変換されます。
まず、これら 4 つのパラメータを理解してください。
1) 視野 (FOV)、アスペクト比アスペクト
比は、最終的に表示される画像の x/y 比です。
FOV: 開いた視野の角度を示します。以下の図を参照してください。
2) 近傍および遠方は、遠方および近方の接平面と原点の間の距離を表します。図の 2 つの平行な平面を参照してください。
ここに画像の説明を挿入
上の図の関係がわかります。

画像と一致する画像をレンダリングする必要がある場合、画像は img として表現され、画像を通じてアスペクト比と FOV を設定します。
定義によれば、ratio は最終的に表示される画像の x/y 比であり、
計算式は次のとおりです:
$アスペクト=\frac{img.cols}{img.rows}$
上の式に当てはめると、top は y 軸の半分、つまりピクセル座標系のピクセル幅に対応します。つまり、
$\frac{ピクセル幅}{2.0} となります。$
このうち、near は焦点距離 (ピクセル座標系) に相当し、ピクセル座標系で表されます。ユニットが統一されています。
後で次の式に変換されます:
$FOV=2.0*atanf({\frac{pixelwidth}{2.0*focalLength}})*\frac{\pi}{ 180.0 }$
近距離と遠距離の設定距離は、できるだけ近くても遠くても構いません。
そのマトリックスは次のとおりです。
ここに画像の説明を挿入
設定後、レンダリングされた画像はカメラでキャプチャされた画像と一致します。

導出プロセスに参加した後。