立体视觉StereoVision

声明！转载自：https://zhuanlan.zhihu.com/p/30116734，只为学习用，觉得写得通俗易懂，保留个笔记如有侵权联系立删

前言

StereoVision也就是我们常说的立体视觉，可以说是计算机视觉的一个重要模块。人类之所可以看到世界的各种各样的物品，正是得益于我们的视觉系统。那么，我们要想让机器人跟人一样可以分辨物体，同样的需要给机器人双眼。我们肯定都有这样的体验，当我们看到一个物体的时候，我们其实是可以估计出这个物体是离我们比较近还是比较远的，那我们需要给机器人的不仅仅是能够识别物体的系统，而且这种系统同样的要能够判断出障碍物距离有多远，立体视觉系统的功能就能够很好的满足要求。

立体视觉原理

一般而言，立体视觉系统需要有两个（或者两个以上）摄像头的支持，也就正如人类的双眼一样。下面首先介绍一下单目系统。

单目系统

O点为相机的光心，π是摄像头的成像平面。从图中可以看出，如果P点与Q点在同一条直线上，那么他们在图像上的成像点就是同一个点，也就是 $p\equiv q$ ，那么也就看不出来他们在距离上的差异（也就无法知道Q在前还是P在前）

双目系统

正是在发现了单目系统的缺陷之后，我们将系统由一个摄像头增加到两个摄像头，这样也就构成了一个立体系统。如果我们可以在两幅图像中找到对应点，我们就可以通过三角测量的方法来求得深度。

　　从图中可以很明显的看出，在增加了一个摄像头之后，P与Q在目标面T上的成像不在位于同一个点，而是有自己分别的成像点，也就是 $q^{'}$ 与 $p^{'}$ 。那么，在我们给出了Reference与Target之后，我们应该如何解决参考面与目标面之间的对应关系呢？

这个时候，就需要对极约束，对极约束意味着一旦我们知道了立体视觉系统的对极几何之后，对两幅图像间匹配特征的二维搜索就转变成了沿着极线的一维搜索。

扫描二维码关注公众号，回复： 10538890 查看本文章

　　图中黑色实线为R平面一条极线，绿色为T平面一条极线。给定一幅图像上的一个特征，它在另一幅图像上的匹配视图一定在对应的极线上（图中将P，Q视为特征，可以看到在T上的成像在绿色直线上）

通常我们使用的立体视觉系统都是比较标准的系统，如图所示。

　　一旦我们知道了对应点的搜索区域，就可以将其从2D降到1D，这样就形成了更加方便的立体视觉，对应点都被约束再同一条极线上，也就是图中的y直线。下面给出一个实际的示例（在理想情况下，我们希望两个摄像头的参数是完全一致的，并且两个相机的位置是平行的）。

视差与深度计算原理

在我们已经确保两个摄像头的参数是完全一致的，并且两者的位置是平行之后，我们的关注点就落到了如何计算物体的深度信息，这也是最重要最关键的地方。下面给出的是标准立体视觉系统下的计算原理。

　　我们假设 $P$ 为空间中的一点， $O_{R}$ 为左边摄像头的光心， $O_{T}$ 为右边摄像头的光心，摄像头的焦距为 $f$ （光心到成像平面的距离），成像平面在图中用粉色线表示， $B$ 表示两个摄像头光心之间的距离，也称为基线， $P$ 在左右两个摄像机成像平面上的成像点分别为 $p$ 与 $p^{'}$ ， $x_{R}$ 与 $x_{T}$ 为成像点的水平方向的距离（通常我们得到的是像素坐标系下的 $x$ 坐标，其单位为像素，因此需要转换为实际的物理长度，涉及到坐标系的转换问题）， $Z$ 就是我们需要求的深度。

　　根据三角形相似定理（ $\triangle Ppp^{'} \sim \triangle PO_{R}O_{T}$ ）：

$\frac{B}{Z} = \frac{B-(x_{R} - x_{T})}{Z-f} \Rightarrow Z= \frac{B\cdot f}{x_{R} - x_{T}} = \frac{B\cdot f}{D}$

$D=x_{R} - x_{T}$ ，也就是我们通常所说的视差（disparity ）。

　　我们可以发现，深度 $Z$ 是跟视差 $D$ 成反比关系的，当视差 $D$ 越小时， $Z$ 越大，物体离立体视觉系统也就越远，当视差 $D$ 越大， $Z$ 越小，物体离立体视觉系统也就越近。这一点和我们人眼系统是一样的，当我们观察离我们比较近的物体的时候，视差很大，可以获得的信息也就越多，当物体离我们很远的时候，视差很小，我们获得的信息也就很少了。

　　在图像处理中，我们通常用灰度值来表示视差信息，视差越大，其灰度值也就越大，在视差图像的视觉效果上表现出来就是图像越亮，物体离我们越远，其视差越小，灰度值也越小，视差图像也就越暗。

　　本文主要参考Stefano Mattoccia教授的PPT：Stereo Vision:Algorithms and Applications