【恒叨立码】【理论恒叨】【立体匹配系列】经典PatchMatch: （2）基于PatchMatch的视差估计

理论恒叨系列

【恒叨立码】【理论恒叨】【立体匹配系列】经典PatchMatch: （1）Slanted support windows倾斜支持窗模型
 【恒叨立码】【理论恒叨】【立体匹配系列】经典PatchMatch: （2）基于PatchMatch的视差估计
 【恒叨立码】【理论恒叨】【立体匹配系列】经典PatchMatch: （3）后处理（一致性检查与视差填充）

PatchMatchStereo¹是Michael Bleyer等在2011年发表于British Machine Vision Conference（BMVC）上的一篇双目立体匹配算法文章，非常经典，倾斜支持窗的思路打破传统固定窗口式局部匹配的思维桎梏，在Middlebury数据集上获得非常好的匹配效果，一段时间内高居排行榜第一名。更难能可贵的是，它和SGM一样数据泛化能力出色，对大部分数据都能取得不错的结果，所以也被很多商业软件所实现，是真正能够产品化的算法。

本系列博主将为大家介绍经典的PatchMatchStereo（PMS）算法原理，希望能够对同学们的立体匹配算法研究有所帮助。

上篇博客中，博主介绍了PMS的核心模型Slanted support windows倾斜支持窗模型，本篇则是介绍PMS的视差估计方法：基于PatchMatch的视差估计法。

【理论恒叨】【立体匹配系列】经典PatchMatch: （2）基于PatchMatch的视差估计

基于PatchMatch的视差估计法

1 随机初始化
2 迭代传播

空间传播（Spatial Propagation）
视图传播
时序传播
平面优化

基于PatchMatch的视差估计法

上篇，我们在结尾提到PatchMatchStereo（PMS）的目的是在一个无边界平面集 $F$ 找到代价最小的平面，暴力穷举法自然是不可取。PMS巧妙的借用PatchMatch的思路。PatchMatch的基本思想是：在自然图像中，一个有一定大小的像素块内所有像素都可以用同一个平面来近似。这也构成了PMS的基本思想，即图像可看作多个像素块，而每个像素块可有一个近似的视差平面，算法的目标就是要找到图像的所有视差平面。

如何做到呢？步骤如下：

1 随机初始化

随机初始化是PMS寻找视差平面的第一步，即为每个像素随机一个视差平面。PMS期望能够通过该步骤能够在每一个平面区域中至少为1个像素随机到正确平面，有同学此时会有两个疑问：

（1）只找到一个像素的正确平面够吗？
（2）能达到这个期望吗？万一一个也找不到呢？

博主回答：

（1）够，后续PMS会经过多次传播，把该正确平面传播到同一平面区域的其他所有像素。
（2）大概率能够达到期望。因为算法为每一个像素都随机一个平面，基数很大，从概率学角度来说，能随机到正确平面的几率是很大的。

那么平面该如何随机呢？大家可能第一时间想到，随机给平面三个参数 $a_f$ 、 $b_f$ 、 $c_f$ 赋值。这样做的缺点是无法给平面一个范围约束，接触过其他立体匹配算法的同学都知道，很多算法都有一个视差范围，PMS也不例外，不进行范围约束，效率和效果都会受影响。因此PMS的做法是：在视差范围内为每个像素随机一个视差值 $z_0$ ，这样我们就有了平面上的一个点 $P(x_0,y_0,z_0)$ ，然后随机一个单位向量 $\vec{n}=(n_x,n_y,n_z)$ 作为平面的法线。如此一来， $a_f$ 、 $b_f$ 、 $c_f$ 便可通过公式： $a_f=-\frac{n_x}{n_z}$ 、 $b_f=-\frac{n_y}{n_z}$ 、 $c_f=\frac{n_xx_0+n_yy_0+n_zz_0}{n_z}$ 来计算。

若固定 $\vec{n}=(0,0,1)$ ，则变成Fronto-parallel Windows。若想取整像素精度，则可强制 $z_0$ 为整数值（一般而言 $z_0$ 为浮点数）。

随机视差图大家可以瞅一眼：

下半部分就是随机的结果，可以看到一团乱麻点。上半部分是视差传播后的结果。想必大家就对传播很感兴趣了，别着急，往下看。

2 迭代传播

迭代传播是重头戏，它的基本思想是把随机的所有视差平面中的少数正确的视差平面传播至同一视差平面内的其他像素。算法执行多次迭代，每次迭代执行四个步骤：（1）空间传播（Spatial Propagation）（2）视图传播（View Propagation）（3）时序传播（Temporal Propagation）（4）平面优化（Plane Refinement）。偶数次迭代，从图像左上角像素沿行方向传播至右下角像素；奇数次迭代则和偶数次迭代传播顺序相反，即从右下角像素沿行方向传播至左上角像素。PMS共执行了3次迭代，下图展示了迭代的过程和结果：

很有意思，这样传播三次居然可以得到如此美妙的结果。

急迫的想了解传播是何方神圣！

空间传播（Spatial Propagation）

空间传播背后的思想是空间上相邻的像素极可能有相似的平面。基于此思想，PMS假设像素点 $p$ 当前的平面为 $f_p$ ，则检查 $p$ 邻域内的像素 $q$ 的平面 $f_q$ 是否更适合 $p$ ，即检查 $m(p,f_q)<m(p,f_p)$ 是否成立，若成立，则把平面 $f_q$ 作为像素 $p$ 的新平面。在偶数次迭代， $q$ 是 $p$ 的左边和上边像素；在奇数次迭代， $q$ 是 $p$ 的右边和下边像素。

视图传播

了解立体匹配的同学都知道一致性检查，同名像对会有相同的视差值，PMS也利用这一点，认为同名像对会有相似的视差平面。还是假设像素点 $p$ 当前的平面为 $f_p$ ，则在右视图上找到同名点为 $p$ 的像素 $p'$ ， $f_{p'}$ 为 $p'$ 的视差平面转换至左视图坐标系后的平面，若 $m(p,f_{p'})<m(p,f_p)$ ，则把平面 $f_{p'}$ 作为像素 $p$ 的新平面。

时序传播

时序传播比较特殊，它仅仅用于视频序列的立体匹配，它所基于的假设是相邻帧同一位置的像素大概率有相似的平面，该假设还是比较合理的，在视频序列中前后帧的移动量一般都很小。同样，假设像素点 $p$ 当前的平面为 $f_p$ ，前后帧和 $p$ 位置相同的像素为 $p'$ ， $f_{p'}$ 为 $p'$ 的视差平面，若 $m(p,f_{p'})<m(p,f_p)$ ，则把平面 $f_{p'}$ 作为像素 $p$ 的新平面。

平面优化

平面优化目标是通过优化视差平面 $f_p$ 的参数而进一步减小像素 $p$ 的聚合代价值 $m(p,f_p)$ 。

PMS将 $f_p$ 转换为点加法向量的表达方式，并设置两个参数： $Δ_{z_0}^{max}$ 和 $Δ_{n}^{max}$ 。 $Δ_{z_0}^{max}$ 为点 $P(x_0,y_0,z_0)$ 的z-坐标的可变化范围， $Δ_{n}^{max}$ 为法向量 $\vec{n}$ 各分量的可变化范围。在 $[-Δ_{z_0}^{max},Δ_{z_0}^{max}]$ 范围内随机一个值 $Δ_{z_0}$ 加到 $z_0$ 上得 $z_0'=z_0+Δ_{z_0}$ ，由此得到新的点 $P'(x_0,y_0,z_0')$ ；随后，在 $[-Δ_{n}^{max},Δ_{n}^{max}]$ 范围内随机3个值组成向量 $\vec{Δ_{n}}$ ，计算新的法向量 $\vec{n'}=u(\vec{n}+\vec{Δ_{n}})$ ， $u$ 为取单位向量。新的点 $P'$ 和法向量 $\vec{n'}$ 组成新的平面 $f_{p'}$ ，若 $m(p,f_{p'})<m(p,f_p)$ ，则把平面 $f_{p'}$ 作为像素 $p$ 的新平面。

平面优化步骤也是迭代进行的，初始设置 $Δ_{z_0}^{max}=maxdisp/2$ （ $maxdisp$ 为设置的最大视差值）、 $Δ_{n}^{max}=1$ 。每次迭代后，设置 $Δ_{z_0}^{max}=Δ_{z_0}^{max}/2$ 、 $Δ_{n}^{max}=Δ_{n}^{max}/2$ ，由此来逐渐缩小搜索空间。迭代终止条件为 $Δ_{z_0}^{max}=0.1$ 。

好了，本篇就介绍到此，内容不多，但很核心，大家消化消化。本篇展现了PatchMatchStereo的思维核心，结合上篇，基本就对PatchMatchStereo有一个较为全面的了解了。下篇我们将要介绍的是PMS的后处理（Post-Processing）部分，并给出一些实验结果。

Bleyer M , Rhemann C , Rother C . PatchMatch Stereo - Stereo Matching with Slanted Support Windows[C]// British Machine Vision Conference 2011. ↩︎