单应性（Homography）变换

我们已经得到了像素坐标系和世界坐标系下的坐标映射关系：

其中，u、v表示像素坐标系中的坐标，s表示尺度因子，fx、fy、u0、v0、γ（由于制造误差产生的两个坐标轴偏斜参数，通常很小）表示5个相机内参，R,t表示相机外参，Xw、Yw、Zw（假设标定棋盘位于世界坐标系中Zw=0的平面）表示世界坐标系中的坐标。

单应性概念的引出

我们在这里引入一个新的概念：单应性（Homography）变换。可以简单的理解为它用来描述物体在世界坐标系和像素坐标系之间的位置映射关系。对应的变换矩阵称为单应性矩阵。在上述式子中，单应性矩阵定义为：

其中，M是内参矩阵

从单应矩阵定义式子来看，它同时包含了相机内参和外参。在进一步介绍相机标定知识之前，我们重点来了解一下单应性，这有助于深入理解相机标定。因为在计算机视觉领域，单应性是一个非常重要的概念。

为了不让读者一上来就淹没在公式的汪洋大海中失去兴趣，我们颠倒一下顺序，先来看看单应性到底有什么用，然后再介绍单应矩阵的估计方法。

单应性在计算机视觉中的应用

单应性在计算机视觉领域是一个非常重要的概念，它在图像校正、图像拼接、相机位姿估计、视觉SLAM等领域有非常重要的作用。

图像校正

用单应矩阵进行图像矫正的例子如下图所示，最少需要四个对应点对（后面会给出原因）就可以实现。

视角变换

单应矩阵用于视角变换的例子如下图所示，可以方便地将左边普通视图转换为右图的鸟瞰图。

图像拼接

既然单应矩阵可以进行视角转换，那我们把不同角度拍摄的图像都转换到同样的视角下，就可以实现图像拼接了。如下图所示，通过单应矩阵H可以将image1和image2都变换到同一个平面。

单应矩阵用于图像拼接的例子如下所示。

增强现实（AR）

平面二维标记图案（marker）经常用来做AR展示。根据marker不同视角下的图像可以方便的得到虚拟物体的位置姿态并进行显示，如下图所示。

如何估计单应矩阵？

了解了上述单应性的部分应用后，我们就有很大的动力来学习单应矩阵的推导和计算了。首先，我们假设两张图像中的对应点对齐次坐标为(x',y',1)和(x,y,1)，单应矩阵H定义为：

则有：

矩阵展开后有3个等式，将第3个等式代入前两个等式中可得：

也就是说，一个点对对应两个等式。在此插入一个讨论：单应矩阵H有几个自由度？

或许有人会说，9个啊，H矩阵不是9个参数吗？从h11到h33总共9个。真的是这样吗？实际上并不是，因为这里使用的是齐次坐标系，也就是说可以进行任意尺度的缩放。比如我们把hij乘以任意一个非零常数k并不改变等式结果：

所以实际上单应矩阵H只有8个自由度。8自由度下H计算过程有两种方法。

第一种方法：直接设置 h33=1，那么上述等式变为：

第二种方法：将H添加约束条件，将H矩阵模变为1，如下：

以第2种方法（用第1种也类似）为例继续推导，我们将如下等式（包含||H||=1约束）:

乘以分母展开，得到：

整理，得到：

假如我们得到了两幅图片中对应的N个点对（特征点匹配对），那么可以得到如下线性方程组：

写成矩阵形式：

由于单应矩阵H包含了||H||=1约束，因此根据上图的线性方程组，8自由度的H我们至少需要4对对应的点才能计算出单应矩阵。这也回答了前面图像校正中提到的为何至少需要4个点对的根本原因。

但是，以上只是理论推导，在真实的应用场景中，我们计算的点对中都会包含噪声。比如点的位置偏差几个像素，甚至出现特征点对误匹配的现象，如果只使用4个点对来计算单应矩阵，那会出现很大的误差。因此，为了使得计算更精确，一般都会使用远大于4个点对来计算单应矩阵。另外上述方程组采用直接线性解法通常很难得到最优解，所以实际使用中一般会用其他优化方法，如奇异值分解、Levenberg-Marquarat（LM）算法（后续文章会介绍）等进行求解。

单应性（Homography）变换

猜你喜欢