【数字图像处理】图像的几何变换

文章目录

图像几何变换的一般思路
图像平移
图像镜像
图像转置
图像缩放
图像旋转
插值算法

包含相同内容的两幅图像可能由于成像角度，透视关系乃至镜头自身原因所造成的几何失真而呈现截然不同的外观。
通过适当的几何变换可以最大程度地消除这些几何失真所产生的负面影响，有利于在后续的处理和识别工作中将注意力集中于图像的内容本身。

图像几何变换的一般思路

一个几何变换需要两部分运算：

首先是空间变换所需的运算，如平移、旋转和镜像等，需要用它来表示输出图像与输入图像之间的映射关系；

此外，还需要使用灰度插值算法，按照这种变换关系进行计算，输出图像的像素可能被映射到输入图像的非整数坐标上。

设原图像 $f(x_0, y_0)$ 经过几何变换产生的目标图像为 $g(x_1, y_1)$ ，则该空间变换映射关系可表示为：
$x_1 = s(x_0, y_0) \tag{1}$

$y_1 = t(x_0, y_0) \tag{2}$

其中， $s(x_0, y_0)$ 和 $t(x_0, y_0)$ 为由 $f(x_0, y_0)$ 到 $g(x_1, y_1)$ 的坐标变换函数。

比如，当 $x_1 = s(x_0, y_0) = 2 x_0$ ， $y_1 = t(x_0, y_0) = 2 y_0$ 时，变换后的图像 $g(x_1, y_1)$ 只是简单地在 $x$ 和 $y$ 两个空间方向上将 $f(x_0, y_0)$ 的尺寸放大一倍。

掌握了有关变换函数 $s(x_0, y_0)$ 和 $t(x_0, y_0)$ 的情况，可以遵循下面的步骤实现几何变换。

算法4.1步骤：

根据空间变换的映射关系，确定变换后目标图像的大小，亦即行、列范围，因为有些变换可能改变图像大小；
计算逆变换 $s^{-1} (j_1, i_1)$ 和 $t^{-1} (j_1, i_1)$ ；
逐行扫描目标图像 $g(x_1, y_1)$ ，对于 $g(x_1, y_1)$ 中的每一点 $j_0, j_0)$ ：
- 根据空间变换的映射关系，计算得：
  - $j_0' = s^{-1}(j_1, i_1);$ // 直接通过映射关系计算得到的横坐标，可能不是整数；
  - $i_0' = t^{-1}(j_1, i_1);$ // 直接通过映射关系计算得到的纵坐标，可能不是整数；
- 根据选用的插值方法：
  - $j_0, i_0) = interp(j_0', i_0');$ // 对于非整数坐标 $j_0', i_0')$ 需要插值
  - $i f$ $j_0, i_0)$ 在图像 $f$ 之内
    - 拷贝对应像素： $g(j_1, i_1) = f(j_0, i_0);$
  - $e l se$
    - $g(j_1, i_1) = 255;$

对于几何失真图像的复原(校正)过程正好是上述变换的逆过程。
$x_0 = s^{-1} (x_1, y_1) \tag{3}$

$y_0 = t^{-1}(x_1, y_1) \tag{4}$

式(3)和(4)表示相应的由 $g(x_1, y_1)$ 到 $f(x_0, y_0)$ 的逆变换。此时，经过几何变换而失真的图像 $g(x_1, y_1)$ 是要复原的对象，原始图像 $f(x_0, y_0)$ 是复原的目标。

当图像归一化用于消除几何因素造成的图像外观变化时，称为图像几何归一化，它能够排除对象间几何关系的差别，找出图像中的那些几何不变量，从而得知这些对象原本就是一样的或属于相同的类别。

图像平移

图像平移就是将图像中所有的点按照指定的平移量水平或垂直移动。
设 $x_0, y_0)$ 是原图像上的一点，图像水平平移量为 $T_x$ ，垂直平移量为 $T_y$ ,
平移之后的点坐标变为 $x_1, y_1)$ ，变为
$x_1 = x_0 + t_x$
$y_1 = y_0 + t_y$

用矩阵表示为
$\begin{bmatrix} x_1 & y_1 & 1 \end{bmatrix} = \begin{bmatrix} x_0 & y_0 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ T_x & T_y & 1 \end{bmatrix} \tag{5}$
对变换矩阵求逆，可以得到逆变换：
$\begin{bmatrix} x_0 & y_0 & 1 \end{bmatrix} = \begin{bmatrix}x_1 & y_1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ -T_x & - T_y & 1 \end{bmatrix} \tag{6}$
即
$\left \{ \begin{matrix} x_0 = x_1 - T_x \\ y_0 = y_1 - T_y \end{matrix} \right. \tag{7}$
从上面的公式中可以得到，平移后的目标图像中的每一点都可以在原图像中找到对应的点。

比如，对于新图中的 $(i, j)$ 像素，带入公式可以得到其对应原图像中的像素 $i-T_x, j-T_y)$ 。此时，如果 $T_x > i$ 或 $T_y > j$ ，点 $i-T_x, j-T_y)$ 就超出了原图的范围，可以直接将它的像素值统一设置为 $0$ 或 $255$ 。

对于原图中被移出图像显示区域的点通常也有两种处理方法，可以直接丢弃，也可以通过适当增加目标图像的尺寸，将新生成的图像宽度增加 $T_x$ ，高度增加 $T_y$ 的方法使得新图像中能够包含这些点。

imtransform函数用于完成一般的二维空间变换。
函数原型：B = imtransform(A, TFORM, method);

A为要进行几何变换的图像；
TFORM指定了具体的变换类型；
method允许为imtransform函数选择插值方法，可选的插值方法有：bicubic、bilinear、nearest

可以通过两种方法来创建TFORM结构，使用maketform函数和cp2tform函数。
cp2tform是一个数据拟合函数，它需要原图像与目标图像之间的对应点对作为输入，用于确定基于控制点对的几何变换关系。

maketform函数调用形式：T = maketform(transformtype, Matrix);

参数transformtype指定了变换的类型；
参数Matrix为相应的仿射变换矩阵，例如对于平移变换，该矩阵为[1,0,0;0,1,0;T_x,T_y,1]

图像镜像

图像镜像变换分为水平镜像和垂直镜像。水平镜像将图像左半部分和右半部分以图像竖直中轴线为中心轴进行兑换；竖直镜像将图像上半部分和下半部分以图像水平中轴线为中心轴进行兑换。

水平镜像的变换公式：
$\begin{bmatrix} x_1 & y_1 & 1 \end{bmatrix} = \begin{bmatrix} x_0 & y_0 & 1 \end{bmatrix} \begin{bmatrix} -1 & 0 & 0 \\ 0 & 1 & 0 \\ Width & 0 & 1 \end{bmatrix} = \begin{bmatrix}Width-x_0 & y_0 & 1 \end{bmatrix} \tag{8}$
对矩阵求逆得到：
$\begin{bmatrix} x_0 & y_0 & 1 \end{bmatrix} = \begin{bmatrix} x_1 & y_1 & 1 \end{bmatrix} \begin{bmatrix} -1 & 0 & 0 \\ 0 & 1 & 0 \\ Width & 0 & 1 \end{bmatrix} = \begin{bmatrix} Width - x_1 & y_1 & 1 \end{bmatrix} \tag{9}$
竖直镜像变换关系可形式化地描述如下：
$\begin{bmatrix}x_1 & y_1 & 1 \end{bmatrix} = \begin{bmatrix} x_0 & y_0 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & Height & 1 \end{bmatrix} \tag{10}$
逆运算为：
$\begin{bmatrix}x_0 & y_0 & 1 \end{bmatrix} = \begin{bmatrix}x_1 & y_1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & Height & 1 \end{bmatrix} \tag{11}$

图像转置

图像转置是将图像像素的 $x$ 坐标和 $y$ 坐标互换，转置后图像的大小会随之改变，高度和宽度将互换。

转置变换公式如下：
$\begin{bmatrix}x_1 & y_1 & 1 \end{bmatrix} = \begin{bmatrix}x_0 & y_0 & 1 \end{bmatrix} \begin{bmatrix} 0 & 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{bmatrix} \tag{12}$
转置矩阵的逆矩阵仍然为其自身。

图像缩放

图像缩放是指图像按照指定的比率放大或者缩小。

假设图像 $x$ 轴方向的缩放比率为 $S_x$ ， $y$ 轴方向的缩放比率为 $S_y$ ，相应的变换表达式为：
$\begin{bmatrix} x_1 & y_1 & 1 \end{bmatrix} = \begin{bmatrix} x_0 & y_0 & 1 \end{bmatrix} \begin{bmatrix} S_x & 0 & 0 \\ 0 & S_y & 0 \\ 0 & 0 & 1 \end{bmatrix} = \begin{bmatrix}x_0 \cdot S_x & y_0 \cdot S_y & 1 \end{bmatrix} \tag{13}$
其逆运算如下：
$\begin{bmatrix} x_0 & y_0 & 1 \end{bmatrix} = \begin{bmatrix} x_1 & y_1 & 1 \end{bmatrix} \begin{bmatrix} \frac{1}{S_x} & 0 & 0 \\ 0 & \frac{1}{S_y} & 0 \\ 0 & 0 & 1 \end{bmatrix} = \begin{bmatrix} \frac{x_1}{S_x} & \frac{y_1}{S_y} & 1 \end{bmatrix} \tag{14}$
直接根据缩放公式计算得到的目标图像，某些映射源坐标可能不是整数，从而找不到对应的像素位置。比如当图像放大2倍时，即 $S_x = S_y = 2$ ，放大图像中的像素 $(0, 1)$ 对应于原图中的像素 $(0, 0.5)$ ，这不是整数坐标位置，无法提取其灰度值。

必须进行某种近似处理，一种简单的策略是直接使用最邻近的整数坐标位置 $(0, 0)$ 或者 $(0, 1)$ 处的像素灰度值，这也是最近邻插值算法。

图像旋转

旋转一般是指将图像围绕某一指定点旋转一定的角度。旋转通常也会改变图像的大小。如下图所示

在这里插入图片描述

点 $P(x_0, y_0)$ 绕原点逆时针旋转角度 $\theta$ 到 $P1(x_1, y_1)$ ，令 $\sqrt{x^2 + y^2}$ ，有： $\alpha = y_0/L$ ， $\alpha = x_0/L$ 。

到达 $P 1$ 点后，有：
$sin(\alpha + \theta) = y_1 / L = cos \theta sin \alpha + sin \theta cos \alpha \tag{15} \\ cos(\alpha + \theta) = x_1/L = cos \theta cos \alpha - sin \theta sin \alpha$
于是有：
$x_1 = cos \theta x_0 - sin \theta y_0 \tag{16} \\ y_1 = cos \theta y_0 +sin \theta x_0$
得到旋转变换公式为：
$\begin{bmatrix} x_1 & y_1 & 1 \end{bmatrix} = \begin{bmatrix} x_0 & y_0 & 1 \end{bmatrix} \begin{bmatrix} cos \theta & sin \theta & 0 \\ -sin \theta & cos \theta & 0 \\ 0 & 0 & 1 \end{bmatrix} \tag{17}$
其逆运算为：
$\begin{bmatrix} x_0 & y_0 & 1 \end{bmatrix} = \begin{bmatrix} x_1 & y_1 & 1 \end{bmatrix} \begin{bmatrix} cos \theta & - sin \theta & 0 \\ sin \theta & cos \theta & 0 \\ 0 & 0 & 1 \end{bmatrix} \tag{18}$
上面的讨论基于以原点即图像左下角为中心进行的，如何围绕任意的指定点来旋转？

将平移和旋转操作相结合即可，先进行坐标系平移，再以新的坐标原点为中心旋转，之后将新原点平移回原坐标系的原点。这个过程可以归纳为以下3个步骤：

将坐标系Ⅰ变成Ⅱ；
将该点顺时针旋转 $\theta$ 角；
将坐标系Ⅱ变回Ⅰ；

以围绕图像中心的旋转为例，如下图所示，坐标系Ⅰ以图像左上角点位原点，向右为 $x$ 轴正方向，向下为 $y$ 轴正方向；而坐标系Ⅱ以图像中心为原点，向右为 $x$ 轴正方向，向下为 $y$ 轴正方向。坐标系Ⅰ与坐标系Ⅱ之间的转换关系如下：

在这里插入图片描述

假设图像的宽为 $w$ ，高位 $h$ ，容易得到：
$\begin {bmatrix} x_Ⅰ \\ y_Ⅰ \\ 1 \end{bmatrix} = \begin {bmatrix} x_Ⅱ \\ y_Ⅱ \\ 1 \end{bmatrix} \begin {bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ 0.5w & 0.5h & 1 \end{bmatrix} \tag{19}$
相应的逆变换为：
$\begin{bmatrix} x_Ⅱ \\ y_Ⅱ \\ 1 \end{bmatrix} = \begin{bmatrix} x_Ⅰ \\ y_Ⅰ \\ 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ -0.5w & 0.5h & 1 \end{bmatrix} \tag{20}$
这里已经实现上述3个步骤中的第1步和第3步，再加上第2步的旋转变换就得到了围绕图像中心点旋转的最终变换矩阵。该矩阵实际上是3个变换步骤中分别用到的3个变换矩阵的级联。式中， $W_{old}$ 、 $H_{old}$ 、 $W_{new}$ 、 $H_{new}$ 分别表示原图像和新图像的宽和高。

$\begin{align} \begin{bmatrix} x_1 \\ y_1 \\ 1 \end{bmatrix} &= \begin{bmatrix} x_0 \\ y_0 \\ 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ -0.5W_{old} & 0.5H_{old} & 1 \end{bmatrix} \begin{bmatrix} cos \theta & -sin \theta & 0 \\ sin \theta & cos \theta & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ 0.5W_{new} & 0.5 H_{new} & 1 \end{bmatrix} \nonumber \\ &= \begin{bmatrix} x_0 \\ y_0 \\ 1 \end{bmatrix} \begin{bmatrix} cos \theta & sin \theta & 0 \\ -sin \theta & cos \theta & 0 \\ 0.5 \cdot (-W_{old} \cdot cos \theta + H_{old} \cdot sin \theta + W_{new} ) & 0.5 ( - W_{old} \cdot sin \theta - H_{old} \cdot cos \theta + H_{new}) & 1 \end{bmatrix} \tag{21} \end{align}$

上式的逆变换为：

$\begin{align} \begin{bmatrix} x_0 \\ y_0 \\ 1 \end{bmatrix} &= \begin{bmatrix} x_1 \\ y_1 \\ 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ -0.5W_{new} & 0.5 H_{new} & 1 \end{bmatrix} \begin{bmatrix} cos \theta & sin \theta & 0 \\ -sin \theta & cos \theta & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ 0.5W_{old} & 0.5 H_{old} & 1 \end{bmatrix} \nonumber \\ &= \begin{bmatrix} x_1 \\ y_1 \\ 1 \end{bmatrix} \begin{bmatrix} cos \theta & -sin \theta & 0 \\ sin \theta & cos \theta & 0 \\ -0.5 W_{new} \cdot cos \theta - 0.5 H_{new} \cdot sin \theta + 0.5 W_{old} & 0.5 W_{new} \cdot sin \theta - 0.5 H_{new} \cdot cos \theta + 0.5 H_{old} & 1 \end{bmatrix} \tag{22} \end{align}$

可以根据逆变换公式，按照算法4.1中的描述实现围绕图像中心的旋转变换，类似地，可以进一步得到以任意点为中心的旋转变换。

插值算法

实现几何运算时，有两种方法：向前映射法和向后映射法。

向前映射法，其原理是将输入图像的灰度按照像素依次转移到输出图像中，即从原图像坐标计算出目标图像坐标： $g(x_1, y_1) = f(a(x_0, y_0), b(x_0, y_0))$ 。比如图像的平移、镜像等操作可以采用这种方法。
向后映射法，是向前映射变换的逆，即输出像素依次映射回输入图像中，如果一个输出像素映射到的不是输入图像的采样栅格的整数坐标处的像素点，则其灰度值就需要基于整数坐标的灰度值进行推断，这就是插值。向后映射法是逐个像素产生输出图像，不会产生计算浪费问题，再缩放、旋转等操作中多采用这种方法。

常用的插值算法有：最近邻插值、双线性插值、高阶插值。

双线性插值

双线性插值又称为一阶插值，是线性插值扩展到二维的一种应用，可以通过一系列的一阶线性插值得到。

线性，指量与量之间按比例、成直线的关系，在数学上可以理解为一阶导数为常数的函数。

线性插值是指根据两个点的值线性地确定位于这两个点连线上的某一点的值。

输出像素的值为输入图像中距离它最近的 $\times 2$ 邻域内采样点像素灰度值的加权平均。

设已知单位正方形的顶点坐标分别为 $f (0, 0), f (1, 0), f (0, 1), f (1, 1)$ ，如下图所示，要通过线性插值得到正方形内任意点 $f (x, y)$ 的值。

首先对上端的两个点进行线性插值，得到 $f (x, 0)$ ： $f (x, 0) = f (0, 0) + x [f (1, 0) - f (0, 0)]$ ；

再对下端的两个顶点进行线性插值，得到 $f (x, 1)$ ： $f (x, 1) = f (0, 1) + x [f (1, 1,) - f (0, 1)]$ ；

最后，对垂直方向进行线性插值，得到 $f (x, y)$ ： $f (x, y) = f (x, 0) + y [f (x, 1) - f (x, 0)]$ ；

整理得到 $f (x, y)$ ：

$\tag{24}$

在这里插入图片描述

双线性插值的平滑作用会使图像的细节退化，而其斜率的不连续性则会导致变换产生不希望的结果。

高阶插值

双线性插值的去热点可以通过高阶插值得到弥补，高阶插值通常用卷积来实现。

输出像素的值为输入图像中距离它最近的 $\times 4$ 邻域内采样点像素值的加权平均值。

以三次插值为例，它使用了如下的三次多项式来逼近理论上的最佳插值函数 $s in c (x)$ 。
$\left \{ \begin{matrix} \tag{25} 1 - 2 |x|^2 + |x|^3 , & 0 \le | x| < 1 \\ 4 - 8 |x| + 5 |x|^2 - |x|^3, & 1 \le |x| < 2 \\ 0 & |x| \ge 2 \end{matrix} \right.$
上式中 $∣ x ∣$ 是周围像素沿 $x$ 方向与原点的距离。待求像素 $(x, y)$ 的灰度值由其周围16个点的灰度值加权插值得到。计算公式如下：
$\tag{26}$
其中
$\begin{bmatrix} S(1+v) \\ S(v) \\ S(1-v) \\ S(2-v) \end{bmatrix} ^T \nonumber \\ C = \begin{bmatrix} S(1+u) \\ S(u) \\ S(1-u) \\ S(2-u) \end{bmatrix} \nonumber \\ B = \begin{bmatrix} f(i-1, j-1) & f(i-1, j) & f(i-1,j+1) & f(i-1, j+2) \nonumber \\ f(i,j-1) & f(i, j) & f(j, j+1) & f(i, j+2) \nonumber \\ f(i+1, j-1) & f(i+1, j) & f(i+1, j+1) & f(i+1, j+2) \nonumber \\ f(i+2, j-1) & f(i+2, j) & f(i+2, j+1) & f(i+2, j+2) \end{bmatrix}$
三次插值方法通常应用在光栅显示中，它在允许任意比例的缩放操作的同时，较好地保持了图像的细节。

未完待续~