频域滤波—正交变换

图像正交变换的本质

图像是由许多点冲激函数的累加，图像通过处理系统的效果就是每一点冲激函数通过处理系统的效果之和。同时任何图像都可以分解为基图像之和，基图像之间是相互正交的，图像正交变换的本质就是寻找合适的基图像来表达图像，并通过改变基矢量及其加权系数来变换图像。

图像的正交变换一般分为三大类：

正弦余弦型变换
方波型变换
基于特征向量的变换

一些经典变换的总结：

变换	变换的特点及其经典应用范围
傅里叶变换	需要进行复数运算，物理意义明确。其二维变换可分离，具有快速算法。可把整幅图像的信息很好地用若干个频率系数来表达
余弦变换	准最佳变换。其二维变换可分离，具有快速算法，只要求三角函数运算，运算量比傅里叶变换小一半。在高相关性图像的处理中，最接近最佳的K-L变换。信息压缩效果好
沃尔什变换	只需要进行实数计算，具有快速算法，性能优于傅里叶变换
哈达玛变换	在图像处理算法的硬件实现上很实用，容易模拟但不宜分析。信息压缩效果好
K-L变换	在许多意义下是最佳的，但是无快速算法，对彩色图像或人脸图像这类特征图像十分有效

冲激函数

冲激函数通常也称冲激、 $\delta$ 函数或狄克拉 $\delta$ 函数，实际上冲激函数是线性泛函，不是普通函数，可以认为它是在零点无穷大，其他点为零的一个分布： $\delta(t)=\begin{cases} \infty, & \text{t=0} \\ 0, & \text{t$\neq$ 0} \end{cases}$ ，且该函数满足等式 $\int_{-\infty}^{\infty}\delta(t)\text{d}t=1$

在这里插入图片描述

基函数和基图像

变换核矩阵的各行构成了 $N$ 维矢量空间的一组基矢量，这些行是正交的，因此空间中任一矢量都可以用单位长度基矢量的加权和来表示。

具体来说就是数字图像可以表示为按行串接的矢量，该矢量可以表示成单位基矢量的加权和，权重为像素的强度值，即： $f=\begin{bmatrix}f_0 \\ f_1 \\ \vdots \\ f_{N^2-1} \\ \end{bmatrix}=f_0\begin{bmatrix}1 \\ 0 \\ \vdots \\ 0 \\ \end{bmatrix}+f_1\begin{bmatrix}0 \\ 1 \\ \vdots \\ 0 \\ \end{bmatrix}+...+f_{N^2-1}\begin{bmatrix}0 \\ 0 \\ \vdots \\ 1 \\ \end{bmatrix}$ $=f_0e_0+f_1e_1+...+f_{N^2-1}e_{N^2-1}=\sum_{i=0}^{N^2-1}f_ie_i$ 其中 $e_i$ 为 $N^2$ 维空间上的正交矢量，即单位基矢量； $f_i$ 为加权系数

实际上任何以矩阵表示的图像都可以看做是加权系数为图像像素值 $f(i,j)$ 的一系列加权和，例如： $f=\begin{bmatrix}7 & 3 \\ 2 & 5 \\ \end{bmatrix}=7\begin{bmatrix}1 & 0 \\ 0 & 0 \\ \end{bmatrix}+3\begin{bmatrix}0 & 1 \\ 0 & 0 \\ \end{bmatrix}+2\begin{bmatrix}0 & 0 \\ 1 & 0 \\ \end{bmatrix}+5\begin{bmatrix}0 & 0 \\ 0 & 1 \\ \end{bmatrix}$ 令 $e_0=\begin{bmatrix}1 \\ 0 \\ \end{bmatrix}$ , $e_1=\begin{bmatrix}0 \\ 1\\ \end{bmatrix}$ ，则有： $e_0e_0^T=\begin{bmatrix}1 \\ 0 \\ \end{bmatrix}\begin{bmatrix}1 \\ 0 \\ \end{bmatrix}^T=\begin{bmatrix}1 & 0 \\ 0 & 0 \\ \end{bmatrix}$ $e_0e_1^T=\begin{bmatrix}0 & 1 \\ 0 & 0 \\ \end{bmatrix},e_1e_0^T=\begin{bmatrix}0 & 0 \\ 1 & 0 \\ \end{bmatrix},e_1e_1^T=\begin{bmatrix}0 & 0 \\ 0 & 1 \\ \end{bmatrix}$ 这时， $f$ 可以表示为： $f=7e_0e_0^T+3e_0e_1^T+2e_1e_0^T+5e_1e_1^T$
对于 $N*N$ 的图像阵列，有： $f=f(0,0)e_0e_0^T+f(0,1)e_0e_1^T+...+f(i,j)e_ie_j^T+...+f(N-1,N-1)e_{N-1}e_{N-1}^T$ $=\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}f(i,j)e_ie_j^T$ 其中基向量 $e_i$ 或 $e_j$ 为单位列向量，仅第 $i+1$ 个元素为1，其余全为0，例如 $e_1=\begin{bmatrix}0 & 1 & \cdots & 0\\ \end{bmatrix}^T$ ，因此基图像 $e_ie_j^T$ 就表示了仅1个非0元素的系数矩阵。

任何图像都可以看做是加权系数为图像像素值 $f(i,j)$ 的一系列单位基图像的加权和。

一维正交变换

线性变换

设 $t$ 为一个 $N*1$ 向量， $T$ 为一个 $N*N$ 矩阵， $T$ 作用于列向量 $f(x)$ 得到列向量 $F$ ，这就定义了向量 $t$ 的一个线性变换，表达为： $F(\mu)=\sum_{x=0}^{N-1}f(x)g(x,\mu),\mu\in[0,N-1]$ 其矩阵形式为： $F=Tf(x)$ 其中， $f(x)$ 称为冲激， $g(t,\mu)$ 称为正变换核函数或冲激响应，矩阵 $T$ 称为变换的核矩阵或变换矩阵。

对该线性变换的逆变换为： $f(x)=\sum_{\mu=0}^{N-1}F(\mu)h(x,\mu),x\in[0,N-1]$ 其矩阵形式为： $f(x)=FT^{-1}$ 其中， $h(t,\mu)$ 称为逆变换核函数，矩阵 $T^{-1}$ 称为逆变换的核矩阵或变换矩阵。

显然有： $TT^{-1}=E$

例如： 平面坐标系中的向量旋转变换
$\begin{bmatrix} y_1 \\ y_2 \\ \end{bmatrix}=\begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta\\ \end{bmatrix}\begin{bmatrix} x_1 \\ x_2 \\ \end{bmatrix}$ 可表示为： $y=Tx$ 其中 $T=\begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta\\ \end{bmatrix}$ ，该矩阵表达式的展开式为: $\begin{cases} y_1=x_1\cos\theta-x_2\sin\theta\\ y_2=x_1\sin\theta+x_2\cos\theta \end{cases}$ 若将 $T$ 抽象表达为 $T=\begin{bmatrix} a_{11} & a_{12}\\ a_{21} & a_{22}\\ \end{bmatrix}$ ，则展开式可以表达为： $\begin{cases} y_1=x_1a_{11}+x_2a_{12}\\ y_2=x_1a_{21}+x_2a_{22} \end{cases}$ ，简化得： $y_i=\sum_{i=1}^{2}x_ia_{j,i}，j\in[1,2]$

酉变换与正交性

$T$ 的逆变换等于其复数矩阵共轭的转置时，称该线性变换为酉变换，表示为： $T^{-1}=(T^{*})^T=(T^{*})'$ 或 $TT^{-1}=T(T^*)'=E$

当 $T$ 为实数矩阵时，实数的共轭等于实数本身，此时酉变换就称为正交变换，表示为： $T^{-1}=T'$ ，于是显然有： $TT'=E$ 。

在正交变换中， $T$ 的每一行称为该正交变换的正交基。

例如： 设有矩阵 $A=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{n1} & a_{n2} & \cdots & a_{nn}\\ \end{bmatrix}$ ，若有 $A$ 的变换为正交变换

则有 $A$ 的共轭转置： $A'=A^T=\begin{bmatrix} a_{11} & a_{21} & \cdots & a_{n1}\\ a_{12} & a_{22} & \cdots & a_{n2}\\ \vdots & \vdots & \ddots & \vdots\\ a_{1n} & a_{2n} & \cdots & a_{nn}\\ \end{bmatrix}$ 且 $A$ 中的 $n$ 个正交基表示为： $a_1=\begin{bmatrix} a_{11} \\ a_{21} \\ \vdots \\ a_{n1} \\ \end{bmatrix}$ ， $a_2=\begin{bmatrix} a_{12} \\ a_{22} \\ \vdots \\ a_{n2} \\ \end{bmatrix}$ ，…， $a_n=\begin{bmatrix}a_{1n} \\ a_{2n} \\ \vdots \\ a_{nn} \\ \end{bmatrix}$

矩阵 $A$ 用正交基表示为： $A=\begin{bmatrix} a_1 & a_2 & \cdots & a_n \\ \end{bmatrix}$ $a_i'=a_i^T=\begin{bmatrix} a_{1i} & a_{2i} & \cdots & a_{ni} \\ \end{bmatrix}^T$ 正交变换表示为： $a'_ia_j=\sum_{k=1}^{n}a_{ki}a_{kj}=\begin{cases} c, \text{i=j}\\ 0, \text{i$\neq$j} \end{cases}$ 当取 $c=1$ 时，该正交变换称为归一化正交变换

完备性

一个实值函数 $f(x)$ ，可表示为： $f(x)=\sum_{n=0}^{\infty}a_n\mu_n(x)$ 其中 $\mu_n(x)$ 为一组函数集， $a_n$ 为加权系数

当 $f(x)$ 是平方可积的分段连续函数， $\epsilon$ 表示无穷小量时，若总存在一个正整数 $N$ 使得 $\int_{-\infty}^{\infty}|f(x)-\hat f(x)|^2\text{d}x < \epsilon$ 其中 $\hat f(x)$ 为 $f(x)$ 的估计值： $\hat f(x)=\sum_{n=0}^{N-1}a_n\mu_n(x)$ 则称 $\mu_n(x)$ 函数集是完备的。完备则意味着定义域中任何 $f(x)$ 均能用 $\mu_n(x)$ 函数集表示。

一般来说，满足了正交性和完备性这两个条件的函数集合或矩阵才能用于图像处理与分析。也就是说我们所要寻找的正交变换的基函数一定是正交的，且所有的图像都可以用这个基函数表示。

二维正交变换

二维离散线性变换

二维离散线性变换由以下两个表达式给出：
$F(\mu,\nu)=\sum_{x=0}^{N-1}\sum_{y=0}^{N-1}f(x,y)g(x,y,\mu,\nu),0\leqslant \mu,\nu\leqslant N-1$ 和 $f(x,y)=\sum_{\mu=0}^{N-1}\sum_{\nu=0}^{N-1}F(\mu,\nu)h(x,y,\mu,\nu),0\leqslant x,y\leqslant N-1$ 其中， $g(x,y,\mu,\nu)$ 称为正变换核函数或 $N^2*N^2$ 阶的正变换核矩阵， $h(x,y,\mu,\nu)$ 称为逆变换核函数或 $N^2*N^2$ 阶的逆变换核矩阵。

若核函数满足： $g(x,y,\mu,\nu)=P(x,\mu)Q(y,\nu)$ $h(x,y,\mu,\nu)=R(x,\mu)S(y,\nu)$ 则称核函数是可分离的，核函数的可分离性质使得二维变换可以分步计算、降低计算的复杂度。分步计算步骤如下：

首先沿 $f(x,y)$ 的 $y$ 方向做一维变换，有 $F(x,\nu)=\sum_{y=0}^{N-1}f(x,y)Q(y,\nu)，0\leqslant x,\nu\leqslant N-1$
然后沿 $F(x,\nu)$ 的 $x$ 方向做一维变换，得到： $F(\mu,\nu)=\sum_{x=0}^{N-1}F(x,\nu)P(x,\mu)，0\leqslant\mu,\nu\leqslant N-1$

若可分离核函数满足 $P(x,\mu)=Q(y,\nu)$ ，则该可分离核函数是加法对称的，即 $x$ 、 $y$ 两个方向上的变化一致。

因此可分离的二维离散线性变换的表达式可以表示为： $F(\mu,\nu)=\sum_{y=0}^{N-1}[\sum_{x=0}^{N-1}P(x,\mu)f(x,y)]Q(y,\nu)，0\leqslant \mu,\nu\leqslant N-1$ 若图像向量 $f$ 是由基矢量 $f_i$ 逐行串接形成的，对应的正变换矩阵为： $F=PfQ^T$ 若图像向量 $f$ 是由基矢量 $f_i$ 逐列串接形成的，对应的正变换矩阵为： $F=QfP^T$

二维离散线性变换的基图像

对于二维离散线性变换 $f(x,y)=\sum_{\mu=0}^{N-1}\sum_{\nu=0}^{N-1}F(\mu,\nu)h(x,y,\mu,\nu),0\leqslant x,y\leqslant N-1$ 其变换核矩阵 $h(x,y,\mu,\nu)$ 可以将其视为一幅图像，称其为基图像。任何一个图像 $f(x,y)$ 都可以表示为基图像 $h(x,y,\mu,\nu)$ 的线性组合，其中 $F(\mu,\nu)$ 为加权系数。

对另一个表达式 $F(\mu,\nu)=\sum_{x=0}^{N-1}\sum_{y=0}^{N-1}f(x,y)g(x,y,\mu,\nu),0\leqslant \mu,\nu\leqslant N-1$ 同理。

白水你一定要努力啊

发布了208 篇原创文章 · 获赞 841 · 访问量 121万+

他的留言板关注