图像处理——图像分析的数据结构

图像分析的数据结构

1 图像数据表示的层次

四个层次：

图标图像(iconic images)：最底层的表示，有含有原始数据的图像组成，原始数据也就是像素亮度数据的整数矩阵。为了突出对后续处理重要的图像的某些方面，需要进行预处理（滤波或边缘锐化）
分割图像(segmented images)：为可能属于同一物体的区域。
几何表示(geometric representation)：保存2D和3D形状知识。
关系模型(relational models)：使我们能更有效地，并且在更高的抽象层次上的处理数据。

2 传统图像数据结构

矩阵，链，图，物体属性表，关系数据库

2.1 矩阵

矩阵是底层图像表示的最普通的数据结构，矩阵元素是整型的数值。

特殊图像

二值图像(binary image)：仅有两个亮度级别的图像，用仅含有0和1的矩阵来表示
多光谱图像(multispectral image)：可以用多个矩阵来表示，每个矩阵含有一个频带的图像。
分层图像数据结构(bierarchical image data structures)：用不同的分辨率的矩阵来获得。

共生矩阵(co-occurrence matrix)

它是亮度为 $z$ 的像素 $(i_1,j_1)$ 和亮度为y的像素 $(i_2,j_2)$ 的具有空间关系的两个像素的概率估计。

假设这个概率仅依赖于亮度 $z$ 的像素和亮度 $y$ 的像素之间的某个空间关系 $r$ ，那么关于关系 $r$ 的信息就记录在方形的共生矩阵C中，它的维数对应图像的亮度级别数。

算法：关系 $r$ 的共生矩阵 $C_r(x,y)$

置 $C_r(z,y) =0$ ,对于所有的 $z,y\in[0,L]$ ,L是最大的亮度。
对于图像中所有的像素 $(i_1,j_1)$ ，找到与像素 $(i_1,j_1)$ 有关系r的像素 $(i_2，j_2)$ ,做 $C_r[f(i_1,j_1),f(i_2,j_2)] = C_r[f(i_1,j_1),f(i_2,j_2)]+1$ .

积分图像

描述全局信息的矩阵表示方法。积分图像的构造方式是位置 $(i,j)$ 处的值 $ii(i,j)$ 是原图像的 $(i,j)$ 左上角所有像素的和： $ii(i,j) = \sum\limits_{k\le i,l\le j}f(k,l)$

算法：积分图像的构建

用 $s(i,j)$ 表示行方向的累加和，初始化 $s(i,-1) =0$
用 $ii(i,j)$ 表示一个积分图像，初始化 $ii(-1,i)=0$
逐行扫描图像，递归计算每个像素 $(i,j)$ 行方向的累加和 $s(i,j)$ 和积分图像 $ii(i,j)$ 的值

$s(i,j) = s(i,j-1)+f(i,j)$

$ii(i,j) =ii(i-1,j)+s(i,j)$
扫描图像一遍，当到达图像右下角像素时，积分图像 $ii$ 构造好了。

积分图像这个数据结构主要用来快速计算多个尺度的简单矩阵图像特征。

2.2 链

链在计算机视觉中用于描述物体的边界。链的元素是一个基本符号，这种方法使得在计算机视觉任务中可以使用任何形式的理论。链适合组织成符号序列的数据，链中相邻的符号通常对应于图像中邻接的基元。

2.3 拓扑数据结构

图(graph)： $G(V,E)$ 是一个代数结构，有一组结点 $V = {v_1,v_2,\cdots,v_n}$ 和一组弧 $E = {e_1,e_2,\cdots,e_n}$ 构成。每条弧 $e_k$ 代表一对无次序的结点 $\{v_i,v_j\}$ 。结点的度数等于该结点所具有的弧数。

赋值图(evaluated graph)：指弧和结点或两者都带有数值的图。

区域邻接图(region adjacency graph)：其中结点对应与区域，相邻的区域用弧连接起来。

2.4 关系结构

3 分层数据结构

3.1 金字塔

M型金字塔(M-pyramids)矩阵

M型金字塔：是一个图像序列 $\{M_L,M_{L-1},\cdots ,M_0\}$ 其中 $M_L$ 是具有与原图像同样的分辨率和元素的图像 $M_{i-1}$ 是 $M_i$ 降低一半分辨率得到的图像。通常我们只考虑维数是2的幂的方阵。

$M$ 型金字塔存储所有图像矩阵需要的像素个数为 $N^2(1+\frac{1}{4}+\frac{1}{16}+\cdots) =1.33N^2$

T型金字塔(T-pyramids)树形

T型金字塔：树状结构。设 $2^l$ 是原图像的大小（最高分辨率）。

定义：

一个结点集合 $P=\{P=(k,i,j)\}$ 使得级别 $k\in [0,L]$ ， $i,j\in[0,2^k-1]$ 。
一个映射 $F$ ，定义在金字塔的结点 $P_{k-1},P_k$ 之间 $F(k,i,j) = (k-1,i\ div \ 2,j\ div\ 2)$ 。 $div$ 表示整除
一个函数 $V$ ，将金字塔的结点 $P$ 映射到 $Z$ ，其中 $Z$ 是对应于亮度级别数的所有数的子集合

特点：
对于给定的 $k,T$ 型金字塔的结点对应于M型金字塔的一些图像点，结点 $P=\{(k,i,j)\}$ 集合的每个元素对应于M型金字塔的一个矩阵，称 $k$ 为金字塔的层数。
对于给定的 $k$ ，图像 $P =\{(k,i,j)\}$ 构成金字塔的第 $k$ 层的一个图像。
$F$ 是所谓的父亲映射，在T型金字塔中，除了根 $(0,0,0)$ 之外的所有的结点 $P_k$ 都有定义。
除了叶子结点外，T型金字塔的每个结点都有4个子结点，叶子结点是第L层的结点，对应于图像的单个像素。

3.2 四叉树

对T型金字塔的改进，除叶子结点外每个结点有4个子结点(西北NW，东北NE，西南SW，东南SE)，在每个层次图像被分解为4个象限。