4.1 图像数据表示的层次
共分为四个层次:
最底层的表示:图标图像(iconic images),由含有原始数据的图像组成,原始数据也就是像素亮度数据的整数矩阵。(预处理的部分)
第二层的表示:分割图像(segmented images)。
第三层:几何表示(geometric representation),保存2D和3D形状知识。拍摄图像与CAD模型之间的转换。
第四层:关系模型(relational models)。涉及AI技术,语义网络或框架。
4.2 传统图像数据结构
4.2.1 矩阵
用矩阵表示的特殊图像有:
- 二值图像(binary image)(仅有两个亮度级别的图像)用仅含有0和1的矩阵来表示。
- 多光谱图像(multispectral image)的信息可以用几个矩阵来表示,每个矩阵含有一个频带的图像。
- 分层图像数据结构(hierarchical image data structures)用不同分辨率的矩阵来获得。图像的这种分层表示对于具有处理阵列结构的并行计算机是非常方便的。
矩阵中有大量的图像数据。如果首先从原始的图像矩阵得出全局信息,由于全局信息更紧凑并且占用的存储少,那么算法就可以加速。全局信息的例子如下:
- 亮度直方图(brightness histogram)从概率的角度观察,标准化的直方图是如下现象的概率密度的估计:一个图像的像素具有某个亮度。
- 共生矩阵(co-occurrence matrix)是亮度为z的像素和亮度为y的像素的具有空间关系的两个像素的概率估计,可以用来描述纹理。
- 积分图像(integral image)的构造方式是位置处的值是原图像左上角所有像素的和:
其中是原图像。
积分图像主要用来快速计算多个尺度的简单矩形图像特征。这种特征能用在快速的目标识别和目标跟踪。
4.2.2 链
链在计算机视觉中用于描述物体的边界。
链码(chain codes)(也称Freeman码)常用于描述物体的边界,或者图像中一个像素宽的线条。
行程编码(run length coding)
4.2.3 拓扑数据结构
拓扑数据结构将图像描述成一组元素及其相互关系,这些关系通常用图结构来表示。
图(graph)、赋值图(weighted graph)、区域邻接图(region adjacency graph)
4.2.4 关系结构
使用关系结构的描述适合于高层次的图像理解工作。在这种情况下,类似于数据库检索,用关键词搜索适用于加速整个处理过程。
4.3 分层数据结构
4.3.1 金字塔
分为M型金字塔(M-pyramids)(矩阵型金字塔)和T型金字塔(T-pyramids)(树形金字塔)。
M型金字塔是一个图像序列,其中是具有与原图像同样的分辨率和元素的图像,是降低一半分辨率得到的图像。当创建金字塔3,通常只考虑维数是2的幂的方阵,这时则仅对应于一个像素。
当需要对图像的不同分辨率同时进行处理时,可以采用M型金字塔。分辨率每降低一层,数据量则减少4倍,因而处理速度差不多也提高4倍。
通常同时使用几个分辨率比仅使用M型金字塔中的一个图像要优越。对于这类算法,则可用T型金字塔,树状结构。在T型金字塔中,除了根(0,0,0)之外的所有结点都有定义。除了叶子结点外,T型金字塔的每个结点都有4个结点;叶子结点是第L层的结点,对应于图像的单个像素。叶子结点的值就是原始图像在最高分辨率下的图像函数的值(亮度),图像的尺度是。树的其他层结点的数值或者是四个子结点的算数平均值,或者是由粗采样定义的值。
4.3.2 四叉树
四叉树是对T型金字塔的改进。
优点:对于图像相加、物体面积计算和统计矩(moments)计算存在简单的算法。
缺点:依赖于物体的位置、方向和相对大小。两个仅有微小差别的相似图像可能会具有非常不同的金字塔或四叉树表示。甚至,完全相同而只有略微移动的景物的两幅图像也可能产生完全不同的表示。