绪论

数字图像处理方法的重要性源于两个主要应用领域：改善图示信息以便人们解释；为存储、传输和表示而对图像数据进行处理，以便机器自动理解。

1、数字图像

自然界中的图像都是模拟量，在计算机普遍应用之前，电视、电影、照相机等图像记录与传输设备都是使用模拟信号对图像进行处理。但是，计算机只能处理数字量，而不能直接处理模拟图像。所以我们要在计算机处理图像之前进行图像数字化处理。

1.1、什么是数字图像

简单的说，数字图像就是能够在计算机上显示和处理的图像，可根据其特征分为两大类——位图和矢量图。位图通常使用数字阵列来表示，常见的格式有 BMP、JPG、GIF 等；矢量图由矢量数据库表示，我们接触最多的就是 PNG 图形。

一幅图像可定义为一个二维函数 f(x,y)，其中 x 和 y 是空间（平面）坐标，而在任何一对空间坐标（x,y）处的幅值 f 称为图像在该点处的强度、亮度或灰度。当 x,y 和灰度值 f 是非负有限的离散数值时，我们称该图像为数字图像（位图）。

注意，数字图像处理是由有限数量的元素组成，每个元素都有一个特定的位置和幅值。这些元素称为图画元素、图像元素或像素。像素是广泛用于表示数字图像元素的术语。例如，一个大小为 M×N 数字图像是由 M 行 N 列的有限元素组成，每个元素都有特定的位置和幅值，代表了其所在行列位置上的图像物理信息，如灰度和色彩等。这些元素称为图像元素或像素。

1.2、数字图像的显示

不论是 CRT 显示器还是 LCD 显示器，都是由许多点构成，显示图像时这些点对应着图像的像素，称显示器为位映像设备。所谓位映像设备，就是一个二维的像素矩阵，而位图也就是采用位映像方法显示和存储的图像。当一幅数字图像被放大后就可以明显地看出图像是由很多的方格形状的像素构成的。

1.3、数字图像的分类

根据每个像素所代表的信息的不同，可将图像分为二值图像、灰度图像、RGB 图像以及索引图像等。

1.3.1、二值图像

每个像素只有黑、白两种颜色的图像称为二值图像。在二值图像中，像素只有 0 和 1 两种取值，一般用 0 来表示黑色，用 1 表示白色。

1.3.2、灰度图像

在二值图像中进一步加入许多介于黑色与白色之间的颜色深度，就构成了灰度图像。这类图像通常显示为从最暗黑色到最亮的白色的灰度，每种灰度（颜色深度）称为一个灰度级，通常用 L 来表示。在灰度图像中，像素可以取 0~L-1 之间的整数值，根据保存灰度值所使用的数据类型的不同，可能有 256 种取值或者说 2^k 种取值，当 k=1 时即退化为二值图像。

1.3.3、RGB 图像

众所周知，自然界中几乎所有颜色都可以由红（Red，R）、绿（Green，G）、蓝（Blue，B）3 种颜色组合而成，通常称它们为 RGB 三原色。计算机显示彩色图像时采用最多的就是 RGB 模型，对于每个像素，通过控制 R、G、B 三原色的合成比例决定该像素的最终显示颜色。

对于三原色 RGB 中的每一种颜色，可以像灰度图那样使用 L 个等级来表示含有这种颜色成分的多少。例如对于含有 256 个等级的红色，0 表示不含红色成份，255 表示含有 100% 的红色成份。同样，绿色和蓝色也可以划分为 256 个等级。这样每种原色可以用 8 位二进制数据表示，于是三原色总共需要 24 位二进制数，这样能够表示出的颜色种类数目为 256×256×256=2^24，大约有 1600 万种，已经超过了普通人所能分辨出的颜色数目。

RGB 颜色代码可以使用十六进制数减少书写长度，按照两位一组的方式依次书写 R、G、B 三种颜色的级别。例如，0xFF0000 代表纯红色，0x00FF00 代表纯绿色，而 0x00FFFF 是青色。常见颜色的 RGB 组合值的表如下：

颜色	R	G	B
红（0xFF0000）	255	0	0
蓝（0x00FF00）	0	255	0
绿（0x0000FF）	0	0	255
黄（0xFFFF00）	255	255	0
紫（0xFF00FF）	255	0	255
青（0x00FFFF）	0	255	255
白（0xFFFFFF）	255	255	255
黑（0x000000）	0	0	0
灰（0x808080）	128	128	128

未经压缩的原始 BMP 文件就是使用 RGB 标准给出的 3 个数值来存储图像数据的，称为 RGB 图像。在 RGB 图像中每个像素都是用 24 位二进制数表示，故也称为 24 位真彩图像。

1.3.4、索引图像

如果对每个像素直接使用 24 位二进制数表示，图像文件的体积将变得十分庞大。来看一个例子，对一个长、宽各为 200 像素，颜色数为 16 的彩色图像，每个像素都用 RGB 3 个分量表示。这样每个像素由 3 字节表示，整个图像就是 200×200×3=120KB。这种未经压缩的表示方法浪费了大量的存储空间。所以就引出了另一种更为节省空间的存储方式：索引图像。

同样是对 200×200 像素的 16 色图像，由于这张图像最多只有 16 种颜色，那么可以用一张颜色表（16×3 的二维数组）保存这 16 种颜色对应的 RGB 值，在表示图像的矩阵中使用那 16 种颜色在颜色表中的索引（偏移量）作为数据写入相应的行列位置。这样一来，每一个像素所需要使用的二进制数就仅仅为 4 位（0.5 字节），从而整个图像只需要 200×200×0.5 = 20KB 就可以存储。

上文所提到的颜色表就是常说的调色板（Palette），另一种说法叫做颜色查找表（LUT：Look Up Table）。

1.4、数字图像的实质

更严格地说，数字图像可以是两个变量（对于静止图像）或 3 个变量（对于动态图像）的离散函数。在静态图像的情况下是 f(x,y)，而如果是动态图像画面，则还需要时间参数 t，即 f(x,y,t)；函数值可能是一个数值（对于灰度图像），也可能是一个向量（对于彩色图像）。

图像处理是一个涉及诸多领域的交叉学科，下面从不同的角度来审视数字图像：

从线性代数和矩阵论的角度，数字图像是由图像信息组成的二维矩阵，矩阵的每个元素代表对应位置上的图像亮度和/或色彩信息。当然，这个二维矩阵在数据表示和存储上可能不是二维的，这是因为每个单位位置的图像信息可能需要不只一个数值来表示，这样可能需要一个三维矩阵来对其进行表示。
由于随机变化和噪声的原因，图像在本质上是统计性的。因而有时将图像作为随机过程的实现来观察存在其优越性。这时有关图像信息量和冗余的问题可以用概率分布和相关函数来描述。例如，可以用熵 H 来度量图像的信息量。
从线性系统的角度考虑，图像及其处理也可以表示为用狄拉克冲激公式表达的点展开函数的叠加，在使用这种方式对图像进行表示时，可以采用成熟的线性系统理论研究。

1.5、数字图像的表示

为了表述像素之间的相对和绝对位置，我们通常还需要对像素的位置进行坐标的约定。

在这里插入图片描述

在这之后，一幅物理图就被转换成了数字矩阵，从而成为计算机能够处理的对象了。数字图像 f 的矩阵表示如下：
$x)=\left[\begin{array}{cccc} f(0,0) & \cdots & f(0, N-1) \\ \vdots & \cdots & \vdots \\ f(M-1,0) & \cdots & f(M-1, N-1) \end{array}\right]$
也可以使用传统的矩阵表示法来表示数字图像和像素。

其中行列（M 行 N 列）必须是正整数，而离散灰度级数目 L 一般为 2 的 k 次幂，k 为整数（因为使用二进制整数值来表示灰度值），图像的动态范围为 [0,L-1]，那么图像存储所需的比特数为 b = M×N×k。

1.6、图像的空间和灰度级分辨率

1.6.1、图像的空间分辨率

图像的空间分辨率是指图像中每单位长度所包含的像素或点的数目，常以**像素/英寸（ppi）**为单位来表示。如：72ppi 表示图像中每英寸包含 72 个像素或点。分辨率越高，图像越清晰，图像文件所需的磁盘空间也越大，编辑和处理所需的时间也越长。

像素越小，单位长度所包含的像素数据就越多，分辨率也就越高，但同样物理大小范围内所对应图像的尺寸也会越大，存储图像所需要的字节数也越多。因而，在图像的放大缩小算法中，放大就是对图像的过采样，缩小就是对图像的欠采样。

1.6.2、图像的灰度级/辐射计量分辨率

在数字图像处理中，灰度级分辨率又称为色阶，是指图像中可分辨的灰度级数目，即前面提到的灰度级数目 L，它与存储灰度级别所使用的数据类型有关。由于灰度级度量的是投射到传感器上的光辐射值的强度，所以灰度级分辨率也叫辐射计量分辨率。

随着图像的灰度级分辨率逐渐降低，图像中包含的颜色数目变少，从而在颜色的角度造成图像信息受损，同样使图像细节表达受到一定影响。

在这里插入图片描述

2、数字图像处理与识别

2.1、从图像处理到图像识别

2.1.1、数字图像处理

数字图像处理（Digital Image Processing）就是指使用电子计算机对量化的数字图像进行处理，具体地说就是通过图像进行各种加工来改善图像的外观，是对图像的修改和增强。

图像处理的输入是从传感器或其他来源获取的原始的数字图像，输出的是经过处理后的输出图像。处理的目的可能是使输出的图像具有更好的效果，以便于人的观察；也可能是为图像分析和识别做准备，此时的图像处理是作为一种预处理步骤，输出的图像将进一步供其他图像分析、识别算法使用。

2.1.2、数字图像分析

数字图像分析（Digital Image Analyzing）是指对图像中感兴趣的目标进行检测和测量，以获得客观的信息。数字图像分析通常是指将一幅图像转换为另一种非图像的抽象形式，如图中某物体与测量者的距离以及目标对象的计数或其尺寸等。这一概念的外延包括边缘检测和图像分割、特征提取以及几何测量与计数等。

图像分析的输入是经过处理的数字图像，其输出通常不再是数字图像，而是一系列与目标相关的图像特征（目标的描述），如目标的长度、颜色、曲率和个数等。

2.1.3、数字图像识别

数字图像识别（Digital Image Recognition）主要研究图像中各目标的性质和互相关系，识别出目标对象的类别，从而理解图像的含义。

图像识别是图像分析的延伸，它根据从图像分析中得到的相关描述（特性）对目标进行归类，输出我们感兴趣的目标类别标号信息（符号）。

总的来说，从图像处理到图像分析再到图像识别这个过程，是一个将所含信息抽象化，尝试降低信息熵，提炼有效信息的过程。

在这里插入图片描述

2.2、数字图像处理与识别的应用实例

相关领域	典型应用
安全监控	指纹验证，基于人脸识别的门禁系统
工业控制	产品无损检测，商品自动分类
医疗保健	X 光照片增强，CT，核磁共振，病灶自动检测
生活娱乐	基于表情识别的笑脸自动检测，汽车自动驾驶，手写字符识别

2.3、数字图像处理与识别的基本步骤

图像的点运算通过灰度变换可有效改善图像的外观，并在一定程度上实现图像的灰度归一化。有很多基于图像点运算的处理方法，如图像拉伸、对比度增强、直方图均衡以及直方图匹配等。
图像的几何变换主要应用在图像的几何归一化和图像校准当中。
图像增强，可理解为根据特定的需求突出一幅图像中的某些信息，同时削弱或去掉某些不需要的信息的处理方法。其主要目的是使处理后的图像对某种特定的应用来说，比原始图像更适用。作为图像处理中一个相当主观的领域，图像增强是以下多种图像处理方法的前提和基础，也是在图像获取后的先期步骤。
小波变换伴随着人们对图像压缩、边缘和特征检测以及纹理分析的需求的提高应运而生。傅里叶变换一直是频率域图像处理的基石，它能用正弦函数之和表示任何分析函数，而小波变换则基于一些有限宽度的基小波，这些小波不仅在频率上是变化的，而且具有有限的持续时间。
图像复原与图像增强类似，其目的是改善图像质量。但是图像复原是试图利用退化过程的先验知识使已被退化的图像恢复本来面目，而图像增强是用某种试探的方式改善图像质量，以适应人眼的视觉与心理。引起图像退化的因素包括由光学系统、运动等造成的图像模糊，以及源自电路和光学因素的噪声等。图像复原是基于图像退化的数学模型，复原的方法也建立在比较严格的数学推导上。
彩色图像处理实际上从图像的类型分类，主要包括对全彩图像的处理，也包括灰度图像的伪彩色化。更复杂。
形态学图像处理是一种将数学形态学推广应用于图像处理领域的新方法，是一种基于物体自然形态的图像处理分析方法。而形态学的概念最早起源于生物学，是一门生物学中研究动物和植物结构的一个分支科学。数学形态学（也称为图像代数）则是一种以形态为基础对图像进行分析的数学工具，其基本思想是用具有一定形态的结构元素去度量和提取图像中的对应形状以达到对图像分析和识别的目的。图像形态学往往用于边界提取、区域填充、连通分量的提取、凸壳、细化、像素化等图像操作。
图像分割是指将一幅图像分解为若干个互不交叠区域的过程，分割出来的区域需要同时满足均匀性和连通性的条件。目标的表示与描述是指目标区域的像素或区域边界的像素标出这一目标，并且对目标进行抽象描述，使计算机能充分利用所获得的处理分割结果。
特征提取指的是进一步处理之前得到的图像区域和边缘，使其成为一种更适合于计算机处理的形式。我们研究如何从图像中提取有用的数据或信息，得到的图像的 “非图像” 的表示或描述，如数值、向量和符号等，这一过程就是特征提取，而提取出来的这些 “非图像” 的表示或描述就是特征。有了这些数值或向量形式特征我们就可以通过训练过程教会计算机如何懂得这些特征，从而使计算机具有了识别图像的本领。常用的图像特征有：纹理特征、形状特征、空间关系特征等。
对象识别一般是指利用前一步从数字图像中提取的特征向量进行分类和理解的过程，这涉及计算机技术、模式识别、人工智能等多方面的知识。这一步骤建立在前面诸多步骤之上，用以向上层控制算法提供最终所需的数据或直接报告识别结果。事实上，对象识别已经上升到机器视觉的层面了。

3、数字图像处理的预备知识

3.1、邻接性、连通性、区域和边界

相邻像素的概念。依据标准的不同，我们关注像素 P 的 4 邻域和 8 邻域：

在这里插入图片描述

3.1.1、邻接性

定义 V 是用于决定邻接性的灰度值集合，它是一种相似性的度量，用于确定所需判断邻接性的像素之间的相似程度。

例如在二值图像中，如果我们认为只有灰度值为 1 的像素是相似的，则即 V = {1}，当然相似性的规定具有主观标准，因此也可以认为 V = {0,1}，此时邻接性完全由位置决定；而对于灰度图像，这个集合中则很可能包含更多的元素。此外，定义对角邻接域 ND§ 为 8-邻域中不属于 4-邻域的部分，那么：

4 邻接：如果
$\in N_{4}(P)$
则称具有 V 中数值的两个像素 P 和 Q 是4 邻接的。
8 邻接：如果
$\in N_{8}(P)$
则称具有 V 中数值的两个像素 P 和 Q 是 8 邻接的。

举例来说，下图分别是像素和 Q、Q1、Q2 的 4 邻接和 8 邻接示意图。而对于两个图像子集 S1 和 S2，如果 S1 中的某些像素和 S2 中的某些像素相邻，则称这两个子集是邻接的。

在这里插入图片描述

3.1.2、连通性

像素的通路像素 P 到像素 Q 的通路（Path）指的是一个特定的像素序列 (x0,y0),(x1,y1),…,(xn,yn)，其中 (x0,y0) = (xp,yp)，(xn,yn) = (xq,yq)。并且像素 (xi,yi) 和 (xi-1,yi-1) 在满足 1<= i <= n 时是邻接的。通过上面的定义，n 是通路的长度，若 (x0,y0) = (xn,yn)，则称这条通路是闭合通路。

像素的连通性令 S 代表一幅图像中的像素子集。如果在 S 中全部像素之间存在一个通路，则可以称两个像素 P 和 Q 在 S 中是连通的。此外，对于 S 中的任何像素 P，S 中连通到该像素的像素集叫做 S 的连通分量。如果 S 中仅有一个连通分量，则集合 S 叫做连通集。

3.1.3、区域和边界

**区域（Region）**的定义是建立在连通集的基础上的。

区域如果 R 同时是连通集，则称 R 为一个区域（Region）。

**边界（Boundary）**的概念是相对于区域而言的。

边界一个区域的边界（或边缘、轮廓）是区域中所有有一个或多个不在区域 R 中的邻接像素的像素所组成的集合。

显然，如果区域 R 是整幅图像，那么边界就由图像的首行、首列、末行和末列定义。通常情况下，区域指的是一幅图像的子集，并包括区域的边缘。而区域的边缘（Edge）由具有某些导数值的像素组成，是一个像素及其直接邻域的局部性质，是一个有大小和方向属性的矢量。

边界和边缘是不同的。边界是和区域有关的矢量，而边缘表示的图像函数的局部性质。

3.2、距离度量的几种方法

假设对于像素 P(xp,yp)，Q(xq,yq)，R(xr,yr) 而言，有函数 D 满足如下 3 个条件，则函数 D 可被称为距离函数或度量。

D(P,Q) >= 0，当且仅当 P = Q 时有 D(P,Q) = 0；
D(P,Q) = D(Q,P)；
D(P,Q) <= D(P,R) + D(R,Q)。

常见的几种距离函数如下：

欧式距离
$D_{e}(P, Q)=\sqrt{\left(x_{p}-x_{p}\right)^{2}+\left(y_{p}-y_{p}\right)^{2}}$

即距离等于 r 的像素形成以 P 为圆心的圆。

D4 距离（街区距离）
$D_{4}(P, Q)=\left|x_{p}-x_{q}\right|+\left|y_{p}-y_{q}\right|$
即距离等于 r 的像素形成以 P 为中心的菱形。
D8 距离（棋盘距离）
$D_{8}(P, Q)=\max \left(\left|x_{p}-x_{q}\right|+\left|y_{p}-x_{q}\right|\right)$
即距离等于 r 的像素形成以 P 为中心的方形。

3.3、基本的图像操作

按照处理图像的数量分类，可以分为对单幅图像操作（如滤波）和对多幅图像的操作（如求和、求差和逻辑运算等）；按照参与操作的像素范围的不同，可以分为点运算和邻域运算；而根据操作的数学性质，又可分为线性操作和非线性操作。

图像处理学习笔记之——绪论

绪论

1、数字图像

1.1、什么是数字图像

1.2、数字图像的显示

1.3、数字图像的分类

1.3.1、二值图像

1.3.2、灰度图像

1.3.3、RGB 图像

1.3.4、索引图像

1.4、数字图像的实质

1.5、数字图像的表示

1.6、图像的空间和灰度级分辨率

1.6.1、图像的空间分辨率

1.6.2、图像的灰度级/辐射计量分辨率

2、数字图像处理与识别

2.1、从图像处理到图像识别

2.1.1、数字图像处理

2.1.2、数字图像分析

2.1.3、数字图像识别

2.2、数字图像处理与识别的应用实例

2.3、数字图像处理与识别的基本步骤

3、数字图像处理的预备知识

3.1、邻接性、连通性、区域和边界

3.1.1、邻接性

3.1.2、连通性

3.1.3、区域和边界

3.2、距离度量的几种方法

3.3、基本的图像操作

猜你喜欢