【期末复习】多媒体技术

参考博客：多媒体技术期末复习题、《多媒体信息技术》复习思考题

考试重点：
1、JPEG压缩编码算法实现步骤
2、APCM、DPCM、ADPCM的区别
3、哈夫曼编码计算（画哈夫曼树，计算码长）
4、颜色空间转换（RGB与CMY（还是YUV）之间）
5、MPEG的三种类型（I帧、P帧、B帧）

第一章多媒体技术概述

一、多媒体的类型

感觉媒体：直接作用于人的感官，使人直接产生感觉
表示媒体：是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体，即各种编码。
显示媒体：是指感觉媒体与用于通信传输的电信号之间转换的一类媒体，即感觉媒体与计算机的界面。又可分为两种：输入显示媒体和输出显示媒体。
存储媒体：又称存储介质，保存表示媒体的介质。
传输媒体：传输的物理载体，即用来将媒体从一处传送到另一处的物理载体

二、多媒体的定义

多媒体技术是利用计算机技术对多种信息进行综合处理、建立逻辑关系，集成为一个具有交互性的系统。

三、多媒体的关键技术

a、视频音频数据压缩/解压缩技术（如今已有压缩编码/解压缩编码的国际标准JPEG和MPEG）

b、多媒体专用芯片技术（专用芯片是多媒体计算机硬件体系结构的关键，一种是固定功能的芯片；另一种是可编程的数字信号处理器（DSP）芯片）

c、大容量信息存储技术（利用数据压缩技术，在一张CD-ROM光盘上能够存取70多分全运动的视频图像或者十几个小时的语言信息或数千幅静止图像）

d、多媒体输入与输出技术（包括媒体变换技术、媒体识别技术、媒体理解技术和综合技术）

e、多媒体软件技术（多媒体操作系统、多媒体素材采集与制作技术、多媒体编辑与创作工具、多媒体数据库技术、超文本/超媒体技术、多媒体应用开发技术）

f、多媒体通信技术（是多媒体技术与通信技术的有机结合，突破了计算机、通信、电视等传统产业间相对独立发展的界限，是计算机、通信和电视领域的一次革命）

g、虚拟现实技术（利用计算机技术生成的一个逼真的视觉、听觉触觉及嗅觉等得感觉世界，用户可以用人的自然技能对这个生成的虚拟实体进行交互考察）

四、多媒体的特征

1、多维化 ——指计算机处理媒体信息的多样化，它使人与计算机之间的交互不再局限于顺序的、单调的、狭小的范围，而有充分自由的余地。

2、集成性——媒体种类一体化。一方面是指能将各种不同的媒体信息有机地进行同步组合，形成多媒体信息；另一方面是指把不同的媒体设备集成在一起，形成多媒体系统。

3、交互性——人、机对话，是多媒体技术的最关键特征。在多媒体系统中的综合处理上控制自如。

4、数字化——媒体以数字形式存在。

5、实时性——声音、动态图像(视频)随时间变化。

五、信息媒体

1、文本(Text)：TXT、RTF、DOC

2、音频(Audio)：WAV（波形文件）、MIDI、MP3（压缩音频文件）、AIFF（音频交换文件格式，.AIF/.AIFF）、VOC、RealAudio文件（.RA/.RM/.RAM）

3、图像(Image)：BMP（位图）、JPG（JPEG格式，后缀名为.jpg或.jpeg，为有损压缩）、PCD（影像压缩，用于在CD-ROM上保存图片）、PSD（PSD/PDD是Photoshop的专用格式，PSD文件可以存储成RGB或CMYK模式）、TIF（图像文件格式，位图）

4、图形(Graphic)：Quartus、Visio、Auto CAD、3DMAX

5、动画(Animation)：GIF (Graphics Interchange Format帧动画)、Flash (矢量动画)

6、视频(Video)：MPEG（有损压缩，.MP1/.MP2/.MP3）、AVI（音频视频交错格式，主要应用在多媒体光盘上，用来保存电视、电影等各种影像信息）、MOV (后缀名·mov) 、DAT (数字录音带，VCD MPEG-1)

【补充】：MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度，利用DCT技术以减小图像的空间冗余度，利用熵编码则在信息表示方面减小了统计冗余度。

六、课内习题

1、选择题
1-1．媒体中的__B___是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体，如文字、音频、图像和视频等的数字化编码表示等。
(A) 感觉媒体 (B) 表示媒体
© 显示媒体 (D) 存储媒体

1-2．多媒体技术的主要特性有____D____。
(1) 多样性 (2) 集成性 (3) 交互性 (4) 实时性
(A) 仅(1) (B)(1)+(2)
© (1)+(2)+(3 ) (D) 全部

1-3.以下哪些属于计算机多媒体的范畴？（B）
（1）交互式视频游戏（2）会声会影
（3）彩色画报（4）彩色电视
（A）仅（1） (B)(1)+(2)
© (1)+(2)+(3 ) （D）全部

1-4．一般认为，多媒体技术研究的兴起从___B_____开始。
(A) 1972年，Philips 展示播放电视节目的激光视盘。
(B) 1984年，美国Apple公司推出Macintosh系列机。
© 1986年， Philips和Sony公司发明了交互式光盘系统CD-I
(D) 1987年，美国RCA公司展示了交互式数字影像系统DVI。

二、填空题
1-7．媒体有两种含义，即表示信息的载体和_________。

1-8．多媒体技术是将_______融合在一起的新技术。

1-9．多媒体技术交互式应用的高级阶段是_______。

1-7.存储信息的实体 1-8. 计算机技术、视听技术和通信技术 1-9．虚拟现实

七、练习题

1、MPC（Multimedia Personal Computer）与PC的主要区别是增加了（ B ）。

A. 存储信息的实体 B. 视频和音频信息的处理能力

C. 光驱和声卡 D. 大容量的磁介质和光介质

MPC（Multimedia Personal Computer）多媒体个人电脑

2、CD光盘上记录信息的轨迹叫光道，信息存储在（C ）的光道上。

A. 一条圆形 B. 多条同心环形 C. 一条渐开的螺旋形 D. 多条螺旋形

3、DVD-ROM的光盘最多可存储17GB的信息，比CD-ROM光盘的650MB大了许多。DVD-ROM光盘是通过（ B ）来提高存储容量的。

A. 减小读取激光波长，减小光学物镜数值孔径
B. 减小读取激光波长，增大光学物镜数值孔径
C. 增大读取激光波长，减小光学物镜数值孔径
D. 增大读取激光波长，增大光学物镜数值孔径

4、为保证用户在网络上边下载边观看视频信息，需要采用（A ）技术。
A. 流媒体 B. 数据库 C. 数据采集 D. 超链接

流媒体 (Streaming Media)技术是指将一连串的媒体数据压缩后，以流的方式在网络中分段传送，实现在网络上实时传输影音以供观赏的一种技术。

5、（ B ）通过手指上的弯曲传感器、扭曲传感器和手掌上的弯度传感器、弧度传感器，来确定手及关节的位置和方向，从而实现环境中的虚拟手及其对虚拟物体的操纵。
A. 跟踪球 B. 数据手套 C. 头盔显示器 D. 立体眼镜

6、Internet应用中的虚拟现实语言是（ B ）。
A. Java B.VRML C. HTML D. C#

7、在显存中，表示黑白图像的像素点数据最少需（A ）位。
A. 1 B. 2 C. 3 D. 4

8、双层双面的只读DVD盘片的存储容量可以达到（ C ）。
A. 4.7GB B. 8.5GB C. 17GB D. 6.6GB

9、在对彩色电视信号进行数字化的过程中，图像子采样能够减少（ B ）的采样频率，从而达到减少数据量的目的。
A.亮度信号 B.色差信号 C.同步型号 D.消隐信号

10、人眼看到的任一色彩都是亮度、色调和饱和度3个特性的综合效果，其中（ A ）反映的是颜色种类。
A．色调 B．饱和度 C．灰度 D．亮度

色调——波长，如红色、绿色、蓝色；冷色、暖色
饱和度——颜色的纯度
亮度——图像亮度或图像灰度

11、图像文件格式分为静态图像文件格式和动态图像文件格式，（C ）属于静态图像文件格式。
A．MPG文件格式 B．AVS文件格式 C．JPG文件格式 D．AVI文件格式

静态图像文件格式：GIF、TIF、BMP、PCX、JPG、PSD
动态图像文件格式：AVI、MPG、AVS

12、下列哪种说法不正确（ A ）。
A. 预测编码是一种只能针对空间冗余进行压缩的方法
B. 预测编码是根据某一模型进行的
C. 预测编码需要将预测的误差进行存储或运输
D. 预测编码中典型的压缩方法有DPCM、ADPCM

预测编码是根据离散信号之间存在着一定关联性的特点，利用前面一个或多个信号预测下一个信号进行，然后对实际值和预测值的差（预测误差）进行编码。

13、在MPEG中为了提高数据压缩比，采用的方法有（ C ）。
A. 运动补偿的运动估计 B. 减少时域冗余与空间冗余
C. 帧内图像数据与帧间图像数据压缩 D. 向前预测与向后预测

14、视频卡中的信号获取部分包括A/D变换和数字解码、窗口控制器以及存储器系统，其中帧存储器存储的信号为（ A ）
A．数字的YUV信号 B．模拟的RGB信号
C．模拟的YUV信号 D．数字的RGB信号

15、视频采集卡能支持多种视频源输入，下列哪些是视频采集卡支持的视频源（ C ）。
① 放像机 ② 摄像机 ③ 影碟机 ④ CD-ROM

A. ① B. ①② C. ①②③ D. 全部

16、哈夫曼编码采用的是（ C ）编码原理。
A. 平均码长 B. 自适应码长 C. 字变长 D. 等字长

17、在动画制作中，一般帧速选择为（A ）。
A. 30帧/秒 B. 60帧/秒 C. 120帧/秒 D. 90帧/秒

18、多媒体应用系统创作软件分为基于程序语言、基于流程图和（ A ）3类。
A. 基于时间 B. 基于算法 C. 基于方位 D. 基于系统

第二章多媒体硬件环境

一、学习目标

熟悉多媒体计算机系统的组成
掌握声卡和显卡的功能和基本原理
掌握光存储器和常用外部设备的工作原理、功能和特点
理解多媒体数据采集的方法和不失真采样的原理

二、MPC系统的组成结构

在这里插入图片描述

三、声卡

1、声卡的技术指标

（1）采样频率和量化位数

（2）MIDI合成方式

（3）DSP数字信号处理器

（4）音频压缩

2、声卡的声道数

（1）单声道与立体声

（2）四声道环绕

（3）5.1声道

四、音频信号数字化

（一）数字音频

数字音频是一个数据序列，在时间上是断续的。

数字音频是通过采样和量化，把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。
数据进行压缩。

（二）音频信号数字化的步骤

1、取样：对连续信号按一定的时间间隔取样。

取样（也称采样）是将时间上连续变化的信号，转换为时间上离散的信号，即将时间上连续变化的模拟量转换为一系列等间隔的样值脉冲，脉冲的幅度取决于输入模拟量。

奈奎斯特取样定理认为，只要取样频率大于等于信号中所包含的最高频率的两倍，则可以根据其取样完全恢复出原始信号，这相当于当信号是最高频率时，每一周期至少要采取两个点。但这只是理论上的定理，在实际操作中，人们用混叠波形，从而使取得的信号更接近原始信号。

2、量化：取样的离散音频要转化为计算机能够表示的数据范围，这个过程称为量化。

量化的等级取决于量化精度，也就是用多少位二进制数来表示一个音频数据。

一般有8位，12位或16位。量化精度（量化位数）和采样频率越高，声音的保真度越高。

以8位的举例稍微说明一下其中的原理。若一台计算机能够接收八位二进制数据，则相当于能够接受256个十进制的数，即有256个电平数，用这些数来代表模拟信号的电平，可以有256种，但是实际上采样后的某一时刻信号的电平不一定和256个电平某一个相等，此时只能用最接近的数字代码表示取样信号电平。

取样保持得到阶梯波，可以连续取值，但n位数字量只能表示2n个数值。需将阶梯电平归属到与之接近的离散电平上，这个过程称为量化。

离散电平称为量化电平。位数越多，量化越精细。取样保持后未量化的电平与量化电平差值称为量化误差。

采样和量化的过程可由A/D转换器实现。
用二进制数码来表示各个量化电平的过程称为编码。

3、编码：对音频信号取样并量化成二进制，但实际上就是对音频信号进行编码。

但用不同的取样频率和不同的量化位数记录声音，在单位时间中，所需存贮空间是不一样的。

波形声音的主要参数包括：取样频率、量化位数、声道数、压缩编码方案和数码率等

未压缩前，波形声音的码率计算公式为：波形声音的码率=取样频率×量化位数×声道数/8。（单位B）

波形声音的码率一般比较大，所以必需对转换后的数据进行压缩。

（三）均匀量化与非均匀量化

1、均匀量化：

采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化。
在这里插入图片描述 2、非均匀量化：

大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。

对微小信号采用细量化（Δ小），对大幅度信号，采用粗量化（Δ大）的方法。

在这里插入图片描述
3、非均匀采样：

非均匀采样有时又称为随机采样。

均匀采样的采样时间间隔是完全相等，而非均匀采样的采样时间间隔是不确定的，完全随机。

（四）例子

1、在音频处理中，人耳所能听见的最高声频大约可设定为22kHz。所以，在音频处理中对音频的最高标准采样频率可取为22kHz的（ d ）倍。

A. 0.5 B. 1 C. 1.5 D. 2

奈奎斯特取样定理认为，只要取样频率大于等于信号中所包含的最高频率的两倍，则可以根据其取样完全恢复出原始信号。

2、在数字视频信息获取与处理过程中，下述顺序（ C ）是正确的。

A. A/D变换、采样、压缩、存储、解压缩、D/A变换

B. 采样、压缩、A/D变换、存储、解压缩、D/A变换

C. 采样、A/D变换、压缩、存储、解压缩、D/A变换

D. 采样、D/A变换、压缩、存储、解压缩、A/D变换

（五）A/D转换器的主要电路形式

A/D转换器有直接转换法和间接转换法两大类。

直接法是通过一套基准电压与取样保持电压进行比较，从而直接将模拟量转换成数字量。其特点是工作速度高，转换精度容易保证，调准也比较方便。直接A/D转换器有计数型、逐次比较型、并行比较型等。

间接法是将取样后的模拟信号先转换成中间变量时间t或频率f, 然后再将t或f转换成数字量。其特点是工作速度较低，但转换精度可以做得较高，且抗干扰性强。

五、例题

例1、30秒钟双声道、16位采样位数、22.05kHz采样频率声音的不压缩的数据量？( B )

A. 1.26MB B. 2.52MB C. 3.52MB D. 25.20MB

音频文件大小(单位Byte)=(量化位数×采样频率×声道数×持续时间)/8

数据传输率＝采样频率×量化位数×声道数
音频文件大小＝数据传输率×播放时间
16220502*30/8=2646000B=2646000/(1024^2)MB=2.52MB

例2、使用300dpi的扫描分辨率扫描一副6×8英寸的彩色图像，可以得到一副（ C ）像素的图像。

A. 300 B. 6×8 C. 1800×2400 D.300×6×8

显示器是由一个个像素点(pixel)所组成的，一般所说的显示器分辨率是1280x720就表示这个显示器水平方向有1280个像素，垂直方向上有720个像素。

但是并非分辨率越高屏幕显示效果越好，还需要根据屏幕的大小来决定。

也就是要看像素的密度(pixel density)，即每英寸有多少个像素，这个指标就是DPI(Dots Per
Inch)或者PPI(Pixels Per Inch)，即英尺屏幕上像素或者是点的个数。

例3、使用200dpi 的扫描分辨率扫描一副2×2.5英寸的黑白图像，可以得到一副（ C ）像素的图像。

A. 200×2 B. 2×2.5 C.400×500 D.800×1000

例4、20秒钟NTSC制640×480分辨率24位真彩色数字视频的不压缩的数据量是多少？( A )

A. 527.34MB B. 52.73MB C. 500.20MB D. 17.58MB

例5、一幅分辨率为640×480的真彩色图像占用的存储空间为（D ）。

A. （640×480×8）/8 B B. （640×480×3×8）B

C. （640×480×3×8）/2 B D. （640×480×3×8）/8 B

首先必须明白，图片的每个像素所占的位数。　　
每个像素的位数，大体有如下几类。
1位（单色）；4位（16色）；8位（2^8=256色）；

16位（64K色，高彩色）；24位（2^24=16M色，真彩色）；32位（4096M色，增强型真彩色）。

1Byte=8bits，像素总数为640×480个像素，由于该图片是真彩色，则每个像素占24位，该图片一共占640×480×3×8bits，再除以8得到的单位为B（字节）。

【解题方法】：

①首先计算出该图片的大小为多少个Bit
　　拿例题一来计算，就等于：
　　Ａ、像素总数为：８００×６００＝４８００００个像素
　　Ｂ、由于该图片是２５６色的，因此，每个像素占８个Bit。
　　所以，该图片所占的总的Bit大小为：
　　８００×６００×８＝３８４００００Bit
②计算图片所占的磁盘存储空间
　　使用总的Bit数转换成为相应的KB、MB、GB等，就可以计算出结果了。
　　1Byte=8bit　1Kb=1024B　1Mb=1024KB
８００×６００×８　现在单位为Bit
　　８００×６００×８÷８　现在单位为Byte
　　８００×６００×８÷８÷１０２４=468.75KB　现在单位为KB

例6、某数码相机的分辨率设定为1600×1200像素，颜色深度为24位，若不采用压缩存储技术，则32MB的存储卡最多可以存储（ B ）张照片。

A. 3 B. 5 C. 10 D. 17

24位的颜色深度为真彩色单张照片所占存储空间1600×1200×24bits=46080000bits=5.5MB
32M/5.5M=5.8张

第三章数据压缩技术

一、概述

1、多媒体应用普及的难题：海量数据的存储、处理和传输。
2、解决途径：
① 大容量的光盘存储技术（如：CD-ROM）
② 高速CPU／Cache／图形加速器 — 芯片集成
③ 宽带高速网络通信技术
④ 数据压缩技术（软件算法，专用芯片）

3、数据压缩的基本原理

压缩目的：① 减少存储量，以节省存储开销
② 降低实时传输量，以提高数据传输效率
为什么可以压缩
经研究发现，与音频数据一样，图像数据中存在着大量的冗余。通过去除多媒体那些冗余数据可以极大地降低原始图像数据量，从而解决图像数据量巨大的问题。

二、数据压缩的可能性

各种媒体数据内部存在冗余(相关性)。所以可采用不同编码与解码算法以减弱相关性，达到压缩目的。

数据冗余类型：是有效采用各种压缩算法的基本依据。

（1）空间冗余

相邻区域图像灰度或颜色等特性基本相同。

空间冗余是静态图像中存在的最主要的一种数据冗余。

例：像素点P(x,y)具有邻域强相关性 — 空间冗余
在这里插入图片描述
（2）时间冗余

① 相邻帧间或相邻音域间是渐变的或局部相同的；时间冗余是序列图像中经常包含的冗余。
② 人眼视觉暂留特性

例：F1和F2间时域相关 — 具有时间冗余

在这里插入图片描述

（3）熵冗余：编码符号序列中的码字冗余，称信息熵冗余

（4）其它冗余：结构冗余(如纹理)、知识冗余(如人脸)、视觉冗余

【例题】：图象序列中的两幅相邻图象，后一幅图象与前一幅图象之间有较大的相关，这是：（ B ）

A. 空间冗余 B. 时间冗余 C. 信息熵冗余 D. 视觉冗余

三、数据压缩技术的指标

(1) 压缩比

输出数据与输入数据之比。

(2) 压缩质量

压缩分为有损压缩和无损压缩；

有损压缩采用主观(感受)和客观方式（信噪比等）。

(3) 压缩和解压缩速度

与压缩和解压缩算法密切相关

(4) 压缩和解压缩标准化

四、压缩模型的构成原理

数据压缩的基本思想：

针对数据冗余类型采用合适的压缩方法；建立以少代多或以局部代全体的数据变换关系，从而以最少的数码表示信号。

⑴ 空间压缩：把相同视觉区当作一个整体进行表示。
⑵ 时间压缩：把连续帧间的相同部分或渐变过程中的相似部分当作一个整体，用极少的数据量表示。

五、数据压缩方法（根据信息是否有损失）

（1）无损压缩

无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩)，重构后的数据与原来的数据完全相同。
无损压缩用于要求重构的信号与原始信号完全一致的场合。

一个很常见的例子是磁盘文件的压缩。根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/2～1/4.一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)压缩算法。

无损压缩：Huffman编码、游程编码、算术编码、词典编码

（2）有损压缩

有损压缩是指使用压缩后的数据进行重构，重构后的数据与原来的数据有所不同，但不影响人对原始资料表达的信息造成误解。
有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。

例如，图像和声音的压缩就可以采用有损压缩，因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息，丢掉一些数据而不至于对声音或者图像所表达的意思产生误解，但可大大提高压缩比。

有损压缩：预测编码、变换编码、模型编码、基于重要性的编码、混合编码（JPEG，MPEG）

（3）有损压缩和无损压缩的区别

有损压缩是对图像本身的改变，在保存图像时保留了较多的亮度信息，而将色相和色纯度的信息和周围的像素进行合并，合并的比例不同，压缩的比例也不同，由于信息量减少了，所以压缩比可以很高，图像质量也会相应的下降。
无损压缩是对文件本身的压缩，和其它数据文件的压缩一样，是对文件的数据存储方式进行优化，采用某种算法表示重复的数据信息，文件可以完全还原，不会影响文件内容，对于数码图像而言，也就不会使图像细节有任何损失。

六、数据压缩编码方法分类

在这里插入图片描述

（一）熵编码技术—哈夫曼编码

哈夫曼编码：无失真编码的优选算法；已用于JPEG标准的基本系统

Huffman算法设计过程：
① 统计信源符号出现的概率，以建立Huffman码表
② 把信源符号按概率递减排列，以建立Huffman树
③ 沿H树的路径赋予二进制值，以生成符号编码
④ 计算平均码长，以验证方案的合理性

（二）熵编码技术—行程编码

行程编码：适用于二值图像压缩，是传真编码的压缩方法；在JPEG编码中，用于处理DCT交流系数

行程：具有相同灰度值的连续符号位串长度；

编码格式：沿某一方向扫描时，对连续相同值的像素：用一个代表值和一个连续位串长度值来代替。即（像素的相同灰度值，像素元素的个数）。

算法原理：用一个符号值或串长代替具有相同值的连续符号（连续符号构成了一段连续的“行程”，行程编码因此而得名），使符号长度少于原始数据的长度。只在各行或者各列数据的代码发生变化时，一次记录该代码及相同代码重复的个数，从而实现数据的压缩。

（三）熵编码技术—算术编码

算术编码的基本思想：基于递归概率区间划分的二进制编码。

具体过程：
① 把信源符号序列{Xi|i=1,2,…,n}发生的概率
用实数区间[0，1]上的间隔（Xi的取值范围）来表示；
② 按符号概率大小来分配符号间隔，
使[0，1]随迭代计算次数的增加而逐次变窄；
③ 最后范围便是替代{Xi}符号串编码的取值范围。

（四）一些问题

例：和 Huffman 编码相比，算术编码有什么特点？

（1）从整个符号序列出发，采用递推形式连续编码的方法

（2）不存在源符号和码字间的一一对应关系

（3）1个算术码字要赋给整个信源符号序列，而每个码字本身确定了0和1之间的1个实数区间

（4）算术编码过程只需用到加法和移位运算

第四章声音编码压缩技术

一、学习目标

了解声音信号的特点、存储格式及质量的度量方法
理解音频信号压缩方法及音频编码标准

二、音频信号的分类

音频信号可分为两类：语音信号和非语音信号。
语音信号是语言的载体，是人类进行信息交流所特有的形式。
非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息，信息量低。

三、声音的频谱

声音的频谱有线性频谱和连续频谱之分。
线性频谱是具有周期性的单一频率声波；连续频谱是具有非周期性的带有一定频带所有频率分量的声波。

四、声音的A/D与D/A转换

转换就是把模拟信号转换成数字信号的过程。
这样做的好处是显而易见的，声音存储质量得到了加强，数字化的声音信息使计算机能够进行识别、处理和压缩。

五、衡量声音的质量

一是用声音信号的带宽来衡量声音的质量，等级由高到低依次是数字录音带DAT (48KHz)，CD (44.1KHz) ，FM (22.05KHz) ，AM (11.025KHz)和数字电话(8KHz) 。
第二种是信噪比。
第三种是主观质量度量。

六、音频信号压缩方法

（一）脉冲编码调制(PCM)

编译的原理：概念上最简单、理论上最完善的编码系统，它的原理框图下图所示。

在这里插入图片描述
三个步骤：

第一步是采样，就是每隔一段时间间隔读一次声音的幅度；
第二步是量化，就是把采样得到的声音信号幅度转换成数字值。量化可归纳为两类：一类称为均匀量化，另一类称为非均匀量化（大信号采用大的量化间隔，小信号采用小的量化间隔）。量化方法不同量化后的数据量也不同。因此，可以说量化也是一种压缩数据的方法；
第三步是编码，就是按一定格式记录采样和量化后的数据。

（二）增量调制(DM)

它是一种预测编码技术，是PCM编码的一种变形。

DM是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示。

在这里插入图片描述

（三）自适应脉冲编码调制（APCM）

根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。

这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是非瞬时自适应，即量化阶的大小在较长时间才发生变化。

改变量化阶大小的方法有两种：前向自适应和后向自适应 。

前者是根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端；
后者是从量化器刚输出的过去样本中来提取量化阶信息。

（四）差分脉冲编码调制(DPCM)

利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。

差分脉冲编码调制的思想是，根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。

它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值。

【思考】：APCM 与 DPCM 有什么异同

APCM是一种根据输入信号的幅度大小来改变量化阶距大小的编码技术，分为前向自适应和后向自适应编码两种类型。
而DPCM是根据样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术，它先对输入信号进行预测，计算预测值与真值之间的差，对差值进行编码。
两者各考虑了问题的一个方面，如提高量化的自适应性、减少信息冗余，未能全面考虑既提高自适应性又减少信息的冗余。将二者的结合形成了ADPCM压缩技术。

（五）自适应差分脉冲编码调制(ADPCM)

综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。

核心想法：

利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值；
使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。

（六）线性预测编码(LPC)

基本思想：声道是惰性腔体，不可能发生突变，因而话音信号具有短时间内的相关性。

通过分析话音波形来产生声道参数，对声音波形的编码就转化为对这些参数的编码，这就使声音的数据量大大减少。

过程：线性预测器是使用过去的P个样本值来预测现时刻的采样值，预测值可以用过去P个样本值的线性组合来表示。

（七）总结

在这里插入图片描述

第五章数字图像与视频技术

一、概述

光的物理性质：波长（光速，频率）和幅度
色彩的三要素, 人眼对色彩的感觉：色调(Hue)、饱和度(saturation)和亮度(Intensity)
- 色调——波长，如红色、绿色、蓝色；冷色、暖色。
- 饱和度——颜色的纯度
- 亮度——图像亮度或图像灰度

二、颜色空间

最近一百多年以来，为了满足各种不同用途的需求，人们已经开发了不同的颜色空间，几乎所有的颜色空间都是从RGB颜色空间导出的。

颜色模型(color model)是用简单方法描述所有颜色的一套规则和定义。颜色模型通常用颜色空间描述，可见二者为同义词。

RGB：显示器信号
HSI：人眼识别
YUV、YIQ、YCbCr：彩色电视信号（亮度Y和色度U、V）
CMY、CMYK：彩色印刷（青色(Cyan)、品红(Magenta)、黄(Yellow) ）

【注意】：颜色空间的相互转换，尤其RGB与YUV。

三、电视制式

1、NTSC（National Television System Committee）制是最早的彩电制式。它采用正交平衡调幅的技术方式，故也称为正交平衡调幅制。其优点是解码线路简单、成本低。

2、SECAM制，SECAM是法文的缩写，意为顺序传送彩色信号与存储恢复彩色信号制，又称行轮换调频制。它克服了NTSC制式相位失真的缺点，采用时间分隔法来传送两个色差信号。其优点是在三种制式中受传输中的多径接收的影响最小，色彩最好。

3、PAL（Phase Alternation Line），正交平衡调幅逐行，倒相式简称逐行倒相式。采用逐行倒相正交平衡调幅的技术方法，也克服了NTSC制相位敏感造成色彩失真的缺点。其优点是对相位偏差不敏感，并在传输中受多径接收而出现重影彩色的影响较小，是最成功的一种彩电制式，但电视机电路和广播设备比较复杂。

【总结】：

常见的视频信号制式：PAL、NTSC和SECAM，其中PAL和NTSC是应用最广的
NTSC即正交平衡调幅制，PAL为逐行倒像正交平衡调幅制，SECAM制式又称塞康制，意为"按顺序传送彩色与存储"
NTSC制式的颜色模型：YIQ
PAL制式的颜色模型：YUV
帧频率为25帧/秒的电视制式有PAL、SECAM

四、图像属性

（1）分辨率

由图像中每个像素的颜色、亮度等信息按照矩阵的形式紧密排列构成。

图像分辨率：每英寸长度像素点的数量。
显示器分辩率：屏幕在横向与纵向上显示的点数：如1024768，800600。
位图显示：图中一个像素，对应显示器中一个像素。

（2）图像深度

表示每个像素的二进制数字位数。

（3）显示器与颜色
显示数据容量＝水平分辨率×垂直分辨率×显示深度

（4）真彩色、伪彩色

1位（单色）；4位（16色）；8位（2^8=256色）；

16位（64K色，高彩色）；24位（2^24=16M色，真彩色）；32位（4096M色，增强型真彩色）。

五、图像格式

（1）位图

由图中每个像素的数据组成。
每个像素的数据包括：颜色、亮度、属性

（2）矢量图

每个矢量是一个图形实体，它具有颜色、形状、轮廓、大小、位置等属性。如：点、圆、线，…
矢量属性可以调整。如：颜色、大小、位置
Quartus、Visio、AutoCAD等绘图软件都是基于矢量的系统。

（3）区别

矢量图是根据几何特性来绘制图形，是用线段和曲线描述图像
位图图像也称为点阵图像，位图使用我们称为像素的一格一格的小点来描述图像
矢量图形与分辨率无关，可以将它缩放到任意大小和以任意分辨率在输出设备上打印出来，都不会影响清晰度；而位图是由一个一个像素点产生，当放大图像时，像素点也放大了，但每个像素点表示的颜色是单一的，所以在位图放大后就会出现咱们平时所见到的马赛克状
由于位图表现的色彩比较丰富，所以占用的空间会很大，颜色信息越多，占用空间越大，图像越清晰，占用空间越大；由于矢量图形表现的图像颜色比较单一，所以所占用的空间会很小
图形是矢量图，而图像是位图（点阵图）

（4）例题

下列关于计算机图形图像的描述中，不正确的是（ B ）。

A. 图像都是由一些排成行列的点（像素）组成，通常称为位图或点阵图
B. 图像的最大优点是容易进行移动、缩放、旋转和扭曲等变换
C. 图形是用计算机绘制的画面，也称矢量图
D. 在图形文件中只记录生成图的算法和图上的某些特征点，数据量较少

六、静态图像压缩编码国际标准-JPEG（有损压缩）

（一）概述

JPEG算法：连续色调,多级灰度,静态图像的压缩编码方法(彩色、灰度、静止图像)
应用：a. 静态图像压缩; b. 图像序列的帧内压缩
目的：a. 压缩比与图像保真度达到较高技术水平; b.能适用于任何种类的连续色调的图像；长宽、内容、复杂度、统计特性是不受限的； c.计算复杂性是可控制的:软件可完成,硬件实现算法.
文件后辍名为“．jpg”或“．jpeg”。

（二）JPEG压缩编码算法的主要步骤

正向离散余弦变换(FDCT)。
量化(quantization)。使图像质量下降的是量化。
Z字形编码(zigzag scan)。
使用差分脉冲编码调制(DPCM)对直流系数(DC)进行编码。
使用行程长度编码(RLE)对交流系数(AC)进行编码。
熵编码(Huffman/算术/RLE)

在这里插入图片描述

（三）基于 DCT 的 JPEG 编码中采用了哪些压缩算法与编码模式？

两种压缩算法：基于DCT的有损压缩算法、基于预测技术的无损压缩算法
四种编码模式：无损模式（基于DPCM）、基准模式（基于DCT，一遍扫描）、递进模式（基于DCT，从粗到细多遍扫描）、层次模式（含多种分辨率的2^n倍）

（四）DC 系数和 AC 系数的含义是什么？它们各有什么特点？

DC = direct current = 直流系数 = DCT变换F(0, 0)，特点：系数的数值比较大、相邻图像块的数值变化不大，宜采用DPCM编码。
AC = alternating current =交流系数 = DCT变换F(u, v)，特点：数值小，许多被量化为0，宜采用RLE编码。

（五）在 JPEG 中为什么要进行 Z 字形编码和 RLE 编码？

Z字形编码可将二维数据化为一维，且因右下方的高频AC系数值一般较小，许多被量化为0， Z字形编码可以将多个0连成串，而连续多个0的串宜采用RLE编码。

七、运动图像压缩编码国际标准-MPEG（有损压缩）

（一）概述

1、两种技术：

帧内图像数据压缩：采用基于DCT的压缩，用于减少每帧图象内部的空间冗余度，算法与JPEG算法大致相同，相当于静态图象压缩。
帧间图像数据压缩：采用16×16宏块运动补偿技术，消除帧序列的时间冗余度（帧间的空间冗余度）。

MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度，利用DCT技术以减小图象的空间冗余度，利用熵编码减小了统计冗余度。

2、MPEG音频编码的核心：心理声学模型，属于混合编码方法

3、MPEG标准：主要有MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等

MPEG-1用于数字盒式录音带，VCD，MP3。
MPEG-2用于具有演播室质量标准清晰度电视SDTV中。主要指标有压缩比，图像清晰度。
MPEG-4用于视像电话、视像电子邮件，家庭摄影录像，网络实时影像等。
MPEG-7可应用于数字图书馆，例如图象编目、音乐词典等；多媒体查询服务，如电话号码簿等；广播媒体选择，如广播与电视频道选取；多媒体编辑，如个性化的电子新闻服务、媒体创作等。
MPEG-21为“多媒体框架”或者“数字视听框架”，它致力于为多媒体传输和使用定义一个标准化的、可互操作的和高度自动化的开放框架。

（二）MPEG的三种图像类型

1、I帧：帧内图(Intrapictures,I): 随机存取的位置,压缩比不大;

（1）I帧只存在帧内编码，没有帧间运动估计，不用参考其它帧，所以I帧具有同步作用，付出的代价就是效率。 I帧帧内编码分为亮度编码和色度编码。 I帧亮度度分块模式分为16X16,8X8,4X4三种模式，色度分块模式只有一种8X8模式。

（2）三个阶段:

DCT;
变换系数量化(量化,Z字扫描,游程编码)使大部分数据得以压缩,要求通过量化器,编码器使之输出一个与信道传输速率匹配的比特流;
熵编码;

2、P帧：预测帧(Predicted pictures,P): 用先前帧I或P参考预测;

P帧图像的编码是以图像宏块(macroblock)为基本单元，先求两个宏块中相应像素值之差，对所求得的差值进行彩色空间转换，并通过子采样得到Y，Cb和Cr分量值，然后仿照JPEG压缩算法对差值进行编码，计算出的运动矢量也要进行霍夫曼编码。

3、B帧：插补帧即双向预测帧(Bidirectional Prediction Pictures,B): 压缩效果显著,预测时需要先前和后续的信息，B不能作其他帧的预测参考帧。

4、一些问题

（1）MPEG定义了哪三种图像？它们的含义各是什么？

MPEG定义了帧内图像，预测图像和双向预测图像这三种图像。
帧内图像不参考任何过去的或者将来的其他图像帧。预测图像需要过去的图像帧来进行预测编码。双向预测图像需过去与未来的帧来插值编码。

（2）预测图像 P 使用哪两类参数表示？

当前要编码的图像宏块与参考图像的宏块之间的差值
宏块的移动矢量

（3）简述 MPEG 的数据流结构及 MPEG 中的宏块的构成。

MPEG 的数据流结构分为序列层，图像组层，图像层，片层，宏块层，块层。
MPEG中，一个宏块由一个16×16亮度信息和两个8×8的色度信息构成。

（4）在 MPEG 等视频编码算法中，运动补偿的含义和目的， MPEG-Video 在空间和时间方向上分别采用的是什么压缩方法？

运动补偿是通过先前的局部图像来预测、补偿当前的局部图像。它的目的是减少帧序列的冗余信息。
MPEG-Vide在空间上采用JPEG压缩算法来去掉冗余信息。在时间上，采用运动补偿算法来去掉冗余信息。

八、彩色电视图像子采样的格式

图像子采样：对亮度信号和色差信号分别采用不同的采样频率进行采样。

（一）4:4:4 YCbCr格式

这种采样格式不是子采样格式，它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本，这就相当于每个像素用3个样本表示。对于消费类和计算机应用，每个分量的每个样本精度为8比特；对于编辑类应用，每个分量的每个样本的精度为10比特。因此每个像素的样本需要24比特或者30比特。

（二）4:2:2 YCbCr 格式

这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本，平均每个像素用2个样本表示。对于消费类和计算机应用，每个分量的每个样本的精度为8比特；对于编辑类应用，每个分量的每个样本精度为10比特。因此每个像素的样本需要16比特或者20比特。在帧缓存中，每个样本需要16比特或者20比特。显示像素时，对于没有Cr和Cb的Y样本，使用前后相邻的Cr和Cb样本进行计算得到的Cr和Cb样本。

（三）4:1:1 YCbCr 格式

这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。显示像素时，对于没有Cr和Cb的Y样本，使用前后相邻的Cr和Cb样本进行计算得到该Y样本的Cr和Cb样本。这是数字电视磁带（DVC ，digital video cassette）上使用的格式。

（四）4:2:0 YCbCr 格式

这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。在实际实现时，有两种略为不同的形式。

（五）例题

一幅 YUV 彩色图象的分辨率为 352*288，采用 4： 2：2 格式,计算采样时的样本数。

解：4:2:2时平均每个像素用2个样本表示，就是说3522882就行了。

第六章多媒体通信与网络

一、学习目标

1、多媒体通信的网络环境

2、多媒体通信的服务质量(QoS)

3、多媒体通信协议

二、概述

1、多媒体网络是计算机网络；电话网络、电视网络可以作为计算机网络的接入网络。

2、能够传输声音、图像、视频的数据网络。

3、普通数据通信关注准确性；多媒体通信更强调带宽、同步、延时等，准确性不是首要问题。

3、多媒体网络涉及网络操作系统、传输媒体、网络设备。

4、重要协议：实时传输协议RTP、实时控制协议RTCP、资源保留设置协议RSVP、实时流媒体播放协议RTSP。

三、网络上的交换技术

1、线路交换网络(circuit-switched networks)

通信之前双方由交换中心建立物理连接，维持连接的时间长短取决于信息交换的需要。

2、分组(包)交换网络(packet-switched networks)

发送端把长消息分割成较小的数据包后，使用存储转发方法(store and forward) 发到输出链路上。

四、各层上的部分协议

在这里插入图片描述

HTTP(HyperText Transfer Protocol)超文本传输协议
FTP(File Transfer Protocol) 文件传输协议
SSH(Secure Shell) SSH安全登录协议(取代Telnet)
SMTP(Simple Message Transfer Protocol) 简单邮件传输协议
TFTP(Trivial File Transfer Protocol) 普通文件传输协议。TFTP不能目录浏览只能文件发送和接收。
DNS(Domain Name System) 域名系统：域名和IP地址相互映射。http://202.108.22.5/ 和 www.baidu.com效果相同。
NFS(Network File System) 网络文件系统

五、多媒体通信的性能需求

1、吞吐量需求

网络吞吐量是指有效的网络带宽，通常定义成物理链路的传输速率减去各种传输开销，以及网络冲突、瓶颈、拥塞和差错等开销，它反映了网络的最大极限容量。

2、可靠性需求

差错率（Error Rate）是一种重要的性能指标，反映了网络传输的可靠性。

3、延时需求

延时（Delay）是衡量网络性能的重要参数。主要有传播延时、发送延时、处理延时、排队延时等。

4、延时抖动

5、同步需求

流间需求，流内需求

6、服务可用性(service availability)

六、多媒体通信的服务质量

1、服务质量(Quality of Service，QoS)是一种抽象概念，用于说明网络服务的“好坏”程
度。

2、分类：确定型QoS、统计型QoS、尽力型QoS

3、QoS参数：吞吐量、延时、延时抖动、差错率、服务可用性

4、IETF提出了两种QoS保证机制，一是由RSVP提供的保证型服务；二是在区分服务（DiffServ，DS）中定义的区分型服务。

保证型服务具有面向连接的特性，并通过QoS 协商、接纳控制、保留带宽和实时调度等机制来实现。
区分型服务具有无连接的特性，主要通过缓冲管理和优先级调度机制来实现，而无需进行QoS协商和保留带宽等控制

七、多媒体通信协议

（一）网络层的IPv6

（二）传输层的RSVP

RSVP协议允许应用程序为它们的数据流保留带宽。主机使用RSVP向网络请求保留一个特定量的带宽，路由器也使用RSVP协议转发带宽请求。为了执行RSVP协议，在接收端、发送端和路由器中都必需要有执行RSVP协议的软件。
RSVP是传输层的协议
RSVP是信令协议
RSVP是接收端启动的协议

（三）应用层的RTP、RTCP、RTSP

1、实时运输协议 RTP (Real-time Transport Protocol)

应用：RTP广泛应用于流媒体通信，电话、视频会议、电视。
RTP 为实时应用提供端到端的运输，但不提供任何服务质量的保证。
多媒体数据块经压缩编码处理后，先送给 RTP 封装成为 RTP 分组，再装入运输层的 UDP 用户数据报，然后再交给 IP 层。
RTP 是一个协议框架，只包含了实时应用一些共同的功能。
RTP 自己并不对多媒体数据块做任何处理，而只是向应用层提供一些附加的信息，让应用层知道应当如何进行处理。

2、实时运输控制协议 RTCP (RTP Control Protocol)

RTCP 是与 RTP 配合使用的协议。
RTCP的主要功能是为应用程序提供会话质量或者广播性能质量的信息。
每个RTCP信息包不封装声音数据或者电视数据，而是封装发送端和/或者接收端的统计报表。这些信息包括发送的信息包数目、丢失的信息包数目和信息包的抖动等情况，这些反馈信息对发送端、接收端或者网络管理员都是很有用的。
每个参与者周期性地发送RTCP控制信息包，它带有发送端和接收端对服务质量的统计信息报告。
RTCP 分组与RTP均使用 UDP 传送
可将多个 RTCP 分组封装在一个 UDP 用户数据报中
RTCP一般控制在会话带宽的5%之内

3、实时流播协议 RTSP—应用层

RTSP协议以客户/服务器方式工作，它是一个多媒体播放控制协议，使得用户在播放从因特网实时数据时能够进行控制，如：暂停/继续、后退、前进等。因此 RTSP 又称为“因特网录像机遥控协议”。
应用层协议，RTSP描述了与RTP间的交互操作。RTSP控制RTP会话的协议，使得实时流媒体数据的受控和点播变得可能。
RTSP可以对流媒体提供诸如播放、暂停、快进等12种操作，它负责定义具体的控制消息、操作方法、状态码等。
主要用来控制具有实时特性的数据发送，但它本身并不传输数据，而是必须依赖于下层传输协议所提供的某些服务。