1.语音信号生成系统的数学模型

汉语音节由声母、韵母、声调组成
音节由一个或多个音素构成
音素是语音发音的最小单位，存在元音和辅音这两种音素==

语音信号处理的具体应用包括语音编码、语音合成、语音识别、说话人识别、语种识别

人的说话过程分为五个阶段：想说——说出——（空气等媒介）传送——接收——理解

建模基本原则：不仅具有最大的精确度，而且还要最简单

语音信号从整体上看是非平稳随机过程，其特性是随着时间变化的。而这种变化是很缓慢的，所以将语音信号分为一些相继的短段进行处理，可以认为这些短段中的语音信号特性是不随着时间变化的平稳随机过程。因此在这些短段时间内表示语音信号时，可以采用线性时不变模型（即可以使用傅里叶变换）。

语音生成系统三个部分：
1）声门以下——激励系统，产生激励振动
2）声门到嘴唇——声道系统
3）嘴唇以外——辐射系统
完整的语音信号的数学模型是这三个模型的级联。

级联是系统函数相乘，并联是系统函数相加

激励系统

激励模型分为浊音激励和清音激励。
浊音激励：声带不断张开和关闭，形成间歇的脉冲波，表现为以基音周期为周期的斜三角脉冲串，是二阶低通滤波器
清音激励：声带被阻碍形成湍流，一般模拟成随机白噪声

实际情况一般使用均值为0、方差为1、时间和/或幅值为白分布的序列表示清音

声道系统

声道系统一般使用共振峰模型
共振峰模型：声道视为一个谐振腔，共振峰是腔体的谐振频率。元音用前三个共振峰表示，辅音或鼻音用前五个以上的共振峰表示。声道系统参数包括共振峰频率、共振峰带宽和幅度等。用混合型共振峰模型表示比较恰当全面。

辐射系统

辐射模型是一阶高通滤波器。
因此，实际的语音信号分析时，常使用预加重——取样之后插入一个一阶的高通滤波器，从而只剩下声道部分，便于声道系统参数分析。

在这里插入图片描述

2.语音信号的特性分析

语音信号的特性主要指其声学特性、时域波形、频谱特性、统计特性。

时域波形

清辅音：波形类似于白噪声，振幅很小，没有明显的周期性
元音：振幅很大，有明显周期性，其周期就是对应的声带振动的周期，也就是基音周期

基音周期的倒数就是基音频率。

频谱特性

从频谱特性可以大致看出它们的共振峰特性：
清辅音：频谱没有周期分量，体现在频谱中峰值点之间的间隔是随机的。
元音：频谱具有明显的共振峰特性，频谱中明显的峰值点出现的频率就是共振峰频率。

由于上一节提到，语音信号属于短时平稳信号，一般认为在10~30ms内的频谱特性基本不变或变化缓慢，因此可以用这些小段进行频谱分析，得到的谱就是短时谱。

知识补充：傅里叶变换DFT样本数、采样率和语音段持续时间的计算：
采样率（Hz） × 语音段持续时间（s） = 傅里叶变换DFT样本数

语谱图

由于时域波形不能直观了解语音的频率特性，频谱特性（特指上面提到的10~30ms内的频谱特性）不能体现语音随时间的变化关系，因此产生了语谱图——既能了解其随时间变化的频率特性。

如何看语谱图？
横坐标——时间
纵坐标——频率
条纹——图中颜色的深浅表示某个时间上特定频率分量的多少，这种深颜色形成的纹路又称为“声纹”。
横的条纹——共振峰。横的条纹所处的频率就是共振峰频率，有横的条纹对应的就是浊音/元音。横的条纹之间的距离是基音频率
乱纹——清擦音。乱纹的深浅和上下限反映了噪声能量在频域的分布

题外话1：书本上同时提到横杠和竖条，这里重新说明：
竖条：宽带语谱图更容易看到很多清晰的细的竖条。竖条代表基音，竖条之间的距离就是基音周期
横杠：窄带语谱图更容易看到横杠（横杠就是上文说的横的条纹）。

题外话2：尽管客观人发声器官的音域是有限度的，即一般人发声最高频率为4000Hz，乐器的音域要比人宽很多，打击乐器的上限可以到20KHz。但是，由于我们数字分析频率时，采用的是算法实现的，一般是FFT，所以其结果是由采样率决定的，即尽管是上限为4000Hz的语音数据，如果采用16Khz的采样率来分析，则仍然可以在4000Hz以上的频段发现有数据分布，则可以认为是算法误差，非客观事实。

统计特性

统计特性可以用波形振幅概率密度函数以及均值、自相关函数来描述。这需要利用大量语音数据的幅度绝对值计算出幅度的直方图，然后根据直方图寻找近似的概率密度函数，从而计算均值等参数。

语音信号处理第二章

文章目录