本篇文章主要介绍量化、分析语音信号：围绕语音是怎么产生的？都有哪些特点？这些原理都是语音识别背后的基础。一、音频基础知识-声音的产生和记录一文中描述了声音的本质，并且介绍了一段单一的声波（比如正弦波）从振动产生，到最终被数字化为一段音频文件的整个过程，这个是理想状态，但是我们知道音频在实际传输过程中，是会受到各种复杂环境的干扰的，而且也不单单是只有一个频率。因此，今天这篇文章就以语音为例，从语音的产生这个角度，分析一下在实际语音产生、传递过程中，遇到的问题，以及以此延伸出来的一些专业名词、术语。

文章目录

1. 语音的产生
2. 声源
3. 语音分类：清音和浊音

1. 语音的产生

人体发音器官结构示意图
上图是《新闻传播大辞典》中对人体发音器官的结构描述示意图，他将发音声道（声音传播通过的地方就叫声道）归类为三个腔体：鼻腔、口腔、咽腔。然后语音的产生就是由声源、声道共同的作用产生的，所以对语音的分析，就要从声源、声道两个来源处进行分析。

2. 声源

一、音频基础知识-声音的产生和记录一文中我们知道，声源是能够产生振动的物体，而人体发音器官结构示意图中，声源有两类：声带振动作为声源、气体在经过唇齿等狭小的区域由于空气与腔体的摩擦作为的声源。两者的本质区别是振动源不同，一个是声带振动，一个是空气摩擦振动。
在这里插入图片描述

3. 语音分类：清音和浊音

根据声源的不同，对语音也做了不同的分类：

浊音：声带振动作为声源产生的声音（拼音里的a，o，e等）
清音：气体摩擦作为声源产生的声音（拼音里的zhi，chi，xi等）

3.1 清音和浊音频谱差异

在这里插入图片描述
为了方便分析，做了降噪处理：

为了方便分析，上图中，我录下来“视频互动”这几个词语的音频图，这几个字的汉语拼音是“shi pin hu dong”，前两个字都是清音发声：“shi pin”，后两个字是声带发声的浊音：“hu dong”，从语谱图（时间域频率、能量）上看，清音的频率分布比较宽、均匀，浊音在频率上大多分布在低频区域。空气振动频域肯定会比较高，也比较全，而声带振动频率就非常有限，所以在语谱图上救出现了清音、浊音的频率分布差距。

3.2 分析语音频谱得到信息

清音的声源是空气摩擦振动产生的，复杂，不容分析，我们单独挑浊音来分析。

3.2.1 基频

浊音发声是声带振动产生的，声带振动会产生一个声波，我们把这个声波叫做基波，把这个基波的频率叫做基频，一般用F0来标识基频。
这个基频可以对应到我们平时说的音调，你唱歌音调的高和低就对应着你的声音基频的高和低。
男声正常说话的基频在100 ~ 200Hz左右，女声就更高一点：140Hz ~ 240Hz之间，这就是女声比男声听起来更尖锐的原因。
基频会随着年龄变化去变化：小孩的基频比较高，能达到300Hz，年龄越大基频就越低了。

3.2.2 谐波

声带振动产生的基波，在传输的过程中，会经过声道，并在声道内进行反复的碰撞、折射，这个过程中产生大量的频率的声波，这些声波的频率是基频的倍数，我们把这些声波叫做谐波。按照谐波频率由低到高，依次叫1次谐波、2次谐波等。
浊音频谱中，谐波频率和基频是能量集中的地方（颜色最亮）。

3.2.3 共振峰

比如一个200Hz基频的浊音，大部分的能量在了200Hz 及 200Hz的整数倍的频率上，那是什么决定了谐波能量的高低呢？这就需要从谐波产生的原理上去分析了。
因为高次谐波是由低次谐波在腔体表面反复碰撞折射反射得到的，而且在这个过程中，反复的碰撞会导致能量的衰减，但是我们从语谱图上看，谐波也不是逐渐衰减的，这又是因为什么呢？这是因为我们在分析浊音产生的过程中，忽略了声源的振动信号经过声道时，声道它本身也会发声共鸣，与声道共振频率相近的能量会被增强，其他共振频率部分会被衰减。
因为和声道共振频率相近的部分能量被增强，和声道共振频率差的远的部分被衰减，谐波得到能量就形成了一组高低起伏的形状，我们把中间的巅峰位置叫做共振峰：
在这里插入图片描述
根据频率的高低，用F1、F2、F3来标识第一共振峰、第二共振峰、第三共振峰。
根据上面的图片发现，“a、i、u”发声的共振峰的位置、共振峰的能量峰值都不一样，这是因为声道的三个腔体：鼻腔、口腔、喉腔会随着发音的不同，开合、形状都会发声变化，这就形成不同的腔体共振频率，那不同的发音，它的共振峰出现的位置和能量就会不一样，根据这个就能把共振峰的位置和能量和发音对应起来，形成了语音识别的基础原理之一。

一、音频基础知识 - 语音的基本特征