语音信号处理概述及流程

一、语音信号处理的三个主要方向。

1，语音合成。

语音合成的是为了让计算机产生高质量的、高自然度的连续语音。计算机语音合成系统又称文语转换系统（TTS），主要是将文本输出语音。

发展过程：共振峰合成、LPC合成、PSOLA技术。

2，语音编码。

在语音信号传输过程中，频率资源的合理使用，显得很珍贵，所以在传输之前，先将语音信号进行语音编码压缩。

3，语音识别。

语音识别涉及到语言学、计算机科学、信号处理、生理学等相关学科，是模式识别的分支。其主要目的是让计算机通过识别和理解将语音翻译成可执行的命令或者是文本。

主要研究方向：根据说话方式，孤立语音识别系统，连接词语音识别系统，连续语音识别系统。根据说话人，特点人识别系统，非特点人识别系统。根据词汇量，小词汇语音识别系统，中等词汇语音识别系统，大词汇语音识别系统，无穷词汇识别系统。

二、语音信号处理流程。

如上图所示：

1 录制或者下载一段wav格式的语音（最好小一点，大了多硬件要求较高）。

2 预处理，首先找出语音起始点，即端点检测，然后对信号适当的放大和增益控制，消除工频信号干扰。（备注：这里关于预处理和数字化在不同著作上稍有不同，在赵力版的《数字语音处理中》，其流程是先数字化，放大及增益控制，反混叠滤波，采样、A/D转换、编码。然后是预处理，提升高频部分，加窗操作，即变换为一帧一帧的语音数据）。当然，这里的预处理在赵力版中可以理解为预滤波。

3 数字化，将模拟信号数字化，PCM编码方式储存。

4 对数字化的信息进行分析，提取特征参数MCFF。

5 根据不同的目的，

5.1 语音识别，分为识别和训练阶段。

5.2 语音编码，将语音进行压缩编码，解压。

5.3 语音合成，对编码后的信号进行储存。

语音信号处理概述及流程

猜你喜欢