语音增强

随着人们对语音增强知识的认识和发展，各种各样的语音增强算法都相应的发展起来。如前所述，由于噪声特性各异，总的来说，现在比较流行的算法主要有以下几种：

小波分解法；
听觉屏蔽法；
噪声对消法；
谐波增强法；
基于语音生成模型的增强算法；
基于短时谱估计的增强算法；

以上的各种语音增强算法虽然在具体实现上是有差别的，但从另一个方面来说，它们都不得不在语音的可懂度和主观度量这两个方向上做一番权衡。至于到底侧重与哪一方面，就要看算法内部的参数选取了。

其中，噪声对消法的基本原理是从带噪语音中减去噪声。这一原理是显而易见的，但问题是如何得到噪声的复制品。如果可以用两个麦克风（或多个麦克风）的信号采集系统，一个采集带噪语音，另一个（或多个）采集噪声，则这一任务比较容易得到解决。并且在强噪声环境下，这种方法可以得到很好的消除噪声结果。如果采集到的噪声足够“逼真”，甚至可以与带噪语音在时域上直接进行相减。噪声对消法可以用于平稳噪声相消，也可以用于准平稳噪声。采用噪声对消法时，两个话筒之间必须要有相当的隔离度，但采集到的两路信号之间不可避免地会有时间差，因此实时采集到的两路信号中所包含的噪声段是不同的，回声及其它可变衰减特性也将影响所采集噪声的“纯净”性。因而，采集到的噪声必须经过数字滤波器，以得到尽可能接近带噪语音中的噪声。通常，这就需要采用自适应滤波器曰，使相减噪声与带噪语音中的噪声一致，其原理类似于回波抵消器。自适应滤波器通常采用FIR滤波器，其系数可以采用最小均方(LMS)法进行估计，使如下信号的能量最小。

语音的声音按照其激励形式的不同可以分为三类:第一类是浊音，当气流通过声门时，如果声带的张力刚好使声带发生张弛振荡式的振动，那么就可以产生准周期的空气脉冲，这一空气脉冲激励声道得到浊音，对应于图中就是u(n)为间隔是基音周期T的脉冲串;第二类是摩擦音或清音，如果声道在某处发生收缩，同时迫使空气以高速冲过这一收缩部分而产生湍流，就得到这种音，此时建立的宽带噪声源激励了声道，对应于图中就是u(n)为宽带噪声；如果使声道完全闭合，在闭合后产生气压，然后突然释放，这就得到爆破音。一般而言，语音信号可以看作是由浊音、清音以及它们之间的过渡组成的。

1.语音信号的频谱分量比较集中

通过对语音信号发声过程的研究以及观察记录的各种语音波形，人们发现语音信号的频谱分量主要集中在300～3400Hz的范围内，这是因为人的声道的变化不可能太快。这一点给我们的语音研究和计算带来了很大的便利，我们只要把注意力放在这一区域就可以了。

2.语音是一个时变的、非平稳的随机过程

人类发声系统的生理结构的变化速度是有一定的限度的，在一段短时间内(5-50ms)人的声带和声道形状有相对稳定性，可近似认为其特征不变，因而语音的短时谱分析也有相对稳定性。短时谱的这种平稳性是很多语音处理算法和技术的基础。

3.语音大体上可以分为清音和浊音两大类

一般而言，人类的语音信号往往在有些时段表现出明显的周期性(浊音)，这种语段在频域上有共振峰结构，其能量大部分集中在较低频段内；而在另一些时段表现出完全的随机性(清音)，这种语段在频域上没有明显的共振峰结构，其频谱类似于白噪声；其余的就是由两者相混合而成。这一点反映在图2-1就是：激励源u(n)要么就是由脉冲发生器发出，要么就是由白噪声发生器发出，要么就是由两者按一定比例混合后发出。

4.作为一个随机过程，语音信号可以用统计分析特性来描述

在高斯模型假设下，傅立叶展开系数被认为是独立的高斯随机变量，均值为0，而方差是时变的。这种高斯模型应用于有限帧长时只是一种近似的描述，在宽带噪声污染的带噪语音的语音增强中，这种假设可用于分析的前提。

1）初始操作：

x=wavread('samples.wav');

n=wavread('white.wav');

[p,q]=size(x);

[a,b]=size(n);

x1=x(150000:250000,1);

n1=n(1:length(x1),1);

y=x1+n1;

其中，wavread('filename.wav',k)函数把文件名为filename的.wav文件的前k个采样点读入当前工作空间中。在未说明情况下，读入全部数值。分别用数组x、n储存纯净语音与高斯白噪声数据。size( )函数返回数组维数大小p,q。在这之前，由于我们引入的是双通道语音，所以q=2，p=语音长度。为了在计算机仿真时，算法程序不至于因为占用过多内存而导致系统瘫痪，我们截取数组x的第150000~250000个点进行操作，同样为了保证数组间操作的维数的一致性，对噪音数据采取同类操作。

2）核心谱减部分：

aa=2;

bb=6;

anglen=angle(fft(n1));

ampn=abs(fft(n1));

ampy=abs(fft(y));

angley=angle(fft(y));

cn=bb*(ampn.^aa);

xx=(ampy.^aa-cn).^(1/aa);

ifftx=real(ifft(xx.*exp(j*angley)));

本段程序是对基本谱减法的改进程序，其中aa、bb分别相当于式2-10中的和。当前值是经过反复实验后得到的经验值。程序中主要用到的函数说明如下：

y为纯净语音信号，fft(y,N)为快速傅立叶变换函数，其中y为操作对象信号，N为进行多少点傅立叶变换系数（默认情况下，N取256）。abs和 angle函数分别对256点傅立叶变换后的y取绝对值和相角，ifft (x,N)为逆傅立叶变换的标准函数，x为操作对象，N为逆变换点数。real对傅立叶反变换后的复数进行取实部操作所得ifftx即为增强结果，采用soundview(‘filename’,Fs)回放。Fs为采样频率。

整个语音信号的端点检测可以分为4段：静音、过度段、语音段、结束。程序中使用一个变量status来表示当前所处的状态。在静音段，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限，就可以确定进入语音段了。

三种定义的短时能量分别用下面三行MATLAB命令实现：

amp1=sum(abs(y),2);

amp2=sum(y.*y,2);

amp3=sum(log(y.*y+eps),2);%加上浮点小数eps，是为了防止log运算中可能出现的溢出。

过零率的计算：

zcr=zeros(size(y,1),1);

delta=0.02;

for i=1:size(y,1)

x=y(i,:);

for j=1:length(x)-1

if x(j)*x(j+1)<0&abs(x(j)-x(j+1))>delta

zcr(i)=zcr(i)+1;