[Extração de recursos] com base na estimativa de formantes matlab [incluindo o código-fonte do Matlab 550 período]

1. Introdução

O formante se refere a algumas áreas onde a energia está relativamente concentrada no espectro sonoro. O formante não é apenas um determinante da qualidade do som, mas também reflete as características físicas da trilha sonora (cavidade ressonante).

A posição do pico na curva do envelope do espectro de som de vogais e consoantes. O significado original de formante se refere à frequência de ressonância da cavidade acústica. Na produção de vogais e consoantes, o espectro da fonte sonora é modulado pela cavidade acústica. A amplitude harmônica original não diminui mais com o aumento da frequência, mas algumas fortalecem e outras enfraquecem, formando um novo pacote com altos e baixos. A frequência valor no pico da curva é consistente com a frequência de ressonância da cavidade acústica. No que diz respeito às vogais, os três primeiros formantes têm regulamentos qualitativos para seu timbre; os primeiros dois formantes são particularmente sensíveis à altura da língua, e o mapa de vogais acústicas é desenhado com base nos valores de frequência desses dois formantes . de. O sonograma tridimensional do formante é mostrado como barras horizontais com concentração de energia.

O formante é um recurso importante que reflete as características de ressonância do trato vocal, pois representa a fonte mais direta de informações sobre a pronúncia, e as pessoas usam as informações do formante na percepção da fala. Portanto, o formante é um parâmetro característico muito importante no processamento de sinais de fala, e tem sido amplamente utilizado como a principal característica de reconhecimento de fala e a informação básica de transmissão de codificação de fala. A informação do formante está contida no envelope de frequência. Portanto, a chave para extrair os parâmetros do formante é estimar o envelope espectral da fala natural. Geralmente, o valor máximo no envelope espectral é o formante.

O princípio da geração de formantes e sua manifestação na qualidade do som

A posição de distribuição do formante é baseada na estrutura física de ressonância do meio de produção de som (Estrutura Física Ressonante).

Quer se trate de uma voz humana ou de um instrumento musical, suas características sonoras são derivadas de dois fatores, um é o sistema de som, como a corda vocal humana ou a palheta vibratória do instrumento musical, e o outro é o sistema de ressonância. Os diferentes sistemas de ressonância do instrumento musical tornam a amplitude das notas parciais em um determinado domínio de frequência proeminente. Dessa forma, essas áreas produzem picos de ressonância exclusivos deste instrumento musical. Esses picos de ressonância estão intimamente relacionados ao tamanho e forma do corpo de ressonância. Como a estrutura de um instrumento musical é estável, todos os tons emitidos por um instrumento musical, independentemente da frequência fundamental, mostrarão o mesmo pico de ressonância, mas seu significado é forte ou fraco. Isso pode nos ajudar a explicar por que, em muitos instrumentos, tons diferentes produzidos pelo mesmo instrumento têm a mesma qualidade de som.

Na acústica da fala, a voz humana também tem sua própria área de formantes afetada por sua própria fisiologia, como o tamanho das narinas, cavidade faríngea e cavidade oral. Aproveitando as diferentes mudanças na forma e no tamanho desses espaços de ressonância (como mudar a forma da garganta e da boca), podemos mudar o formato do som. A razão pela qual podemos distinguir entre diferentes vozes humanas e vogais é principalmente baseada na posição de sua distribuição de formantes.

1 Qual é o papel do formante e do formante Já
　　falei sobre o modelo de excitação da fala antes, quando o sinal de excitação do pulso glótico periódico passa pelo trato vocal, ele causará ressonância no trato vocal (este processo é chamado de modelo do trato vocal no modelo de produção da fala), resultando em um conjunto de frequências de ressonância.Este conjunto de frequências de ressonância é denominado formantes (frequência). Geralmente, considera-se que os vários valores máximos no envelope do espectro da fala são frequências de formantes. A detecção precisa da frequência do formante e da largura de banda é útil para distinguir diferentes finais e melhorar o reconhecimento da semântica da fala.

2 Dificuldades na estimativa de picos de ressonância
(1) A existência de picos de falsa ressonância.
(2) É difícil distinguir quando as frequências de formantes adjacentes estão relativamente próximas umas das outras.
(3) É difícil extrair fala aguda.
Em suma, como acontece com a estimativa do período de pitch, não existe atualmente um método de estimativa totalmente preciso.

3 Pré-processamento de estimativa de Formantes
(1) Pré-ênfase. O objetivo é retirar a influência da radiação labial e facilitar a análise da resposta do trato vocal.
(2) Detecção de endpoint. A finalidade é a mesma que a estimativa do período do pitch, não havendo necessidade de analisar a fala no segmento silencioso.

4 Método de estimativa de pico ressonante
(1) Método de Cepstrum.
　　O processamento cepstrum para a fala pode separar o sinal de excitação da resposta do trato vocal, remover o sinal de excitação e fazer a transformada de Fourier para obter o envelope da resposta do trato vocal e encontrar o valor máximo no envelope. É o formante correspondente. frequência.
(2) No método LPC,
　　podemos obter um conjunto de coeficientes de predição por meio de predição linear. De acordo com este conjunto de coeficientes e o modelo de resposta de canal de todos os pólos, execute a transformação FFT para obter o espectro de potência da função de transferência de canal, e em seguida, calcule o valor máximo correspondente, você pode obter a frequência do formante correspondente.
(3) O
　　método HHT não deu uma olhada mais de perto e as etapas específicas ainda não são conhecidas. É principalmente por meio de decomposição em modo empírico (EMD) e Hilbert transformar para encontrar a amplitude do sinal, frequência, fase.

Em segundo lugar, o código-fonte

%实倒谱法共振峰估计
clear all; clc; close all;

waveFile='C4_3_y.wav';               % 设置文件名
[x, fs, nbits]=wavread(waveFile);                 % 读入一帧数据
u=filter([1 -.99],1,x);                                   % 预加重
wlen=length(u);                                          % 帧长
cepstL=6;                                                   % 倒频率上窗函数的宽度
wlen2=wlen/2;               
freq=(0:wlen2-1)*fs/wlen;                          % 计算频域的频率刻度
u2=u.*hamming(wlen);		                      % 信号加窗函数
U=fft(u2);                                                 % 按式(4-26)计算
U_abs=log(abs(U(1:wlen2)));                     % 按式(4-27)计算
 [Val,Loc,spect]=Formant_Cepst(u2,cepstL);       % 计算出共振峰频率
FRMNT=freq(Loc);                                 % 计算出共振峰频率
subplot(211)
plot(freq,U_abs,'k'); 
xlabel('频率/Hz'); ylabel('幅值/dB');
title('(a)信号对数谱X\_i(k)')
axis([0 4000 -6 2]); grid;
subplot(212)
plot(freq,spect,'k','linewidth',2); 
%LPC内插法的共振峰估计
clear all; clc; close all;

fle='C4_3_y.wav';                            % 指定文件名
[x,fs]=wavread(fle);                        % 读入一帧语音信号 
u=filter([1 -.99],1,x);                     % 预加重
wlen=length(u);                             % 帧长
p=12;                                       % LPC阶数
freq=(0:256)*fs/512;                        % 频率刻度

[F,Bw,pp,U]=Formant_Interpolation(u,p,fs);          %LPC内插法求共振峰
plot(freq,U,'k');
title('声道传递函数功率谱曲线');
xlabel('频率/Hz'); ylabel('幅值');
ll=length(F);                             % 共振峰个数
for k=1 : ll
    line([F(k) F(k)],[0 pp(k)],'color','k','linestyle','-.');    
end
% LPC求根法的共振峰估计
 clc; close all;

fle='C4_3_y.wav';                            % 指定文件名
[xx,fs]=audioread(fle);                       % 读入一帧语音信号

u=filter([1 -.99],1,xx);                    % 预加重
wlen=length(u);                             % 帧长
p=12;                                       % LPC阶数
n_frmnt=4;                                  % 取四个共振峰
freq=(0:256)*fs/512;                        % 频率刻度
df=fs/512;                                  % 频率分辨率

[F,Bw,U]=Formant_Root(u,p,fs,n_frmnt);
plot(freq,U,'k');
title('声道传递函数功率谱曲线');
xlabel('频率/Hz'); ylabel('幅值/dB');
p1=length(F);                              % 在共振峰处画线
m=floor(F/df);
pp=U(m);                                    %共振峰幅度
for k=1 : p1
    line([F(k) F(k)],[-5 pp(k)],'color','k','linestyle','-.');
end

Três, resultados em execução

Insira a descrição da imagem aqui

Quatro, observações