[Extração de recursos] com base na estimativa de formantes matlab [incluindo o código-fonte do Matlab 550 período]

1. Introdução

O formante se refere a algumas áreas onde a energia está relativamente concentrada no espectro sonoro. O formante não é apenas um determinante da qualidade do som, mas também reflete as características físicas da trilha sonora (cavidade ressonante).

A posição do pico na curva do envelope do espectro de som de vogais e consoantes. O significado original de formante se refere à frequência de ressonância da cavidade acústica. Na produção de vogais e consoantes, o espectro da fonte sonora é modulado pela cavidade acústica. A amplitude harmônica original não diminui mais com o aumento da frequência, mas algumas fortalecem e outras enfraquecem, formando um novo pacote com altos e baixos. A frequência valor no pico da curva é consistente com a frequência de ressonância da cavidade acústica. No que diz respeito às vogais, os três primeiros formantes têm regulamentos qualitativos para seu timbre; os primeiros dois formantes são particularmente sensíveis à altura da língua, e o mapa de vogais acústicas é desenhado com base nos valores de frequência desses dois formantes . de. O sonograma tridimensional do formante é mostrado como barras horizontais com concentração de energia.

O formante é um recurso importante que reflete as características de ressonância do trato vocal, pois representa a fonte mais direta de informações sobre a pronúncia, e as pessoas usam as informações do formante na percepção da fala. Portanto, o formante é um parâmetro característico muito importante no processamento de sinais de fala, e tem sido amplamente utilizado como a principal característica de reconhecimento de fala e a informação básica de transmissão de codificação de fala. A informação do formante está contida no envelope de frequência. Portanto, a chave para extrair os parâmetros do formante é estimar o envelope espectral da fala natural. Geralmente, o valor máximo no envelope espectral é o formante.

O princípio da geração de formantes e sua manifestação na qualidade do som

A posição de distribuição do formante é baseada na estrutura física de ressonância do meio de produção de som (Estrutura Física Ressonante).

Quer se trate de uma voz humana ou de um instrumento musical, suas características sonoras são derivadas de dois fatores, um é o sistema de som, como a corda vocal humana ou a palheta vibratória do instrumento musical, e o outro é o sistema de ressonância. Os diferentes sistemas de ressonância do instrumento musical tornam a amplitude das notas parciais em um determinado domínio de frequência proeminente. Dessa forma, essas áreas produzem picos de ressonância exclusivos deste instrumento musical. Esses picos de ressonância estão intimamente relacionados ao tamanho e forma do corpo de ressonância. Como a estrutura de um instrumento musical é estável, todos os tons emitidos por um instrumento musical, independentemente da frequência fundamental, mostrarão o mesmo pico de ressonância, mas seu significado é forte ou fraco. Isso pode nos ajudar a explicar por que, em muitos instrumentos, tons diferentes produzidos pelo mesmo instrumento têm a mesma qualidade de som.

Na acústica da fala, a voz humana também tem sua própria área de formantes afetada por sua própria fisiologia, como o tamanho das narinas, cavidade faríngea e cavidade oral. Aproveitando as diferentes mudanças na forma e no tamanho desses espaços de ressonância (como mudar a forma da garganta e da boca), podemos mudar o formato do som. A razão pela qual podemos distinguir entre diferentes vozes humanas e vogais é principalmente baseada na posição de sua distribuição de formantes.

1 Qual é o papel do formante e do formante Já
  falei sobre o modelo de excitação da fala antes, quando o sinal de excitação do pulso glótico periódico passa pelo trato vocal, ele causará ressonância no trato vocal (este processo é chamado de modelo do trato vocal no modelo de produção da fala), resultando em um conjunto de frequências de ressonância.Este conjunto de frequências de ressonância é denominado formantes (frequência). Geralmente, considera-se que os vários valores máximos no envelope do espectro da fala são frequências de formantes. A detecção precisa da frequência do formante e da largura de banda é útil para distinguir diferentes finais e melhorar o reconhecimento da semântica da fala.

2 Dificuldades na estimativa de picos de ressonância
(1) A existência de picos de falsa ressonância.
(2) É difícil distinguir quando as frequências de formantes adjacentes estão relativamente próximas umas das outras.
(3) É difícil extrair fala aguda.
Em suma, como acontece com a estimativa do período de pitch, não existe atualmente um método de estimativa totalmente preciso.

3 Pré-processamento de estimativa de Formantes
(1) Pré-ênfase. O objetivo é retirar a influência da radiação labial e facilitar a análise da resposta do trato vocal.
(2) Detecção de endpoint. A finalidade é a mesma que a estimativa do período do pitch, não havendo necessidade de analisar a fala no segmento silencioso.

4 Método de estimativa de pico ressonante
(1) Método de Cepstrum.
  O processamento cepstrum para a fala pode separar o sinal de excitação da resposta do trato vocal, remover o sinal de excitação e fazer a transformada de Fourier para obter o envelope da resposta do trato vocal e encontrar o valor máximo no envelope. É o formante correspondente. frequência.
(2) No método LPC,
  podemos obter um conjunto de coeficientes de predição por meio de predição linear. De acordo com este conjunto de coeficientes e o modelo de resposta de canal de todos os pólos, execute a transformação FFT para obter o espectro de potência da função de transferência de canal, e em seguida, calcule o valor máximo correspondente, você pode obter a frequência do formante correspondente.
(3) O
  método HHT não deu uma olhada mais de perto e as etapas específicas ainda não são conhecidas. É principalmente por meio de decomposição em modo empírico (EMD) e Hilbert transformar para encontrar a amplitude do sinal, frequência, fase.

Em segundo lugar, o código-fonte

%实倒谱法共振峰估计
clear all; clc; close all;

waveFile='C4_3_y.wav';               % 设置文件名
[x, fs, nbits]=wavread(waveFile);                 % 读入一帧数据
u=filter([1 -.99],1,x);                                   % 预加重
wlen=length(u);                                          % 帧长
cepstL=6;                                                   % 倒频率上窗函数的宽度
wlen2=wlen/2;               
freq=(0:wlen2-1)*fs/wlen;                          % 计算频域的频率刻度
u2=u.*hamming(wlen);		                      % 信号加窗函数
U=fft(u2);                                                 % 按式(4-26)计算
U_abs=log(abs(U(1:wlen2)));                     % 按式(4-27)计算
 [Val,Loc,spect]=Formant_Cepst(u2,cepstL);       % 计算出共振峰频率
FRMNT=freq(Loc);                                 % 计算出共振峰频率
subplot(211)
plot(freq,U_abs,'k'); 
xlabel('频率/Hz'); ylabel('幅值/dB');
title('(a)信号对数谱X\_i(k)')
axis([0 4000 -6 2]); grid;
subplot(212)
plot(freq,spect,'k','linewidth',2); 
%LPC内插法的共振峰估计
clear all; clc; close all;

fle='C4_3_y.wav';                            % 指定文件名
[x,fs]=wavread(fle);                        % 读入一帧语音信号 
u=filter([1 -.99],1,x);                     % 预加重
wlen=length(u);                             % 帧长
p=12;                                       % LPC阶数
freq=(0:256)*fs/512;                        % 频率刻度

[F,Bw,pp,U]=Formant_Interpolation(u,p,fs);          %LPC内插法求共振峰
plot(freq,U,'k');
title('声道传递函数功率谱曲线');
xlabel('频率/Hz'); ylabel('幅值');
ll=length(F);                             % 共振峰个数
for k=1 : ll
    line([F(k) F(k)],[0 pp(k)],'color','k','linestyle','-.');    
end
% LPC求根法的共振峰估计
 clc; close all;

fle='C4_3_y.wav';                            % 指定文件名
[xx,fs]=audioread(fle);                       % 读入一帧语音信号

u=filter([1 -.99],1,xx);                    % 预加重
wlen=length(u);                             % 帧长
p=12;                                       % LPC阶数
n_frmnt=4;                                  % 取四个共振峰
freq=(0:256)*fs/512;                        % 频率刻度
df=fs/512;                                  % 频率分辨率

[F,Bw,U]=Formant_Root(u,p,fs,n_frmnt);
plot(freq,U,'k');
title('声道传递函数功率谱曲线');
xlabel('频率/Hz'); ylabel('幅值/dB');
p1=length(F);                              % 在共振峰处画线
m=floor(F/df);
pp=U(m);                                    %共振峰幅度
for k=1 : p1
    line([F(k) F(k)],[-5 pp(k)],'color','k','linestyle','-.');
end


Três, resultados em execução

Insira a descrição da imagem aqui
Insira a descrição da imagem aqui
Insira a descrição da imagem aqui

Quatro, observações

Código completo ou escrito adicionar QQ 1564658423 revisão anterior
>>>>>>
[Extração de recurso] Incorporação e extração de marca d'água de áudio com base na transformação wavelet matlab [Incluir código-fonte Matlab 053]
[Processamento de fala] Processamento de sinal de voz baseado em GUI matlab [Incluir Matlab Problema de código-fonte 290]
[Aquisição de voz] com base na coleção de sinal de voz da GUI do Matlab [incluindo o código-fonte do Matlab 291]
[Modulação de voz] baseada na modulação de amplitude da voz da GUI do Matlab [incluindo o código-fonte do Matlab 292]
[Síntese de voz] baseada na voz da GUI do Matlab síntese [incluindo o problema de código-fonte Matlab 293]
[Criptografia de voz] baseada na criptografia e descriptografia de sinal de voz matlab GUI [incluindo o código-fonte Matlab 295]
[Aprimoramento de fala] Aprimoramento de voz baseado em transformação de wavelet Matlab [código-fonte Matlab 296]
[Reconhecimento de voz] com base em matlab GUI Voice Base Recognition [Incluindo Matlab código fonte 294]
[Speech enhancement] Matlab GUI Wiener filtering baseado em aprimoramento de voz [Including Matlab source code 298]
[Speech processing] Baseado em Matlab GUI Voice processing processing [Including Matlab source code 299 ]
[Processamento de sinal] Baseado no analisador de espectro de sinal de fala Matlab [incluindo o código-fonte Matlab 325]
[Sinal de modulação] Simulação de sinal de modulação digital baseada em matlab GUI [incluindo o código-fonte Matlab 336]
[Reconhecimento de emoção] Reconhecimento de voz e emoção baseado em matlab BP neural rede [incluindo o código-fonte Matlab Edição 349]
[Esteganografia de Voz] Marca d'água digital de áudio quantificada com base na transformação Wavelet do Matlab [Incluir o código-fonte Matlab, edição 351]
[Extração de recursos] com base na incorporação e extração de marca d'água de áudio matlab [incluindo o código-fonte do Matlab 350 período]
[remoção de ruído da fala] baseada em passagem baixa do Matlab e remoção de ruído do filtro adaptativo [incluindo o código-fonte do Matlab 352 período]
[reconhecimento de emoção] baseado na voz do matlab GUI classificação de emoção Reconhecimento [Incluindo o código fonte Matlab 354 período]
[Processamento básico] Pré-processamento de sinal de voz baseado em Matlab [Incluindo o código fonte Matlab 364 período]
[Reconhecimento de fala] Transformada Matlab de Fourier 0-9 período de reconhecimento [Incluindo o código fonte Matlab 384 período]
[Speech Recognition] 0-9 reconhecimento de voz digital baseado em matlab GUI DTW [incluindo o código-fonte Matlab 385]
[Voice playback] Matlab GUI MP3 design [incluindo o código-fonte Matlab 425]
[Voice processing] Algoritmo de aprimoramento de fala baseado em efeito de máscara de ouvido humano Cálculo da taxa de ruído [Incluindo o código-fonte do Matlab 428]
[Eliminação de ruído da fala] Com base na eliminação de ruído da subtração espectral do Matlab [Incluindo o código-fonte do Matlab 429]
[Reconhecimento de fala] Reconhecimento de voz da rede neural BP com base no item de impulso do matlab [Incluindo o código-fonte do Matlab 430]
[Esteganografia de voz] baseada em ocultação de voz matlab LSB [incluindo código-fonte Matlab 431]
[Reconhecimento de voz] baseado em reconhecimento de voz matlab masculino e feminino [incluindo código-fonte Matlab 452]
[Processamento de voz] baseado em adição de ruído de voz matlab e processamento de redução de ruído [incluindo o código-fonte do Matlab Issue 473]
[Denoising de fala] com base no filtro adaptativo matlab mínimos quadrados (LMS) [incluindo o código-fonte do Matlab 481]
[Speech enhancement] baseado em matlab espectral subtraction, least mean square e Wiener filter aprimoramento de voz [incluindo Matlab código-fonte 482 período】
[Comunicação] com base na simulação de modulação de banda de frequência digital matlab GUI (ASK, PSK, QAM) [incluindo código-fonte Matlab 483]
[Processamento de sinal] baseado em processamento de sinal de ECG matlab [incluindo código-fonte Matlab 484]
[Transmissão de voz] baseado em matlab Transmissão de voz [Incluindo o código-fonte Matlab 507]
[Processamento de sinal] Transformada wavelet Matlab baseada na extração de recurso de sinal EEG [Incluindo o código-fonte Matlab 511]
[Processamento de voz] Com base na detecção de sinal matlab GUI multifrequência de tom duplo (DTMF) [Incluindo Matlab código-fonte 512】
【Esteganografia de voz】 baseado em matlab LSB para realizar a marca d'água digital do sinal de voz 【Inclui o código-fonte Matlab 513】
【Aprimoramento de voz】 Reconhecimento de voz baseado em filtro compatível com matlab 【Inclui código-fonte Matlab 514】
【Processamento de voz】 Baseado em matlab GUI voz Análise de espectrograma de domínio de frequência [incluindo código fonte Matlab 527]
[remoção de ruído de voz] baseado em matlab LMS, algoritmo de RLS remoção de ruído de voz [incluindo código fonte Matlab 528]
[remoção de ruído de voz] baseado em matlab LMS de supressão de ruído de subtração espectral [incluindo Matlab Problema de código-fonte 529]
[Remoção de ruído de voz] com base no limiar suave do Matlab, limite rígido, redução de ruído do limite de compromisso [incluindo o código-fonte do Matlab 530]
[Reconhecimento de voz] com base na discriminação de reconhecimento de voz de pessoa específica do Matlab [incluindo o código-fonte do Matlab 534]
[Fala eliminação de ruído] com base na redução de ruído de fala de limiar suave de wavelet matlab [incluindo código fonte Matlab 531]
[eliminação de ruído de fala] baseada em redução de ruído de fala de limiar rígido de wavelet matlab [incluindo código fonte Matlab 532]
[reconhecimento de fala] baseado em matlab MFCC e SVM específico Humano reconhecimento de gênero [incluindo código-fonte do Matlab 533]
[Reconhecimento de voz] Reconhecimento de voz GMM baseado em MFCC [incluindo Matlab código fonte 535 período]
[Reconhecimento de voz] Baseado em matlab VQ pessoas específicas palavras isoladas reconhecimento de voz [incluindo Matlab código fonte 536 período]
[Reconhecimento de voz] baseado em matlab GUI reconhecimento de impressão de voz [incluindo Matlab] Problema com o código-fonte 537]
[Aquisição e leitura] com base na coleta e leitura de voz do Matlab [incluindo o código-fonte do Matlab 538]
[Edição de voz] com base na edição de voz do Matlab [incluindo o código-fonte do Matlab 539]
[modelo de voz] baseado em Modelo matemático de sinal de voz matlab [incluindo o código-fonte Matlab 540]
[Solidez da fala] com base na intensidade e volume da voz matlab [incluindo o código-fonte Matlab 541]
[Reconhecimento de emoção] baseado no algoritmo de classificação do vizinho mais próximo matlab K reconhecimento de emoção por voz [incluindo código-fonte Matlab 542]
[Reconhecimento de emoção] baseado em Matlab Support vector machine (SVM) reconhecimento de emoção de fala [incluindo código-fonte Matlab 543]
[reconhecimento de emoção] Reconhecimento de emoção de fala baseado em rede neural [incluindo código-fonte Matlab 544]
[Localização de fonte de som] Fonte de som localização baseada na estimativa de espectro espacial diferente do Matlab Comparação do algoritmo [Incluir código fonte Matlab 545]
[Localização da fonte de som] Baseado no microfone matlab recebendo sinal sob diferentes relações sinal-ruído [Incluir código fonte Matlab 546]
[Localização da fonte de som] Impulso da sala resposta baseada em fonte de som única Matlab e microfones duplos [Incluir código fonte Matlab 547]
[Localização de fonte de som] Localização de fonte de som de correlação cruzada generalizada Matlab [código fonte Matlab 548 incluído]
[Localização de fonte de som] Exibição de sinal baseado em matriz de matriz Matlab [Código-fonte do Matlab 549 incluído]

Acho que você gosta

Origin blog.csdn.net/TIQCmatlab/article/details/114972064
Recomendado
Clasificación