[音声認識] matlab動的タイムワーピング(DTW)に基づく孤立単語音声認識[Matlabソースコード573を含む]

1.はじめに

ダイナミックタイムワーピング(DTW)の誕生には一定の歴史があり(日本の学者板倉が提案)、その目的は比較的単純で、長さの異なる2つの時系列の類似性を測定する方法です。また、アプリケーションは比較的広く、主に、孤立した単語の音声認識(2つの音声が同じ単語を表すかどうかの認識)、ジェスチャ認識、データマイニング、情報検索などのテンプレートマッチングに使用されます。

1。概要

ほとんどの分野では、時系列はデータの一般的な表現です。時系列処理の場合、一般的なタスクは2つの系列の類似性を比較することです。
時系列では、類似性を比較する必要のある2つの時系列の長さが同じでない場合があります。音声認識の分野では、人によって音声速度が異なります。音声信号にはかなりのランダム性があるため、同じ人が異なる時間に同じトーンを発したとしても、完全な時間ではない場合があります。さらに、同じ単語内の異なる音素の発音速度も異なります。たとえば、「A」の音を非常に長くドラッグしたり、「i」を非常に短く発音したりする人もいます。これらの複雑な状況では、2つの時系列間の距離(または類似性)は、従来のユークリッド距離を使用して効果的に取得することはできません。
2DTW法の原理

時系列では、類似性を比較する必要のある2つの時系列の長さが同じでない場合があります。音声認識の分野では、人によって音声速度が異なります。さらに、同じ単語内の異なる音素の発音速度も異なります。たとえば、「A」の音を非常に長くドラッグしたり、「i」を非常に短く発音したりする人もいます。さらに、異なる時系列は時間軸上にのみ変位を持つ場合があります。つまり、縮小変位の場合、2つの時系列は同じです。これらの複雑な状況では、2つの時系列間の距離(または類似性)は、従来のユークリッド距離を使用して効果的に取得することはできません。

DTWは、時系列を延長および短縮することにより、2つの時系列間の類似性を計算します。
ここに画像の説明を挿入します
上の図に示すように、上下の実線は2つの時系列を表し、時系列間の破線は2つの時系列を表します。間の類似点。DTWは、ワープパス距離と呼ばれるこれらすべての類似点間の距離の合計を使用して、2つの時系列間の類似性を測定します。

2 DTW計算方法:

類似性について計算される2つの時系列をXとYとし、長さを| X |と| Y |とします。
ワープパスワープパス
の形式はW = w1、w2、...、wKです。ここで、Max(| X |、| Y |)<= K <= | X | + | Y |です。
wkの形式は(i、j)です。ここで、iはXのi座標を表し、jはYのj座標を表します。
再編成パスWは、XとYの各座標がWに表示されるように、w1 =(1,1)で始まり、wK =(| X |、| Y |)で終わる必要があります。
さらに、図1の破線が交差しないようにするには、Wのw(i、j)のiとjを単調に増加させる必要があります。いわゆる単調増加とは、
ここに画像の説明を挿入します
ここに画像の説明を挿入します
コストマトリックス(コストマトリックス)D、Dを指します。(i、j)は、長さiとjの2つの時系列間の正規化されたパス距離を表します。

第二に、ソースコード

function trimmed_X = my_vad(x)
%端点检测;输入为录入语音,输出为有用信号

Ini = 0.1;          %初始静默时间
Ts = 0.01;          %窗的时长
Tsh = 0.005;        %帧移时长
Fs = 16000;         %采样频率
counter1 = 0;       %以下四个参数用来寻找起始点和结束点
counter2 = 0;
counter3 = 0;
counter4 = 0;
ZCRCountf = 0;      %用于存储过零率检测结果
ZCRCountb = 0;     
ZTh = 40;           %过零阈值
w_sam = fix(Ts*Fs);                   %窗口长度
o_sam = fix(Tsh*Fs);                  %帧移长度
lengthX = length(x);
segs = fix((lengthX-w_sam)/o_sam)+1;  %分帧数
sil = fix((Ini-Ts)/Tsh)+1;            %静默时间帧数
win = hamming(w_sam);

Limit = o_sam*(segs-1)+1;             %最后一帧的起始位置

FrmIndex = 1:o_sam:Limit;             %每一帧的起始位置
ZCR_Vector = zeros(1,segs);           %记录每一帧的过零点数
                                     
%短时过零点
for t = 1:segs
    ZCRCounter = 0; 
    nextIndex = (t-1)*o_sam+1;
    for r = nextIndex+1:(nextIndex+w_sam-1)
        if (x(r) >= 0) && (x(r-1) >= 0)
         
        elseif (x(r) > 0) && (x(r-1) < 0)
         ZCRCounter = ZCRCounter + 1;
        elseif (x(r) < 0) && (x(r-1) < 0)
         
        elseif (x(r) < 0) && (x(r-1) > 0)
         ZCRCounter = ZCRCounter + 1;
        end
    end
    ZCR_Vector(t) = ZCRCounter;
end

%短时平均幅度
Erg_Vector = zeros(1,segs);
for u = 1:segs
    nextIndex = (u-1)*o_sam+1;
    Energy = x(nextIndex:nextIndex+w_sam-1).*win;
    Erg_Vector(u) = sum(abs(Energy));
end

IMN = mean(Erg_Vector(1:sil));  %静默能量均值(噪声均值)
IMX = max(Erg_Vector);          %短时平均幅度的最大值
I1 = 0.03 * (IMX-IMN) + IMN;    %I1,I2为初始能量阈值
I2 = 4 * IMN;
ITL = 100*min(I1,I2);            %能量阈值下限,前面系数根据实际情况更改得到合适结果
ITU = 10* ITL;                  %能量阈值上限
IZC = mean(ZCR_Vector(1:sil));  
stdev = std(ZCR_Vector(1:sil)); %静默阶段过零率标准差

IZCT = min(ZTh,IZC+2*stdev);    %过零率阈值
indexi = zeros(1,lengthX);      
indexj = indexi;               
indexk = indexi;
indexl = indexi;

%搜寻超过能量阈值上限的部分
for i = 1:length(Erg_Vector)
    if (Erg_Vector(i) > ITU)
        counter1 = counter1 + 1;
        indexi(counter1) = i;
    end
end
ITUs = indexi(1);        %第一个能量超过阈值上限的帧

%搜寻能量超过能量下限的部分
for j = ITUs:-1:1
    if (Erg_Vector(j) < ITL)
        counter2 = counter2 + 1;
        indexj(counter2) = j;
    end
end
start = indexj(1)+1;    %第一级判决起始帧

Erg_Vectorf = fliplr(Erg_Vector);%将能量矩阵关于中心左右对称,如果是一行向量相当于逆序 

%重复上面过程相当于找结束帧
for k = 1:length(Erg_Vectorf)
    if (Erg_Vectorf(k) > ITU)
        counter3 = counter3 + 1;
        indexk(counter3) = k;
    end
end
%初始化DTW判别矩阵
Scores1 = zeros(1,N);                
Scores2 = zeros(1,N);
Scores3 = zeros(1,N);


%加载模板数据
s1 = load('Vectors1.mat');
fMatrixall1 = struct2cell(s1);
s2 = load('Vectors2.mat');
fMatrixall2 = struct2cell(s2);
s3 = load('Vectors3.mat');
fMatrixall3 = struct2cell(s3);


%计算DTW
for i = 1:N
    fMatrix1 = fMatrixall1{
    
    i,1};
    fMatrix1 = CMN(fMatrix1);
    Scores1(i) = myDTW(fMatrix1,rMatrix);
end

for j = 1:N
    fMatrix2 = fMatrixall2{
    
    j,1};
    fMatrix2 = CMN(fMatrix2);
    Scores2(j) = myDTW(fMatrix2,rMatrix);
end

3、実行中の結果

ここに画像の説明を挿入します

四、備考

完全なコードまたは書き込み追加QQ1564658423過去のレビュー
>>>>>>
[機能の抽出] matlabウェーブレット変換に基づくオーディオ透かしの埋め込みと抽出[Matlabソースコード053を含む]
[音声処理] matlabGUIに基づく音声信号処理[Matlabを含むソースコードの問題290]
[音声取得] matlabGUI音声信号収集に基づく[Matlabソースコード291を含む]
[音声変調] matlabGUI音声振幅変調に基づく[Matlabソースコード292を含む]
[音声合成] matlabGUI音声に基づく合成[Matlabソースコードの問題293を含む]
[音声暗号化] matlabGUIに基づく音声信号の暗号化と復号化[Matlabソースコード295を使用]
[音声拡張] Matlabウェーブレット変換ベースの音声拡張[Matlabソースコード296]
[音声認識] matlabGUI音声ベース周波数認識に基づく[Matlabソースコード294を含む]
[音声拡張] Matlab GUIWienerフィルタリングベースの音声拡張[Matlabソースコード298を含む]
[音声処理] matlabGUI音声信号処理に基づく[Matlabソースコード299を含む]
[信号処理] Matlab音声信号スペクトルアナライザーに基づく[Matlabソースコード325を含む]
[変調信号] matlabGUIに基づくデジタル変調信号シミュレーション[Matlabソースコード336を含む]
[感情認識] matlabBPニューラルに基づく音声感情認識ネットワーク[Matlabソースコード349の​​問題を含む]
[音声ステガノグラフィー] Matlabウェーブレット変換に基づく定量化されたオーディオデジタルウォーターマーキング[Matlabソースコードの問題351を含む]
[特徴抽出] matlabオーディオ透かしの埋め込みと抽出に基づく[Matlabソースコード350期間を含む]
[音声ノイズ除去] matlabローパスと適応フィルターノイズ除去に
基づく[ Matlabソースコード352期間を含む] [感情認識] matlabGUIに基づく音声感情分類認識[Matlabソースコード354期間を含む]
[基本処理] Matlabベースの音声信号前処理[Matlabソースコード364期間を含む]
[音声認識] Matlabフーリエ変換0-9デジタル音声認識[Matlabソースコード384期間を含む]
[音声認識] matlab GUI DTWに基づく0〜9桁の音声認識[Matlabソースコード385を含む]
[音声再生] Matlab GUIMP3設計[Matlabソースコード425を含む]
[音声処理]人間の耳のマスキングに基づく音声強調アルゴリズム効果ノイズ比計算[Matlabソースコード428を含む]
[音声ノイズ除去] matlabスペクトル減算ノイズ除去に基づく[Matlabソースコード429を含む]
[音声認識] matlab駆動運動量項目に基づくBPニューラルネットワーク音声認識[Matlabソースコード430を含む]
[音声ステガノグラフィ] matlabLSB音声隠蔽に基づく[Matlabソースコード431を含む]
[音声認識] matlabの男性と女性の音声認識に基づく[Matlabソースコード452を含む]
[音声処理] matlab音声ノイズの追加とノイズリダクション処理に基づく[MatlabソースコードIssue473を含む]
[音声ノイズ除去] matlab最小二乗(LMS)適応フィルターに基づく[ Matlabソースコード481を含む]
[音声強調] matlabスペクトル減算、最小平均二乗、およびWienerフィルター音声強調に基づく[Matlabを含むソースコード482期間】
[通信] matlab GUIデジタル周波数帯域(ASK、PSK、QAM)変調シミュレーションに
基づく[ Matlabソースコード483を含む] [信号処理] matlabECG信号処理に基づく[Matlabソースコード484を含む]
[音声ブロードキャスト] matlabに基づく音声ブロードキャスト[Matlabソースコード507を含む]
[信号処理] matlabウェーブレット変換EEG信号特徴抽出に
基づく[ Matlabソースコード511を含む] [音声処理] matlab GUIデュアルトーンマルチ周波数(DTMF)信号検出に基づく[含むMatlabソースコード512】
【音声ステガノグラフィー】matlabLSBに基づいて音声信号のデジタル透かしを実現【Matlabソースコード513を含む】
【音声強調】matlab一致フィルターに基づく音声認識【Matlabソースコード514を含む】
【音声処理】 matlabGUI音声に基づく周波数ドメインスペクトログラム分析[Matlabソースコード527を含む]
[音声ノイズ除去] matlab LMSに基づく、RLSアルゴリズム音声ノイズ除去[Matlabソースコード528を含む]
[音声ノイズ除去] matlabLMSスペクトル減算音声ノイズ除去に基づく[含むMatlabソースコードの問題529]
[音声ノイズ除去] matlabソフトしきい値、ハードしきい値、妥協しきい値に基づく音声ノイズ除去[Matlabソースコード530を含む]
[音声認識] matlab特定の人の音声認識識別に基づく[Matlabソースコード534を含む]
[音声ノイズ除去] matlabウェーブレットソフトしきい値に基づく音声ノイズリダクション[Matlabソースコード531を含む]
[音声ノイズ除去] matlabウェーブレットハードしきい値に基づく音声ノイズリダクション[Matlabソースコード532を含む]
[音声認識] matlabMFCCおよびSVM固有に基づく人間の性別認識[Matlabソースコード533を含む]
[音声認識] MFCCに基づくGMM音声認識[Matlabソースコード535を含む]
[音声認識] matlabVQに基づく特定の人の孤立した単語音声認識[Matlabソースコード536を含む]
[音声認識] matlabGUIに基づく音声認識[含むMatlab]ソースコードの問題537]
[取得と読み取り] matlab音声収集と読み取りに基づく[Matlabソースコード538を含む]
[音声編集] matlab音声編集に基づく[Matlabソースコード539を含む]
[音声モデル] matlab音声に基づく信号数学モデル[Matlabソースコード540を含む]
[音声の健全性] matlabの音声強度とラウドネスに基づく[Matlabソースコード541を含む]
[感情認識] matlabK最近傍分類アルゴリズムに基づく音声感情認識[Matlabソースコード542を含む]
[感情認識] matlabサポートベクトルマシン(SVM)に基づく音声感情認識[Matlabソースコード543を含む]
[感情認識]ニューラルネットワークベースの音声感情認識[Matlabソースコード544を含む]
[音源定位]音源定位ベースmatlabの異なる空間スペクトル推定についてアルゴリズムの比較[Matlabソースコード545を含む]
[音源定位]異なる信号対雑音比で信号を受信するmatlabマイクに基づく[Matlabソースコード546を含む]
[音源位置]部屋のインパルス応答に基づくmatlabシングル音源とデュアルマイク[Matlabソースコード547を含む]
[音源定位] Matlab一般化相互相関ベースの音源位置[Matlabソースコード548を含む]
[音源位置] Matlabアレイマニホールドマトリックスベースの信号表示[Matlabソースコード549を含む]
[機能抽出] matlabformant推定に基づく[Matlabソースコード550期間を含む]
[特徴抽出] matlabピッチ周期推定に基づく[Matlabソースコード551を含む]
[特徴抽出] matlab音声エンドポイント検出に基づく[Matlabソースコード552を含む]
[音声コーディング] matlabADPCMコーデックに基づく[Matlabソースコード553を含む]
[音声エンコード] matlabLPCエンコードおよびデコードに基づく[Matlabソースコード期間554を含む]
[音声エンコード] matlabPCMエンコードおよびデコードに基づく[Matlabソースコード期間555を含む]
[音声分析] matlabセプストラム分析およびMFCC係数に基づく計算[Matlabソースコード期間556を含む]
[音声分析] matlab線形予測係数比較に基づく[Matlabソースコード557を含む]
[音声分析] matlab音声短時間周波数ドメイン分析に基づく[Matlabソースコード558を含む]
[音声分析] matlab音声短時間時間領域分析に
基づく[ Matlabソースコード問題559を含む] [音声分析] matlab音声ラインスペクトルペア変換に基づく[Matlabソースコード560を含む]
[音声合成] matlabに基づく信号フレーミングと復元比例オーバーラップと加算[Matlabソースコード561を含む]
[音声合成] matlab線形予測フォーマント検出とピッチパラメーターに
基づく音声合成[ Matlabソースコード562を使用] [音声合成] matlab線形予測係数とピッチパラメーターに基づく[Matlabを使用ソースコード563]
[音声合成] matlab線形予測に基づく係数と予測誤差音声合成[Matlabソースコード564を含む]
[音声合成] Matlabベースの音声信号速度の変更[Matlabソースコード565を含む]
[音声合成] Matlab音声信号ベースのトーン変更[Matlabソースコード566を含む]
[音声合成] matlabオーバーラップストレージ法に基づく信号フレーミングと復元[Matlabソースコード567を含む]
[音声合成] matlabオーバーラップ加算法に基づく信号フレーミングと復元[Matlabソースコード568を含む]
[音声ノイズ除去]スペクトル減算音声の改善matlabに基づくノイズ除去[Matlabソースコード569を含む]
[音声ノイズ除去] matlabの基本的なウィーナーフィルターアルゴリズムに基づく音声ノイズ除去[Matlabソースコード570を含む]
[音声ノイズ除去] matlabスペクトル減算に基づく音声ノイズ除去[Matlabソースコード571を使用]
[音声ノイズ除去] Matlabの以前のSNRに基づくウィーナーフィルタリングアルゴリズム[Matlabソースコード572を使用した音声ノイズ除去]

おすすめ

転載: blog.csdn.net/TIQCmatlab/article/details/115003346