MFCC の魔法を明らかにする: 音声認識の主要テクノロジー

さて、このブログを読む前に、MFCC (メル周波数ケプストラル係数) が人工知能の音声認識に広く使用されていることを知っておく必要があります。MFCCは基本的に、特定のオーディオ信号から特徴を抽出するために使用されます。まず、 MFCCに含まれるステップを示すフローチャートを見てみましょう。

画像-20230724112216846

アナログからデジタルへの変換: このステップには基本的に、アナログ信号をデジタル信号に変換することが含まれます。これは、音声認識で実行されるステップのほとんどがデジタル信号に対して行われるためです。アナログ信号をデジタル信号に変換するには、サンプリング、量子化、正規化、フレームベースの処理などのさまざまな手順が必要です。これらの手順の詳細な手順については、次回のブログで共有します。

プリエンファシス:プリエンファシス ステップは通常、一次ハイパス フィルターを使用して実装されます。フィルターは高周波成分を強調します。これは、音声信号やオーディオ信号の重要な詳細を区別するために重要です。プリエンファシスを備えたハイパス フィルターを適用すると、高周波成分の振幅が低周波成分に比べて強調されます。より高い周波数の音のエネルギーを増加させると、携帯電話の検出の精度が向上します。(電話と混同しないでください)

ウィンドウ処理:簡単に言うと、ウィンドウ処理とはオーディオ信号をさまざまなセグメントに分割することを指します。標準は25 ミリ秒から10 ミリ秒の間隔です。また、長方形セグメントではなくチョッピングによる過剰なノイズを避けるためにセグメントを作成する際に、ハミング ウィンドウ* を採用しています。*25ms という値を選択した理由:人が 1 秒間に話す平均単語数は 3 単語です。各ワードには 4 つの呼び出しが含まれており、その呼び出しには 3 つの状態が含まれます。したがって、1 秒間の状態の合計数は = 3 * 4 * 3 = 36 状態となります。したがって、1 つの状態には約28ミリ秒かかり、選択した値25 ミリ秒に近くなります。

**DFT (離散フーリエ変換):

**次のステップでは、DFT を使用して信号を時間領域から周波数領域に変換し、MFCC 係数を計算します。簡単に言うと、一連の複素数と考えることができます。

メル・フィルター・バンク:この用語の説明に入る前に、私たちのような人間がどのように音を聞くのかを理解しましょう。基本的に、人間の耳は高周波オーディオと比較すると、低周波オーディオに対して非常に敏感です。ほんの一例として、人間は 100Hz と 200Hz のオーディオの違いを簡単に区別できますが、2100Hz と 2000Hz のオーディオの違いを区別するのは難しいと言えます。したがって、これを機械でシミュレートするには、メルスケールを使用して人間が聞くことができる音声周波数を見つけます。

画像-20230724112300106

メル周波数

Log():対数関数の重要な特性を確認してみましょう。これは、入力値が低い場合は勾配が比較的大きく。これは、入力値が増加すると、入力値も減少することを意味します。これは私たちの聴覚のメカニズムと似ています。人間の耳は、高いエネルギーよりも低いエネルギーの音声信号に対してより敏感です。そのため、人間の耳を模倣するために log() 関数を適用します。

画像-20230724112333734

IDFT: IDFT は逆離散フーリエ変換の略です。MFCC 特徴を抽出した後、オーディオ信号を周波数領域から時間領域に変換する必要があります。MFCC モデルは、IDFT とエネルギーを特徴として適用した後の最初の 12 個の係数を取得します。

動的特徴: 13 の特徴に加えて、MFCC は特徴の 1 次導関数と 2 次導関数も考慮します。これにより、さらに 26 個の考慮すべき機能が残ります。したがって、MFCC は各オーディオ信号から 39 個の特徴を生成します。デルタ係数 (ΔMFCC) または一次導関数は、静的な MFCC 係数の時間の経過に伴う変化率を表します。これらは動的な変化を捉えるのに役立ちます。増分- 増分係数 (ΔΔ MFCC) または二次導関数\時間の経過に伴う増分係数の加速度または変化率を示します。それらはすべて、各フレームの最終的な特徴ベクトルの取得に貢献します。

おすすめ

転載: blog.csdn.net/shupan/article/details/131915640