高度人工知能の音声信号前処理動作


この章では、主に時間領域と周波数領域の処理、フーリエ変換と時間-周波数図を紹介し、関連する概念の理解に焦点を当てます。

この記事の参考文献:

音声信号処理 (4) メル周波数ケプストラム係数 (MFCC)

オーディオ フレーム処理 フレーム ブロッキングとウィンドウ処理

これは、子供の頃のコマ撮りのようなもので、音声信号を処理するときも、一定のフレームサイズに処理するのに慣れているので、このような認識を確立する必要があります。フーリエ変換と線形予測符号化はすべてオーディオ フレームに基づいています。その中で、フレームサイズはフレームのサイズを指し、通常はウィンドウ内のサンプル数またはウィンドウがカバーする時間を指し、サンプリング周波数と組み合わせてウィンドウ内のサンプル数を計算することもできます。m サンプルで区切られた隣接するフレーム。これは、2 つのウィンドウ間の距離を指し、hop_size とも呼ばれる、重複しないサンプルです。
写真の説明を追加してください
演習 1:
写真の説明を追加してください

ハミング ウィンドウの制約

フーリエ変換は時間ドメインを周波数ドメインに変換できますが、変換前はオーディオ フレームの開始と終了が連続しておらず、信号レベルの急激な変化が巨大なエネルギーを生成し、周波数ドメインでノイズが発生します。その後のフーリエ変換の画像。
写真の説明を追加してください
ハミング ウィンドウは、図の W(k) などの係数に相当します. 元の時間領域図の各ポイントの信号レベルに対して、このような係数を使用して乗算および制約を行います. 最終的な効果は次のとおりです.開始と終了の瞬間の変動を効果的に滑らかにします。
写真の説明を追加してください

フーリエ変換とスペクトル

知覚的理解

ここで、音声は多くのフレームに対応し、音声の各フレームはフーリエ変換 (FFT) によってスペクトルに変換され、スペクトルは音声のフレームのエネルギーと周波数の関係を表すことができます。
ここに画像の説明を挿入
フーリエ変換は、元の時間領域の情報を周波数領域に変換できる式によって計算されます. 元の横軸は時間であり、現在の横軸は周波数です. 以下は、上の各黄色の長方形に対応する、フーリエ変換によって得られたスペクトログラムです。
ここに画像の説明を挿入
ピークは音声の主な周波数成分を表します. これらのピークをフォルマントと呼びます. フォルマントは音の識別特性を持っています (個人のIDカードのように). とても重要です。さまざまな音を識別するために使用します。その変形過程を含めたフォルマントを滑らかな曲線に描き、それをスペクトル包絡(Spectral Envelope)と呼びます。
ここに画像の説明を挿入

有理計算

写真の説明を追加してください
フーリエ変換はオーディオ フレームに焦点を当てています. オーディオ フレームのウィンドウ サイズが N の場合, N (一部の素材では N/2) の複素数 Xm (m=0,1,...N-1 (またはN /2-1))、Xm は実部 real_part と虚部 imaginary_part に分割され、各 Xm は累算と総和のプロセスに対応します。つまり、X m = ∑ k = 0 N − 1 ske − j ( 2 π km N ) X_m=\sum_{k=0}^{N-1}s_k e^{-j\left(\frac{2\pi km}{N}\right)}バツメートル=k = 0N 1skej (N2 πkm _ _) ,define− j θ = cos ⁡ ( θ ) − j sin ⁡ ( θ ) e^{- j \theta}=\cos(\theta)-j\sin(\theta)e−jθ _ _=cos ( θ )jsin ( θ )は、この式のすべてのe − j θ e^{- j \theta}を組み合わせることができますej θを分解して結合します。ここで、実部はcos ⁡ ( θ ) \cos(\theta)cos ( θ )、虚部は− sin ⁡ ( θ ) -\sin(\theta)sin ( θ ) . 音声フレーム全体の各複素数 Xm を計算すると、2 層のループになります. 疑似コードは次のとおりです:
写真の説明を追加してください
実データで取り込まれる例は次のとおりです.各複素数. 対応する実部 real_part と虚部 imaginary_part は、それぞれ加算も簡略化もされません:
ここに画像の説明を挿入

Xk変換後の周波数領域と変換前の周波数の関係を調べてみました。サンプリング周波数 Sampling Frequency が 25600Hz で、離散フーリエ変換のために 256 個のデータを連続的にサンプリングすると、周波数領域グラフに変換した後、最小の周波数間隔 (つまり、間隔) は 25600/256=100Hz になりますXk。フィールド ダイアグラムでは、0 から 100Hz ごとに点が描かれます。サンプリングした音の周波数が 200Hz の場合、周波数ドメイン図で対応するエネルギーを確認できます。

時間-周波数グラフ スペクトログラム

時間-周波数グラフ スペクトログラムは、下図のように、横軸が時間、縦軸が周波数、縦軸が周波数で、時間、周波数、周波数に応じて変化するエネルギーなど、すべての情報を画像上に表示することに相当します。色はエネルギーを表し、色が白くなるほどエネルギーが大きくなります。

垂直方向に見ると、各ウィンドウは、フーリエ変換 FT によってサウンド フレームのセクションによって生成されるエネルギーの周波数依存変化のイメージです。各音声フレームのフーリエ変換に時間の次元が追加されるため、音声のフレームの代わりに音声のセグメントの周波数スペクトルを表示でき、静的および動的な情報を直感的に見ることができます。

ここに画像の説明を挿入
ここに画像の説明を挿入
時間-周波数図で表示される重要な情報は、ウィンドウのサイズによって異なります. ウィンドウが大きいほど周波数分解能が高くなり、ウィンドウが小さいほど時間分解能が高くなります.
写真の説明を追加してください

おすすめ

転載: blog.csdn.net/qq_44036439/article/details/126851272