音声をデジタル信号に保存する方法

外界からの音を収集するにはどうすればよいですか?
マイクを例に挙げると、
ここに画像の説明を挿入します

  1. まず、音波は空気中を伝わり、マイクの振動板に到達します。
  2. 次に、空気によるダイアフラムの振動の振幅によって、対応する電気信号が生成されます。この音響表現を伴う電気信号をアナログ信号と呼びます。
  3. 最後に、アナログ信号は、A/DC (アナログ デジタル コンバーター) を通じてデジタル信号 (デジタル信号) に変換されます。つまり、PCM (Pulse Code Modulation) パルス コード変調を通じて、連続的に変化するアナログ信号がサンプリング、量子化され、離散デジタル信号にエンコードされます。

私たちがよく呼ぶPCM ファイルは、カプセル化されていないオリジナルのオーディオ ファイル、またはオーディオの「裸のデータ」です。では、具体的なオーディオデジタル信号はどのように構成されているのでしょうか? これには、サンプリング ビット深度、サンプリング レート、チャネル数という 3 つの基本概念が関係します。

  1. サンプリング ビット深度
    サンプリング ビット深度は、各サンプリング ポイントを表すために使用されるビット数です。たとえば、ビット深度が 16 の場合、各サンプリング ポイントの保存に 16 ビットが必要であることを意味します。
    物理的な意味では、ビット深度は振動振幅の精度または粒度を表します。デジタル信号が 1 から -1 までの範囲であると仮定します。ビット深度が 16 ビットの場合、最初のビットは符号を表し、残りの 15 ビットは 0 から 32767 までの数値を表すことができ、振幅は次のように正確になります。 1/32768 の粒度。通常、インターネット電話通話では 16 ビットのビット深度が使用されますが、これは聴覚に影響を与えず、ストレージと通信の消費量もそれほど大きくありません。
    音楽制作やより高い忠実度が必要なシーンでは、32 ビットまたは 64 ビットのビット深度を使用して歪みを軽減することができます。8bitでは
    歪みが
    さらに深刻になります。初期の頃は、オーディオ技術の限界により、多くのオーディオは 8 ビットであり、音がぼやけて見えましたが、現在では一部の電話、トランシーバー、その他の機器のみが使用されています。

  2. サンプリング レート
    サンプリング レートは、1 秒以内に収集されるサンプリング ポイントの数であり、通常はヘルツ Hz で表されます。たとえば、1 秒間に 48,000 のサンプリング ポイントがある場合、サンプリング レートは 48,000Hz (48kHz) になります。
    ナイキストのサンプリング定理によると、アナログ/デジタル信号の変換プロセス中、サンプリング周波数 fs が信号の最高周波数 fmax の 2 倍より大きい場合 (fs > 2fmax)、サンプリング後のデジタル信号は元の信号を完全に保持できます。信号の情報が入ります。つまり、サンプリングレートと残留音周波数の関係は基本的に2倍となります。
    さまざまなサンプリング レートでのスペクトル エネルギー分布 (48kHz (上) と 16kHz (下))
    この図から、16kHz のサンプリング レートのオーディオには、8kHz を超えるスペクトルに基本的にエネルギー (黒) がないことがわかります。これは、高周波情報のこの部分がサンプリング レートが不十分なために失われていることを意味します。聴覚に関して言えば、人間の耳が聞こえる周波数範囲はおよそ 50 ~ 20kHz の間ですサンプリングレートが十分でない場合、実際のリスニング体験に比べて音が「低く」または「こもった」ように聞こえます。

では、サンプリングレートは高いほど良いのでしょうか?

  • 人間の声を聞いて相手の言っている内容を理解したいだけの場合は、送信ビットレートを節約するためにサンプリングレートを 8kHz に下げることができます (電話をかける場合など)。
  • 音質と伝送帯域幅消費のバランスをとる必要があるネットワークオーディオおよびビデオ会議のシナリオでは、通常、16kHz または 32kHz のサンプリングレートを使用できます。
  • オンライン コンサートやライブ音楽ブロードキャストの場合、通常は音質を確保するために 44.1kHz や 48kHz などのより高いサンプリング レートを使用します。もっと極端に言えば、音楽を録音するときは、その後のチューニングや制作を容易にするために、96kHz 以上のサンプリング レートを使用します (これはサンプリング レートであり、音の周波数ではないことに注意してください)。

チャンネル数

  • スピーカーを購入する際に「2.1チャンネル」「5.1チャンネル」などの言葉を聞いたことがあると思いますが、これらの数字は再生ユニットの数を表しています。たとえば、2.1 チャンネルでは、2 は左右のスピーカーを指し、1 は中低音スピーカーを指します (図 4 を参照)。各スピーカーは別々の音声を再生しますが、このとき 3 つの音声信号を同時に再生する必要があるか、チャンネル数は 3 です。
    図 4 2.0 チャンネル スピーカー (左)、ステレオ ヘッドフォン (中央)、2.1 チャンネル スピーカー (右)

  • マルチチャンネル再生だけでなく、マルチチャンネルデータの収集も可能です。たとえば、マイク アレ​​イによって収集された元の信号には、マイクの数と同じ数のオーディオ信号のチャネルが含まれます。

したがって、ここでのチャネル数の物理的な意味は、実際には同時に収集または再生されるオーディオ信号の総数です。

これから、他の 2 つの値、ストレージ容量とビット帯域幅が導出されます。

  • PCM オーディオ ファイルのストレージ サイズは、サンプリング ビット深度、サンプリング レート、チャンネル数、および継続時間を累積的に乗算したものです。
  • リアルタイム送信に必要な帯域幅は、必要な 1 秒あたりのビット数です。したがって、前者よりも 1 つ短い期間が乗算されます。

オリジナルの音声データは多くのスペースと帯域幅を消費することがわかります。そのため、ファイルを圧縮するためのアルゴリズムが作成され、デコード/エンコード ツールも必要になります。

デコードされたデータが非可逆かどうかに応じて、これらの圧縮アルゴリズムは非可逆オーディオ エンコード カプセル化形式と可逆オーディオ エンコード カプセル化形式に分類できます
ここに画像の説明を挿入します
その中でも、wav は、pcm ファイルを迅速にカプセル化できる圧縮アルゴリズムです。

おすすめ

転載: blog.csdn.net/weixin_45719581/article/details/131232228