サウンドファイルについての話

【序文】

少し前に、同僚が非常に問題のあるクライアントに遭遇しました。苦戦の理由は、顧客が 100MB ~ 200MB 以上の曲ファイルを提供するように要求したためです。そして、同僚はオーディオ形式についてあまり詳しくないため、FLAC、WAV、オーディオサイズについて際限なく議論が始まりました。結局、同僚は何が起こっているのか顧客に明確に説明しませんでした。

その後、いくつかの出来事があり、音楽業界には、音楽に対する理解が非常に限られており、基本的な音楽関連の知識すら欠如している実践者が多すぎると感じました。理解しようという考えすらないのに、とても悲しくなります。音楽の商品属性は 1 つだけで、実務者はユーザーの購買記録というビッグデータをもとに棚を整理し、さまざまな商品をコード化し、ユーザーに商品を勧めるだけでよく、ユーザーがなぜそれを好むのかなどまったく考えていません。これらの製品の特徴を知り、コールドデータを活用してユーザーにさまざまなサービスを提供します。

だから、何か書かないといけないと思うんですけど、実践者が本当に音楽を愛する人になることを期待しているわけじゃないんです、まだ「彼女」を商品としてしか思っていないとしても、まずは自分が何なのかを知ってもらえればと思います。販売中です。

追伸:初回の講義内容はメディアファイルに関するもので、専門的な内容が多いため、少し退屈に感じますが、黙って読んでいただくと、実は非常に理解しやすい内容となっております。分かりやすく理解できるので、能力向上に最適です。レコードや音楽スタイルなどに関する興味深いコンテンツも近日公開予定ですので、ご期待ください。

【文章】

ビットレート、サンプルレート、ロスレス、MP3、FLAC、APE、320kb、192kb、128kb、44.1khz、CBR、VBR。このさまざまな名前の山は、見慣れたものでもあり、奇妙でもありますか?

ビットレートが高いほど、音質は良くなります。ロスレス音楽は最高の音質ですが、これは本当ですか? それでは、サウンドコレクションから始めましょう。

【音声構成】

現在、オーディオと呼ばれるものはデジタルオーディオです。デジタルオーディオは、サンプリング周波数、サンプリング精度、サウンドチャンネル数の 3 つの部分で構成されます。

サンプリング周波数: サンプリング レートは、サウンドを録音するときの 1 秒あたりのサンプル数を指し、ヘルツ (Hz) で表されます。

サンプリング精度: 録音されたサウンドのダイナミック レンジをビット (Bit) 単位で表します。

サウンド チャンネル: サウンド チャンネルの数 (1 ~ 8)。

<img src="https://pic1.zhimg.com/50/7745e85fed03c093addc424d5b437e9a_hd.jpg" data-rawwidth="587" data-rawheight="217" class="origin_image zh-lightbox-thumb" 幅= "587" data-original="https://pic1.zhimg.com/7745e85fed03c093addc424d5b437e9a_r.jpg">

平たく言えば、音波を曲線と考えることができます。曲線は点で構成されており、サンプリング レートは 1 秒あたりの長さの中央にある点の数 (上図の横軸) であることがわかります。 。サンプリング精度は、ダイナミック レンジ (上図の縦軸) の中点の数です。これら 2 つの次元の位置を細かく設定するほど、サウンドの真の再現性が高まり、音質も向上し、当然、オーディオ ファイルのサイズも大きくなります。上記の同僚が会ったクライアントが言ったのは、ソニーがリリースした最新のオーディオフォーマット「ハイレゾオーディオ」で、192kHz/24bit、6チャンネル録音されたオーディオファイルで、当然ロスレスフォーマットのサイズは200以上になるとのこと。メガバイト。

サンプリング レートは、使用の種類に応じて次のようになります (k は 1,000 ビットのシンボル、1khz=1000hz)。

8khz:電話などに使用され、人の声を録音するには十分です。

22.05khz:放送周波数。

44.1kb: オーディオCD。

48khz:DVDやデジタルTVで使用されます。

96khz~192khz:DVDオーディオ、ブルーレイハイビジョンなど。

サンプリング精度の一般的な範囲は 8 ビット〜 32 ビットですが、CD では通常 16 ビットが使用されます。

この時点で友人たちは混乱し始めていますが、音質の良し悪しを決めるのはビットレートではありません。では、なぜみんな128kbよりも320kbの方が音質が良いと言うのでしょうか?

【音声圧縮】

さて、実際、ビットレートは別次元と言うべきで、オーディオファイルの一種の圧縮です。

現在、私たちが一般的に使用している音声フォーマットのほとんどは、オーディオCDのオリジナルファイル「WAV」ファイル(サンプリングレート44.1khz、サンプリング精度16bit、2チャンネル)をベースにしています。録音された元の音声データを配列して格納するのがPCM形式であり、WAV形式はMicrosoft社が開発した符号化形式であり、PCM形式のデータを符号化して再生する機能を持ちます。

WAV のデータは基本的に PCM データを完全に復元するため、ロスレス、MP3、AAC などの他のエンコード形式は基本的に WAV ファイルに基づいて再圧縮されます。したがって、WAV がオリジナルのオーディオ形式であり、その他のオーディオ形式は圧縮形式であると単純に考えることができます。

圧縮に関して言えば、保存と送信は切り離せないものです。圧縮の目的は保存と送信を改善することです。したがって、圧縮について話す前に、コンピュータの基本単位についてある程度理解する必要があります。

コンピューターが 2 進数システムであり、コンピューターに保存されているファイルが 0 と 1 の 2 つの数字で構成されていることは誰もが知っています。したがって、コンピュータの伝送はそれぞれの数字に基づいて行われ、それぞれの数字を1「ビット(bit)」と呼びます。たとえば、オーディオの場合、その基本データは「0、1、1、1、0、 1、1、0」であり、送信時にはこれらの数字を1つずつ送信します。上記サンプリング精度はこの単位です。

コンピュータの記憶単位は「バイト(Byte)」で、コンピュータでは1バイトは8ビット、つまり8b(ビット)=1B(バイト)で構成されています。コンピュータ言語では、データの保存は 10 進数で表現され、データの送信は 2 進数で表現されるため、1KB=1024B=1024×8b となります。これは、表示されるハード ドライブの容量が実際の容量と一致しない理由の 1 つでもあります。

オーディオ圧縮の話に戻ってください。オーディオ ビット レートは実際には圧縮率です。したがって、ビット レートは実際にはファイルのサイズを定義するだけですが、通常の状態では、ファイルが大きくなるほど、失われるデータが少なくなるため、音質は相対的に高くなります。ただし、ビットレート自体はファイルの品質に直接影響を与えるわけではなく、たとえば 128kb のファイルをソースファイルとして使用した場合、それを 320kb のファイルに変換しても音質は向上しません。 128kbより。

では、ビットレートの数字や文字は正確には何を意味するのでしょうか? まず、128k「128kbps」の完全な名前を見てみましょう。128 は数字、k は千の文字、b は単位、s は秒、そして ps は実際には「/s」です。このように、128kbps は 128kb/s です。つまり1秒あたり128kbです。

ここでの b は小文字の b、つまりビットであることに注意してください。これを知っていると、128 kb ファイルが占めるストレージ容量を計算できます: 128*1000=128000b/s÷8=16000B/s÷1024=15.625KB/s*60=937.5KB/分÷1024=0.9155 MB/分。したがって、128kb オーディオ ファイルのサイズは約 0.92M または 1 分あたり 916kb であり、128kb mp3 のサイズは約 1M であるのはこのためです。ローカルでテストして検証できます。

非可逆性と可逆性について説明する前に、さらに 2 つの言葉で説明します。つまり、MP3 を圧縮するときの CBR と VBR について説明します。また、CBR は Constants Bit Rate、固定ビット レートであり、VBR は Variable Bit Rate、動的ビット レートです。理論的に言えば、VBR 方式は、オーディオ ソース ファイル内のサウンドの特定の周波数に応じて一部のビット レートを自動的に修正し、同じビット レート効果でより小さなファイルを実現します。

可逆と可逆についてもう一度話しましょう。簡単に言うと、非可逆圧縮は既存のデータの中から重要度の低いデータを削除することで圧縮の目的を達成すること、可逆圧縮は配置を最適化することで圧縮の目的を達成することです。これらの圧縮方法にはより深い技術的知識が含まれるため、これ以上は述べませんが、おそらく次のように考えることができます: 非可逆圧縮は、目的を達成するために記事内の重要でない部分を削除するようなものです。解凍後、削除されたコンテンツは復元できません。復元され、ロスレスは植字によって実現され、解凍後は、一般的に使用されている winzip や WinRAR と同様に、完全な WAV データを取得できます。

ロスレスフォーマットの中では、APE(Monkey's audio)とFLAC(Free Lossless Audio Codec)が現在よく使われています。前者はビットレートが小さく、後者は普及が容易ですが、FLAC は伝送が中断された後も伝送データをそのまま利用できる点が異なります。例えば、APE形式で音楽をダウンロードすると、すべてのデータがダウンロードされるまで待ってから再生する必要がありますが、FLACでは異なり、1/3だけダウンロードすれば、1/3のコンテンツを再生できます。初め。

これを見ると、WAV ファイルもエンコード形式の一種であることがお分かりかと思いますが、WAV ファイルにも一定のビット レートがあるのでしょうか。そうです、標準的な WAV ファイルのビット レートは 1411kb で、可逆圧縮はソース ファイルの内容に応じて約 900 ~ 1000 です。標準サイズは自分で計算できます。

【市販のコーディングモードの違い】

64kb aac (Apple が使用するオーディオ形式) の音質は 128kb MP3 の音質に似ているという意見をよく見かけますが、サイズは MP3 の半分にすぎません。Microsoftを含めたwmaの規模は比較的小さいのに、なぜ現在主流の音声形式は未だにmp3なのでしょうか?

この問題については、具体的に調べたわけではありませんが、総合ネットワーク上では次のような状況が考えられます。

1. MP3 はインターネットで普及している最も初期のオーディオ コーディング標準であり、人々の行動習慣とネットワーク全体がデコーディングをサポートしているため、より有利になります。

2. エンコード方式が異なると、ビットレートごとに利点が異なりますが、192kb ~ 224kb の範囲では、MP3 形式の音質が依然として絶対的な利点を持っています。

3. Napster の無料 MP3 ダウンロード Web サイトから主要なウォークマン プレーヤーのサポートに至るまで、MP3 は広く普及しましたが、その後の AAC フォーマットはそれほど大規模な普及の機会に恵まれず、結果として 10 年以上主流になりませんでした。

PS: AAC と MP3 は、実は同じ MPEG 規格から派生したもので、AAC は誕生当初に MP3 の後継として登場しました。

さらに、ネチズンからのテスト結果は次のように参考として使用できます。

OGG アドバンテージ範囲: 96K 以上 (OGG)

AAC の有利な範囲: AAC LC は 256K AAC HE 48K-96K より高くなければなりません (両端を含む)

Mp3 の有利な範囲: 192K 以上 (両端を含む)

WMA の有利な範囲: 128K 未満 (両端を含む)



非可逆フォーマットについての個人的な感想:
非可逆形式の場合、ビット レートが高いほど優れています。符号化率が高く、波形歪みが少ないだけでなく、周波数減衰も少ない。
スペクトル枯渇の程度に従って非可逆オーディオ形式をランク付けする必要がある場合: (Mp3 は CBR を指し、AAC は LC を指します)
同じコードレート (CBR) の下で
320K 以上の OGG、AAC はほぼロスレス
320K OGG=AAC>Mp3>WMA
256K OGG>AAC>Mp3>WMA
224K OGG>Mp3>AAC
>WMA 192K OGG>Mp3>WMA>AAC
128K OGG>WMA>AAC>Mp3
96K AAC(HE)>OGG>WMA>Mp3 (この時OGGはかなり歪んでますので、聴感上はAAC(HE)>WMA>OGG>Mp3かもしれません) 64K AAC(HE)>OGG>WMA>Mp3 (OGGは現時点ではひどく歪んでいる
ため、聞こえは AAC(HE)>WMA>OGG>Mp3 になる可能性があります)
シリアルナンバー
フォーマット
仕様
実際のコードレート
実際のサイズ
最高周波数
ねじれ
歪みの程度
1
1411 46.1 22歳以上
なし
なし
2
エイプ 速い 960 31.3 22歳以上
なし
なし
3
非常識 936 30.6 22歳以上
なし
なし
4
FLAC V0 1030 33.5 22歳以上
なし
なし
5
V8 969 31.6 22歳以上
なし
なし
6
WavPack 普通 970 31.6 22歳以上
なし
なし
7
ウルトラ 953 31.1 22歳以上
なし
なし
8
MP3 CBR 320 10.4 21.5
はい
小さい
9
256 8.36 20.9
はい
真ん中
10
224 7.31 19.6
はい
真ん中
11
192 6.27 19.6
はい
真ん中
12
128 4.18 15.5
はい
大きい
13
96 3.13 12.2
はい
大きい
14
64 2.08 8.8
はい
大きい
15
V0 273 8.93 19.2
はい
小さい
16
v2 221 7.23 18.5
はい
大きい
17
V4 159 5.22 16.9
はい
真ん中
18
V6 130 4.26 15.5
はい
大きい
19
V8 100 3.29 12.8
はい
素晴らしい
20
MP3プロ CBR 96 3.13 22歳以上
はい
真ん中
21
64 2.09 18.1
はい
大きい
22
WMA CBR 320 10.4 20.2
はい
小さい
23
256 8.39 20.3
はい
小さい
24
224 データなし データなし
データなし
データなし
25
192 6.3 18.7
はい
真ん中
26
128 4.2 16.1
はい
大きい
27
96 3.16 13.6
はい
大きい
28
64 2.11 11.7
はい
大きい
29
AAC LC448 443 14.5 22歳以上
はい
小さい
30
LC320 316 10.4 22歳以上
はい
小さい
31
LC256 253 8.35 21.4
32
LC224 221 7.31 18.4
33
LC192 190 6.27 18.2
34
LC128 126 4.19 15.9
35
HC96 94 3.13 20.4
36
HC64 63 2.1 20.4
37
OGG Q10 499 16.3 22+
38
Q9 334 10.9 22+
39
Q8 257 8.41 22+
40
Q7 225 7.38 22+
41
Q6 194 6.35 21.6
42
Q4 133 4.35 19.2
43
Q2 93 3.04 16.8
44
Q0 64 2.05 15.6
极大
不等码率(VBR)下请参照上表交叉对比
另外各种格式都有自己的优势码率范围:
OGG的优势范围:96K以上(OGG)
AAC的优势范围:AAC LC应高于(包含)256K AAC HE 48K-96K( AAC HE真强
Mp3的优势范围:192K(包含)以上
WMA的优势范围:128K(包含)以下
如果你的机器支持,128K(包含)以上请用OGG,64K-96K请用AAC(HE)
如果你的机器只支持WMA和Mp3,192K以上(包含)请用Mp3,128K以下(包含)请用WMA
64K以下什么格式都很衰,所以请至少保留64K以上的码率
单从频率范围来讲:
对于1个理论上的正常人来说,听觉范围大约为50Hz-20KHz。那么你的选择为
Mp3 CBR 码率高于(包含)224K
WMA 码率高于(包含)224K
AAC LC 码率高于(包含)256K 、AAC HE 码(包含)率高于48K
OGG 码率高于(包含)192K
Mp3-pro 码率高于(包含)80K
Mp3 VBR 高频不合格!
对于1个普通音乐迷来说,听觉范围大约为1KHz~16KHz。那么你的选择为
Mp3 CBR 码率高于(包含)192K
Mp3 VBR 码率高于V6编码 即高于128K
WMA 码率高于(包含)128K
AAC LC 码率高于(包含)128K、AAC HE 码率高于(包含)48K
OGG 码率高于(包含)96K
Mp3-Pro 码率高于(包含)56K
当然还有金耳朵们,听觉范围大约为 20Hz~22KHz 。那么你的选择为
首先当然是无损,然后有损里面可以试试:
Mp3 CBR 码率高于(包含)224K
WMA 码率高于(包含)224K
AAC LC 码率高于(包含)256K、AAC HE 码率高于(包含)48K
OGG 码率高于(包含)192K
Mp3-Pro 码率高于(包含)80K
Mp3 VBR 高频不合格!
当然,每个人都有自己的感觉
例如Mp3 CBR的低频有点差,所以听古典音乐觉得很生硬……等等
这个感觉问题就只有大家自己慢慢体会了!
附:各频率对人耳的刺激即听觉感受
16K~20KHz频率:
这段频率范围实际上对于人耳的听觉器官来说,已经听不到了,因为人耳听觉的最高频率是15.1KHz。但是,人可以通过人体和头骨、颅骨将感受到的16~20KHz频率的声波传递给大脑的听觉脑区,因而感受到这个声波的存在。这段频率影响音色的韵味、色彩、感情味。如果音响系统的频率响应范围达不到这个频率范围,那么音色的韵味将会失落;而如果这段频率过强,则给人一种宇宙声的感觉,一种幻觉,一种神秘莫测的感觉,使人有一种不稳定的感觉。因为这些频率大多数是基音的不谐和音频率,所以会产生一种不安定的感受。这段频率在音色当中强度很小,但是很重要,是音色的表现力部分,也是常常被人们忽略的部分,甚至有些人根本感觉不到它的存在。
12K~16KHz频率:
这是人耳可以听到的高频率声波,是音色最富于表现力的部分,是一些高音乐器和高音打击乐器的高频泛音频段,例如镲、铃、铃鼓、沙锤、铜刷、三角铁等打击乐器的高频泛音,可给人一种“金光四射”的感觉,强烈地表现了各种乐器的个性。如果这段频率成分不足,则音色将会会失掉色彩,失去个性;而如果这段频率成分过强,如激励器激励过强,音色会产生“毛刺”般尖噪、刺耳的高频噪声,对此频段应给予一定的适当的衰减。
10K~12KHz频率:
这是高音木管乐器的高音铜管乐器的高频泛音频段,例如长笛、双簧管、小号、短笛等高音管乐器的金属声非常强烈。如果这段频率缺乏,则音色将会失去光泽,失去个性;如果这段频率过强,则会产生尖噪,刺耳的感觉。
8K~10KHz频率:
这段频率s音非常明显,影响音色的清晰度和透明度。如果这频率成分缺少,音色则变得平平淡淡;如果这段频率成分过多,音色则变得尖锐。
6K~8KHz频率:
这段频率影响音色的明亮度,这是人耳听觉敏感的频率,影响音色清晰度。如果这段频率成分缺少,则音色会变得暗淡;如果这段频率成分过强,则音色显得齿音严重。
5K~6KHz频率:
这段频率最影响语音的清晰度、可懂度。如果这段频率成分不足,则音色显得含糊不清;如果此段频率成分过强,则音色变得锋利,易使人产生听觉上的疲劳感。
4K~5KHz频率:
这段频率对乐器的表面响度有影响。如果这段频率成分幅度大了,乐器的响度就会提高;如果这段频率强度变小了,会使人听觉感到这种乐器与人耳的距离变远了;如果这段频率强度提高了,则会使人感觉乐器与人耳的距离变近了。
4KHz频率:
这个频率的穿透力很强。人耳耳腔的谐振频率是1K~4KHz所以人耳对这个频率也是非常敏感的。如果空虚频率成分过少,听觉能力会变差,语音显得模糊不清了。如果这个频率成分过强了,则会产生咳声的感觉,例如当收音机接收电台频率不正时,播音员常发出的咳音声。
2K~3KHz频率:
这段频率是影响声音明亮度最敏感的频段,如果这段频率成分丰富,则音色的明亮度会增强,如果这段频率幅度不足,则音色将会变得朦朦胧胧;而如果这段频率成分过强,音色就会显得呆板、发硬、不自然.
1K~2KHz频率:
这段频率范围通透感明显,顺畅感强。如果这段频率缺乏,音色则松散且音色脱节;如果这段频率过强,音色则有跳跃感。
800Hz频率:
这个频率幅度影响音色的力度。如果这个频率丰满,音色会显得强劲有力;如果这个频率不足,音色将会显得松弛,也就是800Hz以下的成分特性表现突出了,低频成分就明显;而如果这个频率过多了,则会产生喉音感。人人都有一个喉腔,人人都有一定的喉音,如果音色中的喉音成分过多了,则会失掉语音的个性、失掉音色美感。因此,音响师把这个频率称为"危险频率",要谨慎使用。
500Hz~1KHz频率:
这段频率是人声的基音频率区域,是一个重要的频率范围。如果这段频率丰满,人声的轮廓明朗,整体感好;如果这段频率幅度不足,语音会产生一种收缩感;如果这段频率过强,语音就会产生一种向前凸出的感觉,使语音产生一种提前进人人耳的听觉感受。
300Hz~500Hz频率:
这段频率是语音的主要音区频率。这段频率的幅度丰满,语音有力度。如果这段频率幅度不足,声音会显得空洞、不坚实;如果这段频率幅度过强,音色会变得单调,相对来说低频成分少了,高频成分也少了,语音会变成像电话中声音的音色一样,显得很单调。
150Hz~300Hz频率:
这段频率影响声音的力度,尤其是男声声音的力度。这段频率是男声声音的低频基音频率,同时也是乐音中和弦的根音频率。如果这段频率成分缺乏,音色会显得发软、发飘,语音则会变得软绵绵;如果这段频率成分过强,声音会变得生硬而不自然,且没有特色。
100Hz~150Hz频率:
这段频率影响音色的丰满度。如果这段频率成分增强,就会产生一种房间共鸣的空间感、混厚感;如果这段频率成分缺少,音色会变得单薄、苍白;如果这段频率成分过强,音色将会显得浑浊,语音的清晰度变差。
60Hz~100Hz:
这段频率影响声音的混厚感,是低音的基音区。如果这段频率很丰满,音色会显得厚实、混厚感强。如果这段频率不足,音色会变得无力;而如果这段频率过强,音色会出现低频共振声,有轰鸣声的感觉。
20Hz~60Hz频率:
这段频率影响音色的空间感,这是因为乐音的基音大多在这段频率以上。这段频率是房间或厅堂的谐振频率。如果这段频率表现的充分,会使人产生一种置身于大厅之中的感受;如果这段频率缺乏,音色会变得空虚;而如果这段频率过强,会产生一种嗡嗡的低频共振的声音,严重地影响了语音的清晰度和可懂度。

おすすめ

転載: blog.csdn.net/tianhai110/article/details/79213496