Falando sobre arquivos de som

【Prefácio】

Algum tempo atrás, um colega encontrou um cliente muito confuso. O motivo da dificuldade é que o cliente pediu que ela fornecesse arquivos de música com tamanho de 100 MB a 200 MB ou mais. E meus colegas não sabem muito sobre formatos de áudio, então comecei intermináveis ​​emaranhados sobre FLAC, WAV e tamanhos de áudio. No final, o colega não explicou claramente ao cliente o que estava acontecendo.

Depois, algumas outras coisas aconteceram, o que me fez sentir que na indústria da música, há muitos praticantes ao meu redor que têm pouquíssimo entendimento de música, mesmo algum conhecimento básico relacionado à música, além do mais, esse conhecimento não é de todo ser valorizado, os praticantes não têm nem ideia de entender, o que me deixa muito triste. Parece que a música tem apenas um atributo de produto, e nossos praticantes só precisam organizar as prateleiras, codificar vários produtos e recomendar produtos aos usuários com o big data dos registros de compra do usuário, sem se importar com o motivo pelo qual os usuários gostam disso. quais são as características desses produtos e usam dados frios para fornecer aos usuários vários serviços.

Portanto, acho que é necessário escrever algo. Não espero que os praticantes se tornem pessoas que realmente amam a música. Só espero que, mesmo que você ainda pense apenas em "ela" como uma mercadoria, você possa primeiro saber o que você é vendendo. .

PS: O conteúdo da primeira palestra é sobre arquivos de mídia. Como o conteúdo relevante envolve muitas questões técnicas, parece um pouco chato, mas se você ler com calma, verá que na verdade é muito fácil de entender. Esses conhecimentos básicos pode ser facilmente compreendido. Bom para melhorar suas habilidades. Por favor, também aguardem mais conteúdos interessantes sobre discos, estilos musicais, etc. que lançarei em breve.

【texto】

Taxa de bits, taxa de amostragem, sem perdas, MP3, FLAC, APE, 320kb, 192kb, 128kb, 44,1 khz, CBR, VBR. Essa pilha de vários nomes torna você familiar e estranho?

Quanto maior a taxa de bits, melhor a qualidade do som. E a música sem perdas é a mais alta qualidade de som, isso é verdade? Então, vamos começar com a coleta de som.

【Composição de áudio】

Atualmente, o que chamamos de áudio é o áudio digital. O áudio digital consiste em três partes: frequência de amostragem, precisão de amostragem e número de canais de som.

Frequência de amostragem: A taxa de amostragem refere-se ao número de amostras por segundo ao gravar o som, que é expresso em Hertz (Hz).

Precisão de amostragem: refere-se à faixa dinâmica do som gravado, que está em bit (Bit).

Canal de som: o número de canais de som (1-8).

<img src="https://pic1.zhimg.com/50/7745e85fed03c093addc424d5b437e9a_hd.jpg" data-rawwidth="587" data-rawheight="217" class="origin_image zh-lightbox-thumb" largura="587" data-original="https://pic1.zhimg.com/7745e85fed03c093addc424d5b437e9a_r.jpg">

Em termos leigos, podemos pensar em uma onda sonora como uma curva. Sabemos que uma curva é composta de pontos, e a taxa de amostragem é o número de pontos no meio do comprimento por segundo (eixo horizontal na figura acima) . A precisão da amostragem é o número de pontos médios na faixa dinâmica (o eixo vertical na figura acima). Quanto mais fino o posicionamento dessas duas dimensões, maior a reprodução real do som, melhor a qualidade do som e, claro, maior o arquivo de áudio. O que o cliente encontrado pelo colega acima disse foi o mais recente formato de áudio Hi-Res Audio lançado pela SONY, que é um arquivo de áudio gravado de 6 canais em 192kHz/24bit. Claro, o tamanho do formato sem perdas será superior a 200 megabytes.

A taxa de amostragem é aproximadamente a seguinte de acordo com o tipo de uso (k é um símbolo de mil bits, 1khz=1000hz):

8khz: Usado para telefone, etc., é suficiente para gravar a voz humana.

22,05 khz: Frequência de transmissão.

44,1 kb: CD de áudio.

48khz: Usado em DVD e TV digital.

96khz-192khz: DVD-Audio, Blu-ray de alta definição, etc.

A faixa comum de precisão de amostragem é de 8 bits a 32 bits, enquanto 16 bits é geralmente usado em CD.

Neste ponto, meus amigos estão começando a ficar confusos. Não é a taxa de bits que determina se a qualidade do som é boa ou ruim. Então, por que todos dizem que a qualidade do som de 320kb é melhor que a de 128kb?

【Compressão de áudio】

Bem, na verdade, a taxa de bits deve ser considerada outra dimensão, é uma espécie de compactação de arquivos de áudio.

Atualmente, a maioria dos formatos de áudio que usamos são baseados no arquivo original "WAV" do CD de áudio (taxa de amostragem 44,1 khz, precisão de amostragem 16 bits, 2 canais). Os dados de som gravados originais são armazenados em um array, que é o formato PCM, e o formato WAV é um formato de codificação desenvolvido pela Microsoft, cuja função é reproduzir os dados no formato PCM por meio de codificação.

Como os dados em WAV basicamente restauram totalmente os dados PCM, outros formatos de codificação, como sem perdas, MP3, AAC, etc., são basicamente recompactados com base em arquivos WAV. Portanto, podemos simplesmente pensar que WAV é o formato de áudio original e outros formatos de áudio são formatos compactados.

Quando se trata de compactação, armazenamento e transmissão são inseparáveis. O objetivo da compactação é para melhor armazenamento e transmissão. Portanto, antes de falarmos sobre compactação, precisamos entender um pouco as unidades básicas dos computadores.

Todos sabemos que o computador é um sistema numérico binário e os arquivos armazenados no computador são compostos por dois números, 0 e 1. Portanto, a transmissão do computador é baseada em cada número, e cada número é chamado de 1 "bit (bit)". Por exemplo, para um trecho de áudio, seus dados básicos são "0,1,1,1,0, 1, 1,0", e ao transmitir, esses números são transmitidos um a um. A precisão de amostragem mencionada acima é esta unidade.

A unidade de armazenamento de um computador é o "byte (Byte)".Em um computador, um byte é composto por 8 bits, ou seja, 8b (bit) = 1B (Byte). Em linguagem de computador, o armazenamento de dados é expresso em decimal e a transmissão de dados é expressa em binário, então 1KB=1024B=1024×8b. Isso também é parte do motivo pelo qual a capacidade do disco rígido que vemos não corresponde à capacidade real.

Volte e fale sobre compressão de áudio, a taxa de bits de áudio é na verdade a taxa de compressão. Portanto, a taxa de bits na verdade apenas define o tamanho do arquivo, mas em condições normais, quanto maior o arquivo, menos dados ele perde, portanto sua qualidade de som é relativamente maior. Mas a taxa de bits em si não afeta diretamente a qualidade do arquivo. Por exemplo, se usarmos um arquivo de 128kb como arquivo de origem, mesmo que seja convertido em um arquivo de 320kb, a qualidade do som ainda não será melhor que 128kb.

Então, o que exatamente significam os números e letras na taxa de bits? Primeiro, olhe para o nome completo de 128k "128kbps", vamos tentar dividi-lo: 128 é um número, k é um caractere de milhar, b é uma unidade, s é um segundo e ps é na verdade "/s". Desta forma, 128kbps é 128kb/s. Isso é 128kb por segundo.

Observe que o b aqui é um b minúsculo, que é o bit. Sabendo disso, podemos calcular quanto espaço de armazenamento ocupa um arquivo de 128kb: 128*1000=128000b/s÷8=16000B/s÷1024=15,625KB/s*60=937,5KB/minuto÷1024=0,9155 MB/min. Portanto, o tamanho dos arquivos de áudio de 128 kb é de cerca de 0,92 M ou 916 kb por minuto, e é por isso que o tamanho do mp3 de 128 kb é de cerca de 1 M. Você pode testar e verificar localmente.

Antes de falar sobre com perdas e sem perdas, há mais duas palavras para explicar para você, ou seja, veremos CBR e VBR ao compactar MP3. E CBR é taxa de bits constante, taxa de bits constante; VBR é taxa de bits variável, taxa de bits dinâmica. Teoricamente falando, o método VBR é corrigir automaticamente algumas taxas de bits de acordo com a frequência específica do som no arquivo de origem de áudio, de modo a obter um arquivo menor com o mesmo efeito de taxa de bits.

Vamos falar sobre perdas e sem perdas novamente. Simplificando, a compactação com perdas é atingir o objetivo da compactação excluindo alguns dados menos importantes nos dados existentes; a compactação sem perdas é atingir o objetivo da compactação otimizando o arranjo. Como esses métodos de compactação envolvem um conhecimento técnico mais profundo, não vamos falar mais, e provavelmente podemos ver desta forma: a compactação com perdas é como excluir algumas partículas sem importância em um artigo para atingir o objetivo. Após a descompactação, o conteúdo excluído não pode ser recuperado; sem perdas é obtido por meio de composição e, após a descompactação, dados WAV completos podem ser obtidos, assim como nosso winzip e WinRAR comumente usados.

Entre os formatos sem perdas, APE (áudio do macaco) e FLAC (Free Lossless Audio Codec) são comumente usados ​​atualmente. O primeiro tem uma taxa de bits menor, enquanto o segundo é mais fácil de espalhar, a diferença é que o FLAC pode usar os dados transmitidos diretamente após a interrupção da transmissão. Por exemplo, se baixamos uma música no formato APE, devemos esperar que todos os dados sejam baixados antes de reproduzi-la. No entanto, o FLAC é diferente. Você só baixa 1/3 e pode reproduzir o conteúdo 1/3 primeiro.

Vendo isso, acho que você já pensou que os arquivos WAV também são um tipo de formato de codificação, então ele também tem uma certa taxa de bits? É isso mesmo, a taxa de bits de um arquivo WAV padrão é de 1411kb e a compactação sem perdas é de cerca de 900-1000, dependendo do conteúdo do arquivo de origem. Você pode calcular seu tamanho padrão sozinho.

[A diferença entre diferentes modos de codificação no mercado]

Frequentemente vemos alguns ditados de que a qualidade do som de 64kb aac (o formato de áudio usado pela Apple) é semelhante à do MP3 de 128kb, mas tem apenas metade do tamanho do MP3. O tamanho do wma, incluindo a Microsoft, é relativamente pequeno, mas por que o formato de áudio mainstream atual ainda é mp3?

Sobre esse assunto, não estudei especificamente, mas algumas situações na rede abrangente podem ser as seguintes:

1. MP3 é o primeiro padrão de codificação de áudio popular na Internet. Os hábitos de comportamento das pessoas e toda a decodificação de suporte de rede o tornam mais vantajoso.

2. Diferentes métodos de codificação têm diferentes vantagens em diferentes taxas de bits.Na faixa de 192kb-224kb, a qualidade do som do formato MP3 ainda tem uma vantagem absoluta.

3. Do site de download gratuito de MP3 do Napster ao suporte dos principais players de Walkman, o MP3 foi amplamente divulgado e o formato AAC subsequente não encontrou uma oportunidade de disseminação em grande escala, resultando em nenhum mainstream por mais de dez anos.

PS: AAC e MP3 são na verdade derivados do mesmo padrão MPEG.AAC apareceu como o sucessor do MP3 no início de seu nascimento.

Além disso, os resultados dos testes dos internautas podem ser usados ​​como referência, conforme segue:

Faixa de Vantagem OGG: Acima de 96K (OGG)

Faixa de vantagem de AAC: AAC LC deve ser maior que (inclusive) 256K AAC HE 48K-96K

Faixa de vantagem de MP3: acima de 192K (inclusive)

Gama de vantagens de WMA: Abaixo de 128K (inclusive)



Sentimentos pessoais sobre formatos com perdas:
Para qualquer formato com perdas, quanto maior a taxa de bits, melhor. A taxa de código é alta, não apenas a distorção da forma de onda é pequena, mas também a atenuação de frequência é pequena.
Se for necessário classificar os formatos de áudio com perdas de acordo com o grau de esgotamento do espectro: (Mp3 refere-se a CBR, AAC refere-se a LC)
Sob a mesma taxa de código (CBR)
Mais de 320K OGG, AAC são quase sem perdas
320K OGG=AAC>Mp3>WMA
256K OGG>AAC>Mp3>WMA
224K OGG>Mp3>AAC
>WMA 192K OGG>Mp3>WMA>AAC
128K OGG>WMA>AAC>Mp3
96K AAC(HE)>OGG>WMA>Mp3 (OGG está severamente distorcido neste momento, então pode ser AAC(HE)>WMA>OGG>Mp3 na audição) 64K AAC(HE)>OGG>WMA>Mp3 (OGG é severamente distorcido neste
momento, então a audição pode ser AAC(HE)>WMA>OGG>Mp3)
número de série
Formatar
Especificação
Taxa de código real
tamanho atual
frequência mais alta
distorção
grau de distorção
1
Aceno Aceno 1411 46.1 22+
nenhum
nenhum
2
MACACO Rápido 960 31.3 22+
nenhum
nenhum
3
Insano 936 30.6 22+
nenhum
nenhum
4
FLAC V0 1030 33,5 22+
nenhum
nenhum
5
V8 969 31.6 22+
nenhum
nenhum
6
WavPackGenericName Normal 970 31.6 22+
nenhum
nenhum
7
Ultra 953 31.1 22+
nenhum
nenhum
8
MP3 CBR 320 10.4 21.5
sim
Pequeno
9
256 8.36 20.9
sim
meio
10
224 7.31 19.6
sim
meio
11
192 6.27 19.6
sim
meio
12
128 4.18 15,5
sim
grande
13
96 3.13 12.2
sim
grande
14
64 2.08 8.8
sim
grande
15
V0 273 8,93 19.2
sim
Pequeno
16
v2 221 7.23 18.5
sim
grande
17
V4 159 5.22 16.9
sim
meio
18
V6 130 4.26 15,5
sim
grande
19
V8 100 3.29 12.8
sim
ótimo
20
MP3-pro CBR 96 3.13 22+
sim
meio
21
64 2.09 18.1
sim
grande
22
WMA CBR 320 10.4 20.2
sim
Pequeno
23
256 8.39 20.3
sim
Pequeno
24
224 sem dados sem dados
sem dados
sem dados
25
192 6.3 18.7
sim
meio
26
128 4.2 16.1
sim
grande
27
96 3.16 13.6
sim
grande
28
64 2.11 11.7
sim
grande
29
AAC LC448 443 14.5 22+
sim
Pequeno
30
LC320 316 10.4 22+
sim
Pequeno
31
LC256 253 8.35 21.4
32
LC224 221 7.31 18.4
33
LC192 190 6.27 18.2
34
LC128 126 4.19 15.9
35
HC96 94 3.13 20.4
36
HC64 63 2.1 20.4
37
OGG Q10 499 16.3 22+
38
Q9 334 10.9 22+
39
Q8 257 8.41 22+
40
Q7 225 7.38 22+
41
Q6 194 6.35 21.6
42
Q4 133 4.35 19.2
43
Q2 93 3.04 16.8
44
Q0 64 2.05 15.6
极大
不等码率(VBR)下请参照上表交叉对比
另外各种格式都有自己的优势码率范围:
OGG的优势范围:96K以上(OGG)
AAC的优势范围:AAC LC应高于(包含)256K AAC HE 48K-96K( AAC HE真强
Mp3的优势范围:192K(包含)以上
WMA的优势范围:128K(包含)以下
如果你的机器支持,128K(包含)以上请用OGG,64K-96K请用AAC(HE)
如果你的机器只支持WMA和Mp3,192K以上(包含)请用Mp3,128K以下(包含)请用WMA
64K以下什么格式都很衰,所以请至少保留64K以上的码率
单从频率范围来讲:
对于1个理论上的正常人来说,听觉范围大约为50Hz-20KHz。那么你的选择为
Mp3 CBR 码率高于(包含)224K
WMA 码率高于(包含)224K
AAC LC 码率高于(包含)256K 、AAC HE 码(包含)率高于48K
OGG 码率高于(包含)192K
Mp3-pro 码率高于(包含)80K
Mp3 VBR 高频不合格!
对于1个普通音乐迷来说,听觉范围大约为1KHz~16KHz。那么你的选择为
Mp3 CBR 码率高于(包含)192K
Mp3 VBR 码率高于V6编码 即高于128K
WMA 码率高于(包含)128K
AAC LC 码率高于(包含)128K、AAC HE 码率高于(包含)48K
OGG 码率高于(包含)96K
Mp3-Pro 码率高于(包含)56K
当然还有金耳朵们,听觉范围大约为 20Hz~22KHz 。那么你的选择为
首先当然是无损,然后有损里面可以试试:
Mp3 CBR 码率高于(包含)224K
WMA 码率高于(包含)224K
AAC LC 码率高于(包含)256K、AAC HE 码率高于(包含)48K
OGG 码率高于(包含)192K
Mp3-Pro 码率高于(包含)80K
Mp3 VBR 高频不合格!
当然,每个人都有自己的感觉
例如Mp3 CBR的低频有点差,所以听古典音乐觉得很生硬……等等
这个感觉问题就只有大家自己慢慢体会了!
附:各频率对人耳的刺激即听觉感受
16K~20KHz频率:
这段频率范围实际上对于人耳的听觉器官来说,已经听不到了,因为人耳听觉的最高频率是15.1KHz。但是,人可以通过人体和头骨、颅骨将感受到的16~20KHz频率的声波传递给大脑的听觉脑区,因而感受到这个声波的存在。这段频率影响音色的韵味、色彩、感情味。如果音响系统的频率响应范围达不到这个频率范围,那么音色的韵味将会失落;而如果这段频率过强,则给人一种宇宙声的感觉,一种幻觉,一种神秘莫测的感觉,使人有一种不稳定的感觉。因为这些频率大多数是基音的不谐和音频率,所以会产生一种不安定的感受。这段频率在音色当中强度很小,但是很重要,是音色的表现力部分,也是常常被人们忽略的部分,甚至有些人根本感觉不到它的存在。
12K~16KHz频率:
这是人耳可以听到的高频率声波,是音色最富于表现力的部分,是一些高音乐器和高音打击乐器的高频泛音频段,例如镲、铃、铃鼓、沙锤、铜刷、三角铁等打击乐器的高频泛音,可给人一种“金光四射”的感觉,强烈地表现了各种乐器的个性。如果这段频率成分不足,则音色将会会失掉色彩,失去个性;而如果这段频率成分过强,如激励器激励过强,音色会产生“毛刺”般尖噪、刺耳的高频噪声,对此频段应给予一定的适当的衰减。
10K~12KHz频率:
这是高音木管乐器的高音铜管乐器的高频泛音频段,例如长笛、双簧管、小号、短笛等高音管乐器的金属声非常强烈。如果这段频率缺乏,则音色将会失去光泽,失去个性;如果这段频率过强,则会产生尖噪,刺耳的感觉。
8K~10KHz频率:
这段频率s音非常明显,影响音色的清晰度和透明度。如果这频率成分缺少,音色则变得平平淡淡;如果这段频率成分过多,音色则变得尖锐。
6K~8KHz频率:
这段频率影响音色的明亮度,这是人耳听觉敏感的频率,影响音色清晰度。如果这段频率成分缺少,则音色会变得暗淡;如果这段频率成分过强,则音色显得齿音严重。
5K~6KHz频率:
这段频率最影响语音的清晰度、可懂度。如果这段频率成分不足,则音色显得含糊不清;如果此段频率成分过强,则音色变得锋利,易使人产生听觉上的疲劳感。
4K~5KHz频率:
这段频率对乐器的表面响度有影响。如果这段频率成分幅度大了,乐器的响度就会提高;如果这段频率强度变小了,会使人听觉感到这种乐器与人耳的距离变远了;如果这段频率强度提高了,则会使人感觉乐器与人耳的距离变近了。
4KHz频率:
这个频率的穿透力很强。人耳耳腔的谐振频率是1K~4KHz所以人耳对这个频率也是非常敏感的。如果空虚频率成分过少,听觉能力会变差,语音显得模糊不清了。如果这个频率成分过强了,则会产生咳声的感觉,例如当收音机接收电台频率不正时,播音员常发出的咳音声。
2K~3KHz频率:
这段频率是影响声音明亮度最敏感的频段,如果这段频率成分丰富,则音色的明亮度会增强,如果这段频率幅度不足,则音色将会变得朦朦胧胧;而如果这段频率成分过强,音色就会显得呆板、发硬、不自然.
1K~2KHz频率:
这段频率范围通透感明显,顺畅感强。如果这段频率缺乏,音色则松散且音色脱节;如果这段频率过强,音色则有跳跃感。
800Hz频率:
这个频率幅度影响音色的力度。如果这个频率丰满,音色会显得强劲有力;如果这个频率不足,音色将会显得松弛,也就是800Hz以下的成分特性表现突出了,低频成分就明显;而如果这个频率过多了,则会产生喉音感。人人都有一个喉腔,人人都有一定的喉音,如果音色中的喉音成分过多了,则会失掉语音的个性、失掉音色美感。因此,音响师把这个频率称为"危险频率",要谨慎使用。
500Hz~1KHz频率:
这段频率是人声的基音频率区域,是一个重要的频率范围。如果这段频率丰满,人声的轮廓明朗,整体感好;如果这段频率幅度不足,语音会产生一种收缩感;如果这段频率过强,语音就会产生一种向前凸出的感觉,使语音产生一种提前进人人耳的听觉感受。
300Hz~500Hz频率:
这段频率是语音的主要音区频率。这段频率的幅度丰满,语音有力度。如果这段频率幅度不足,声音会显得空洞、不坚实;如果这段频率幅度过强,音色会变得单调,相对来说低频成分少了,高频成分也少了,语音会变成像电话中声音的音色一样,显得很单调。
150Hz~300Hz频率:
这段频率影响声音的力度,尤其是男声声音的力度。这段频率是男声声音的低频基音频率,同时也是乐音中和弦的根音频率。如果这段频率成分缺乏,音色会显得发软、发飘,语音则会变得软绵绵;如果这段频率成分过强,声音会变得生硬而不自然,且没有特色。
100Hz~150Hz频率:
这段频率影响音色的丰满度。如果这段频率成分增强,就会产生一种房间共鸣的空间感、混厚感;如果这段频率成分缺少,音色会变得单薄、苍白;如果这段频率成分过强,音色将会显得浑浊,语音的清晰度变差。
60Hz~100Hz:
这段频率影响声音的混厚感,是低音的基音区。如果这段频率很丰满,音色会显得厚实、混厚感强。如果这段频率不足,音色会变得无力;而如果这段频率过强,音色会出现低频共振声,有轰鸣声的感觉。
20Hz~60Hz频率:
这段频率影响音色的空间感,这是因为乐音的基音大多在这段频率以上。这段频率是房间或厅堂的谐振频率。如果这段频率表现的充分,会使人产生一种置身于大厅之中的感受;如果这段频率缺乏,音色会变得空虚;而如果这段频率过强,会产生一种嗡嗡的低频共振的声音,严重地影响了语音的清晰度和可懂度。

Acho que você gosta

Origin blog.csdn.net/tianhai110/article/details/79213496
Recomendado
Clasificación