Hablando de archivos de sonido

【Prefacio】

Hace algún tiempo, un colega se encontró con un cliente muy enredado. El motivo de la dificultad es que el cliente le pidió que proporcionara archivos de canciones con un tamaño de 100 MB a 200 MB o más. Y mis colegas no saben mucho sobre formatos de audio, así que comencé interminables enredos sobre FLAC, WAV y tamaños de audio. Al final, el colega no explicó claramente al cliente lo que estaba pasando.

Después de eso, sucedieron algunas otras cosas, que me hicieron sentir que en la industria de la música, hay demasiados practicantes a mi alrededor que tienen muy poca comprensión de la música, e incluso carecen de algunos conocimientos básicos relacionados con la música, lo que es más, este conocimiento no es En absoluto Siendo valorados, los practicantes ni siquiera tienen la idea de entender, lo que me hace sentir muy triste. Parece que la música tiene solo un atributo de producto, y nuestros practicantes solo necesitan organizar los estantes, codificar varios productos y recomendar productos a los usuarios con la gran cantidad de datos de los registros de compra de los usuarios, sin preocuparse en absoluto de por qué a los usuarios les gusta esto. cuáles son las características de estos productos, y utilizan datos fríos para proporcionar a los usuarios diversos servicios.

Por lo tanto, creo que es necesario escribir algo. No espero que los practicantes se conviertan en personas que realmente aman la música. Solo espero que incluso si todavía piensas en "ella" como una mercancía, primero puedes saber lo que eres. vendiendo. .

PD: El contenido de la primera lección es sobre archivos multimedia. Debido a que el contenido relevante involucra muchas cuestiones técnicas, parece un poco aburrido, pero si lo lee en silencio, descubrirá que en realidad es muy fácil de entender. Estos conocimientos básicos puede ser fácilmente entendido Bueno para mejorar sus habilidades. También espere más contenido interesante sobre discos, estilos musicales, etc. que publicaré pronto.

【texto】

Velocidad de bits, frecuencia de muestreo, sin pérdidas, MP3, FLAC, APE, 320 kb, 192 kb, 128 kb, 44,1 khz, CBR, VBR. ¿Este montón de varios nombres te hace familiar y extraño?

Cuanto mayor sea la tasa de bits, mejor será la calidad del sonido. Y la música sin pérdidas es la calidad de sonido más alta, ¿es cierto? Entonces, comencemos con la colección de sonido.

【Composición de audio】

Actualmente, lo que llamamos audio es audio digital. El audio digital consta de tres partes: frecuencia de muestreo, precisión de muestreo y número de canales de sonido.

Frecuencia de muestreo: La frecuencia de muestreo se refiere al número de muestras por segundo al grabar sonido, que se expresa en Hertz (Hz).

Precisión de muestreo: se refiere al rango dinámico del sonido grabado, que está en bit (Bit).

Canal de sonido: el número de canales de sonido (1-8).

<img src="https://pic1.zhimg.com/50/7745e85fed03c093addc424d5b437e9a_hd.jpg" datos-rawwidth="587" data-rawheight="217" class="imagen_origen zh-lightbox-thumb" ancho="587" data-original="https://pic1.zhimg.com/7745e85fed03c093addc424d5b437e9a_r.jpg">

En términos sencillos, podemos pensar en una onda de sonido como una curva. Sabemos que una curva se compone de puntos, y la tasa de muestreo es el número de puntos en el medio de la longitud por segundo (eje horizontal en la figura de arriba) . La precisión de muestreo es el número de puntos medios en el rango dinámico (el eje vertical en la figura anterior). Cuanto más fino sea el posicionamiento de estas dos dimensiones, mayor será la reproducción real del sonido, mejor será la calidad del sonido y, por supuesto, mayor será el archivo de audio. Lo que dijo el cliente con el colega anterior fue el último formato de audio Hi-Res Audio lanzado por SONY, que es un archivo de audio grabado de 6 canales y 192 kHz/24 bits. Por supuesto, el tamaño del formato sin pérdidas será de más de 200 megabytes

La frecuencia de muestreo es aproximadamente la siguiente según el tipo de uso (k es un símbolo de mil bits, 1 khz = 1000 hz):

8khz: Usado para teléfono, etc., es suficiente para grabar voz humana.

22.05khz: Frecuencia de transmisión.

44.1kb: CD de audio.

48khz: Usado en DVD y TV digital.

96khz-192khz: DVD-Audio, Blu-ray de alta definición, etc.

El rango común de precisión de muestreo es de 8 bits a 32 bits, mientras que 16 bits se usan generalmente en CD.

En este punto, mis amigos empiezan a estar confundidos. No es la tasa de bits lo que determina si la calidad del sonido es buena o mala. Entonces, ¿por qué todos dicen que la calidad del sonido de 320kb es mejor que la de 128kb?

【Compresión de audio】

Bueno, de hecho, se debe decir que la tasa de bits es otra dimensión, es una especie de compresión de archivos de audio.

En la actualidad, la mayoría de los formatos de audio que usamos comúnmente se basan en el archivo original "WAV" del CD de audio (frecuencia de muestreo de 44,1 khz, precisión de muestreo de 16 bits, 2 canales). Los datos de sonido grabados originales se almacenan en una matriz, que es el formato PCM, y el formato WAV es un formato de codificación desarrollado por Microsoft. Su función es reproducir los datos en formato PCM a través de la codificación.

Dado que los datos en WAV básicamente restauran por completo los datos PCM, otros formatos de codificación como lossless, MP3, AAC, etc. se recomprimen básicamente en función de los archivos WAV. Por lo tanto, podemos pensar simplemente que WAV es el formato de audio original y que otros formatos de audio son formatos comprimidos.

Cuando se trata de compresión, el almacenamiento y la transmisión son inseparables. El propósito de la compresión es mejorar el almacenamiento y la transmisión. Por lo tanto, antes de hablar sobre la compresión, debemos comprender las unidades básicas de las computadoras.

Todos sabemos que la computadora es un sistema numérico binario, y los archivos almacenados en la computadora se componen de dos números, 0 y 1. Por lo tanto, la transmisión de la computadora se basa en cada número, y cada número se llama 1 "bit (bit)". Por ejemplo, para una pieza de audio, su dato básico es "0,1,1,1,0, 1, 1,0", y al transmitir, estos números se transmiten uno por uno. La precisión de muestreo mencionada anteriormente es esta unidad.

La unidad de almacenamiento de la computadora es "byte (Byte)", en la computadora, un byte está compuesto por 8 bits, es decir, 8b (bit) = 1B (Byte). En lenguaje informático, el almacenamiento de datos se expresa en decimal y la transmisión de datos se expresa en binario, por lo que 1KB=1024B=1024×8b. Esto también es parte de la razón por la que la capacidad del disco duro que vemos no coincide con la capacidad real.

Vuelva y hable sobre la compresión de audio, la tasa de bits de audio es en realidad la relación de compresión. Entonces, la tasa de bits en realidad solo define el tamaño del archivo, pero en condiciones normales, cuanto más grande es el archivo, menos datos pierde, por lo que su calidad de sonido es relativamente mayor. Pero la velocidad de bits en sí misma no tiene un impacto directo en la calidad del archivo. Por ejemplo, si usamos un archivo de 128 kb como archivo fuente, incluso si se convierte a un archivo de 320 kb, la calidad del sonido no será mejor. de 128kb.

Entonces, ¿qué significan exactamente los números y las letras en la tasa de bits? Primero mire el nombre completo de 128k "128kbps", tratemos de desglosarlo: 128 es un número, k es mil caracteres, b es una unidad, s es un segundo y ps es en realidad "/s". De esta forma, 128kbps son 128kb/s. Eso es 128kb por segundo.

Tenga en cuenta que la b aquí es una b minúscula, que es el bit. Sabiendo esto, podemos calcular cuánto espacio de almacenamiento ocupa un archivo de 128kb: 128*1000=128000b/s÷8=16000B/s÷1024=15,625KB/s*60=937,5KB/minuto÷1024=0,9155 MB/min. Por lo tanto, el tamaño de los archivos de audio de 128 Kb es de aproximadamente 0,92 M o 916 Kb por minuto, por lo que el tamaño de un mp3 de 128 Kb es de aproximadamente 1 M. Puede probarlo y verificarlo localmente.

Antes de hablar de lossy y lossless, hay dos palabras más que explicarte, es decir, veremos CBR y VBR al comprimir MP3. Y CBR es tasa de bits constante, tasa de bits constante; VBR es tasa de bits variable, tasa de bits dinámica. Teóricamente hablando, el método VBR consiste en corregir automáticamente algunas tasas de bits de acuerdo con la frecuencia específica del sonido en el archivo fuente de audio, para lograr un archivo más pequeño con el mismo efecto de tasa de bits.

Hablemos de nuevo de lossy y lossless. En pocas palabras, la compresión con pérdida es lograr el propósito de la compresión al eliminar algunos datos menos importantes en los datos existentes; la compresión sin pérdida es lograr el propósito de la compresión al optimizar la disposición. Dado que estos métodos de compresión implican un conocimiento técnico más profundo, no diremos más, y probablemente podamos verlo de esta manera: la compresión con pérdida es como eliminar algunas partículas sin importancia en un artículo para lograr el objetivo. Después de la descompresión, el contenido eliminado no puede ser recuperado; sin pérdidas se logra a través de la composición tipográfica, y después de la descompresión, se pueden obtener datos WAV completos, al igual que nuestro winzip y WinRAR de uso común.

Entre los formatos sin pérdida, APE (Monkey's audio) y FLAC (Free Lossless Audio Codec) son los más utilizados en la actualidad. El primero tiene una tasa de bits más pequeña, mientras que el segundo es más fácil de propagar.La diferencia es que FLAC puede usar los datos transmitidos directamente después de que se interrumpe la transmisión. Por ejemplo, si descargamos una pieza musical en formato APE, debemos esperar a que se descarguen todos los datos antes de reproducirla, sin embargo, FLAC es diferente, solo descargas 1/3 y puedes reproducir 1/3 del contenido. primero.

Al ver esto, creo que ya habrás pensado que los archivos WAV también son un tipo de formato de codificación, entonces, ¿también tienen una determinada tasa de bits? Así es, la velocidad de bits de un archivo WAV estándar es de 1411 kb y la compresión sin pérdidas es de aproximadamente 900-1000, según el contenido del archivo de origen. Puede calcular su tamaño estándar usted mismo.

[La diferencia entre los diferentes modos de codificación en el mercado]

A menudo vemos algunos dichos que dicen que la calidad de sonido de 64kb aac (el formato de audio utilizado por Apple) es similar a la de 128kb MP3, pero es solo la mitad del tamaño de MP3. El tamaño de wma, incluido Microsoft, es relativamente pequeño, pero ¿por qué el formato de audio convencional actual sigue siendo mp3?

Respecto a este tema, no lo he estudiado específicamente, pero algunas situaciones en la red integral pueden ser las siguientes:

1. MP3 es el primer estándar de codificación de audio popular en Internet. Los hábitos de comportamiento de las personas y la decodificación de soporte de toda la red lo hacen más ventajoso.

2. Los diferentes métodos de codificación tienen diferentes ventajas en diferentes tasas de bits.En el rango de 192kb-224kb, la calidad de sonido del formato MP3 todavía tiene una ventaja absoluta.

3. Desde el sitio web de descarga gratuita de MP3 de Napster hasta el apoyo de los principales reproductores Walkman, el MP3 se ha difundido ampliamente y el formato AAC posterior no ha encontrado una oportunidad de difusión a gran escala, por lo que no se ha generalizado durante más de diez años.

PD: AAC y MP3 en realidad se derivan del mismo estándar MPEG AAC apareció como el sucesor de MP3 al comienzo de su nacimiento.

Además, los resultados de las pruebas de los internautas se pueden utilizar como referencia, de la siguiente manera:

Rango de ventaja de OGG: por encima de 96K (OGG)

Rango de ventaja de AAC: AAC LC debe ser mayor que (inclusive) 256K AAC HE 48K-96K

Rango de ventaja de Mp3: por encima de 192K (inclusive)

Rango de ventaja de WMA: Por debajo de 128K (inclusive)



Sentimientos personales sobre los formatos con pérdida:
Para cualquier formato con pérdida, cuanto mayor sea la tasa de bits, mejor. La tasa de código es alta, no solo la distorsión de la forma de onda es pequeña, sino que también la atenuación de frecuencia es pequeña.
Si es necesario clasificar los formatos de audio con pérdida según el grado de agotamiento del espectro: (Mp3 se refiere a CBR, AAC se refiere a LC)
Bajo la misma tasa de código (CBR)
Más de 320 000 OGG, AAC son casi sin pérdidas
320 000 OGG=AAC>Mp3>WMA
256 000 OGG>AAC>Mp3>WMA
224
000 OGG>Mp3>AAC >WMA
192 000 OGG>Mp3>WMA>AAC 128 000 OGG>WMA>AAC>Mp3
96 000 AAC(HE)>OGG>WMA>Mp3 (OGG está severamente distorsionado en este momento, por lo que puede ser AAC(HE)>WMA>OGG>Mp3 en audición) 64K AAC(HE)>OGG>WMA>Mp3 (OGG es gravemente distorsionada en este
momento, por lo que la audición puede ser AAC(HE)>WMA>OGG>Mp3)
número de serie
Formato
Especificación
Tasa de código real
tamaño real
frecuencia más alta
distorsión
grado de distorsión
1
Ola Ola 1411 46.1 22+
ninguno
ninguno
2
MONO Rápido 960 31.3 22+
ninguno
ninguno
3
Loco 936 30.6 22+
ninguno
ninguno
4
FLAC V0 1030 33.5 22+
ninguno
ninguno
5
V8 969 31.6 22+
ninguno
ninguno
6
WavPack Normal 970 31.6 22+
ninguno
ninguno
7
Ultra 953 31.1 22+
ninguno
ninguno
8
Mp3 CBR 320 10.4 21.5
Pequeño
9
256 8.36 20,9
medio
10
224 7.31 19.6
medio
11
192 6.27 19.6
medio
12
128 4.18 15.5
grande
13
96 3.13 12.2
grande
14
64 2.08 8.8
grande
15
V0 273 8.93 19.2
Pequeño
dieciséis
v2 221 7.23 18.5
grande
17
V4 159 5.22 16.9
medio
18
V6 130 4.26 15.5
grande
19
V8 100 3.29 12.8
excelente
20
Mp3-pro CBR 96 3.13 22+
medio
21
64 2.09 18.1
grande
22
AMM CBR 320 10.4 20.2
Pequeño
23
256 8.39 20.3
Pequeño
24
224 sin datos sin datos
sin datos
sin datos
25
192 6.3 18.7
medio
26
128 4.2 16.1
grande
27
96 3.16 13.6
grande
28
64 2.11 11.7
grande
29
CAA LC448 443 14.5 22+
Pequeño
30
LC320 316 10.4 22+
Pequeño
31
LC256 253 8.35 21.4
32
LC224 221 7.31 18.4
33
LC192 190 6.27 18.2
34
LC128 126 4.19 15.9
35
HC96 94 3.13 20.4
36
HC64 63 2.1 20.4
37
OGG Q10 499 16.3 22+
38
Q9 334 10.9 22+
39
Q8 257 8.41 22+
40
Q7 225 7.38 22+
41
Q6 194 6.35 21.6
42
Q4 133 4.35 19.2
43
Q2 93 3.04 16.8
44
Q0 64 2.05 15.6
极大
不等码率(VBR)下请参照上表交叉对比
另外各种格式都有自己的优势码率范围:
OGG的优势范围:96K以上(OGG)
AAC的优势范围:AAC LC应高于(包含)256K AAC HE 48K-96K( AAC HE真强
Mp3的优势范围:192K(包含)以上
WMA的优势范围:128K(包含)以下
如果你的机器支持,128K(包含)以上请用OGG,64K-96K请用AAC(HE)
如果你的机器只支持WMA和Mp3,192K以上(包含)请用Mp3,128K以下(包含)请用WMA
64K以下什么格式都很衰,所以请至少保留64K以上的码率
单从频率范围来讲:
对于1个理论上的正常人来说,听觉范围大约为50Hz-20KHz。那么你的选择为
Mp3 CBR 码率高于(包含)224K
WMA 码率高于(包含)224K
AAC LC 码率高于(包含)256K 、AAC HE 码(包含)率高于48K
OGG 码率高于(包含)192K
Mp3-pro 码率高于(包含)80K
Mp3 VBR 高频不合格!
对于1个普通音乐迷来说,听觉范围大约为1KHz~16KHz。那么你的选择为
Mp3 CBR 码率高于(包含)192K
Mp3 VBR 码率高于V6编码 即高于128K
WMA 码率高于(包含)128K
AAC LC 码率高于(包含)128K、AAC HE 码率高于(包含)48K
OGG 码率高于(包含)96K
Mp3-Pro 码率高于(包含)56K
当然还有金耳朵们,听觉范围大约为 20Hz~22KHz 。那么你的选择为
首先当然是无损,然后有损里面可以试试:
Mp3 CBR 码率高于(包含)224K
WMA 码率高于(包含)224K
AAC LC 码率高于(包含)256K、AAC HE 码率高于(包含)48K
OGG 码率高于(包含)192K
Mp3-Pro 码率高于(包含)80K
Mp3 VBR 高频不合格!
当然,每个人都有自己的感觉
例如Mp3 CBR的低频有点差,所以听古典音乐觉得很生硬……等等
这个感觉问题就只有大家自己慢慢体会了!
附:各频率对人耳的刺激即听觉感受
16K~20KHz频率:
这段频率范围实际上对于人耳的听觉器官来说,已经听不到了,因为人耳听觉的最高频率是15.1KHz。但是,人可以通过人体和头骨、颅骨将感受到的16~20KHz频率的声波传递给大脑的听觉脑区,因而感受到这个声波的存在。这段频率影响音色的韵味、色彩、感情味。如果音响系统的频率响应范围达不到这个频率范围,那么音色的韵味将会失落;而如果这段频率过强,则给人一种宇宙声的感觉,一种幻觉,一种神秘莫测的感觉,使人有一种不稳定的感觉。因为这些频率大多数是基音的不谐和音频率,所以会产生一种不安定的感受。这段频率在音色当中强度很小,但是很重要,是音色的表现力部分,也是常常被人们忽略的部分,甚至有些人根本感觉不到它的存在。
12K~16KHz频率:
这是人耳可以听到的高频率声波,是音色最富于表现力的部分,是一些高音乐器和高音打击乐器的高频泛音频段,例如镲、铃、铃鼓、沙锤、铜刷、三角铁等打击乐器的高频泛音,可给人一种“金光四射”的感觉,强烈地表现了各种乐器的个性。如果这段频率成分不足,则音色将会会失掉色彩,失去个性;而如果这段频率成分过强,如激励器激励过强,音色会产生“毛刺”般尖噪、刺耳的高频噪声,对此频段应给予一定的适当的衰减。
10K~12KHz频率:
这是高音木管乐器的高音铜管乐器的高频泛音频段,例如长笛、双簧管、小号、短笛等高音管乐器的金属声非常强烈。如果这段频率缺乏,则音色将会失去光泽,失去个性;如果这段频率过强,则会产生尖噪,刺耳的感觉。
8K~10KHz频率:
这段频率s音非常明显,影响音色的清晰度和透明度。如果这频率成分缺少,音色则变得平平淡淡;如果这段频率成分过多,音色则变得尖锐。
6K~8KHz频率:
这段频率影响音色的明亮度,这是人耳听觉敏感的频率,影响音色清晰度。如果这段频率成分缺少,则音色会变得暗淡;如果这段频率成分过强,则音色显得齿音严重。
5K~6KHz频率:
这段频率最影响语音的清晰度、可懂度。如果这段频率成分不足,则音色显得含糊不清;如果此段频率成分过强,则音色变得锋利,易使人产生听觉上的疲劳感。
4K~5KHz频率:
这段频率对乐器的表面响度有影响。如果这段频率成分幅度大了,乐器的响度就会提高;如果这段频率强度变小了,会使人听觉感到这种乐器与人耳的距离变远了;如果这段频率强度提高了,则会使人感觉乐器与人耳的距离变近了。
4KHz频率:
这个频率的穿透力很强。人耳耳腔的谐振频率是1K~4KHz所以人耳对这个频率也是非常敏感的。如果空虚频率成分过少,听觉能力会变差,语音显得模糊不清了。如果这个频率成分过强了,则会产生咳声的感觉,例如当收音机接收电台频率不正时,播音员常发出的咳音声。
2K~3KHz频率:
这段频率是影响声音明亮度最敏感的频段,如果这段频率成分丰富,则音色的明亮度会增强,如果这段频率幅度不足,则音色将会变得朦朦胧胧;而如果这段频率成分过强,音色就会显得呆板、发硬、不自然.
1K~2KHz频率:
这段频率范围通透感明显,顺畅感强。如果这段频率缺乏,音色则松散且音色脱节;如果这段频率过强,音色则有跳跃感。
800Hz频率:
这个频率幅度影响音色的力度。如果这个频率丰满,音色会显得强劲有力;如果这个频率不足,音色将会显得松弛,也就是800Hz以下的成分特性表现突出了,低频成分就明显;而如果这个频率过多了,则会产生喉音感。人人都有一个喉腔,人人都有一定的喉音,如果音色中的喉音成分过多了,则会失掉语音的个性、失掉音色美感。因此,音响师把这个频率称为"危险频率",要谨慎使用。
500Hz~1KHz频率:
这段频率是人声的基音频率区域,是一个重要的频率范围。如果这段频率丰满,人声的轮廓明朗,整体感好;如果这段频率幅度不足,语音会产生一种收缩感;如果这段频率过强,语音就会产生一种向前凸出的感觉,使语音产生一种提前进人人耳的听觉感受。
300Hz~500Hz频率:
这段频率是语音的主要音区频率。这段频率的幅度丰满,语音有力度。如果这段频率幅度不足,声音会显得空洞、不坚实;如果这段频率幅度过强,音色会变得单调,相对来说低频成分少了,高频成分也少了,语音会变成像电话中声音的音色一样,显得很单调。
150Hz~300Hz频率:
这段频率影响声音的力度,尤其是男声声音的力度。这段频率是男声声音的低频基音频率,同时也是乐音中和弦的根音频率。如果这段频率成分缺乏,音色会显得发软、发飘,语音则会变得软绵绵;如果这段频率成分过强,声音会变得生硬而不自然,且没有特色。
100Hz~150Hz频率:
这段频率影响音色的丰满度。如果这段频率成分增强,就会产生一种房间共鸣的空间感、混厚感;如果这段频率成分缺少,音色会变得单薄、苍白;如果这段频率成分过强,音色将会显得浑浊,语音的清晰度变差。
60Hz~100Hz:
这段频率影响声音的混厚感,是低音的基音区。如果这段频率很丰满,音色会显得厚实、混厚感强。如果这段频率不足,音色会变得无力;而如果这段频率过强,音色会出现低频共振声,有轰鸣声的感觉。
20Hz~60Hz频率:
这段频率影响音色的空间感,这是因为乐音的基音大多在这段频率以上。这段频率是房间或厅堂的谐振频率。如果这段频率表现的充分,会使人产生一种置身于大厅之中的感受;如果这段频率缺乏,音色会变得空虚;而如果这段频率过强,会产生一种嗡嗡的低频共振的声音,严重地影响了语音的清晰度和可懂度。

Supongo que te gusta

Origin blog.csdn.net/tianhai110/article/details/79213496
Recomendado
Clasificación