Formatos de áudio comumente usados na comunicação RTC

I. Visão geral

Quais são os formatos de áudio? Para responder a essa pergunta, vamos dar uma olhada na explicação de áudio da Enciclopédia Baidu: formato de áudio é formato de música. Formato de áudio refere-se ao processo de conversão digital e analógica de arquivos de som para serem reproduzidos ou processados ​​em um computador. A largura de banda máxima do formato de áudio é 20KHZ, e a taxa está entre 40-50KHZ. Adota a modulação de código de pulso linear PCM, e cada etapa de quantização tem um comprimento igual. A maior parte da faixa de energia do espectro da voz que as pessoas falam é distribuída em 300-3400HZ, e a faixa de espectro do som que o ouvido humano pode ouvir é geralmente 20~20000HZ, então o ouvido humano pode ouvir muitos outros sons na natureza, exceto fala humana, como instrumentos musicais, natureza, gritos e muito mais.

O desenvolvimento da comunicação passou por várias fases - transmissão pombo - torre de beacon - mensagem (telegram) - chamada de voz - chamada de vídeo - AR/VR, desde a anterior comunicação de texto até à actual comunicação de áudio e vídeo, e com o desenvolvimento do Às vezes, as pessoas não estão mais satisfeitas em simplesmente ouvir as vozes umas das outras. Agora, há uma forte demanda pela qualidade do som, estéreo e até som surround espacial. Portanto, vários formatos de áudio também são necessários para combiná-los a fim de atender às necessidades de cenários da vida real.

Em segundo lugar, os formatos de áudio comumente usados

No que diz respeito ao mercado de áudio atual, os formatos de áudio são divididos principalmente em dois tipos: compactação sem perdas e compactação com perdas. Se ouvirmos diferentes formatos de áudio, haverá uma grande diferença na qualidade do som. O áudio compactado sem perdas pode compactar o volume do arquivo de áudio para um tamanho menor com base em 100% de economia de todos os dados do arquivo de origem e, em seguida, restaurar o arquivo de áudio compactado para obter o mesmo tamanho e o mesmo tamanho do arquivo de origem . taxa de código. Há também um áudio compactado com perdas, que reduz a frequência de amostragem de áudio e a taxa de bits, para que o arquivo de áudio de saída seja menor que o arquivo de origem.

1. MP3 - não há nome mais familiar do que este: a compactação de arquivos de áudio MPEG é uma compactação com perdas, a codificação de áudio MPEG3 tem uma alta taxa de compactação de 10:1 ~ 12:1, enquanto basicamente mantém a parte de áudio baixa sem distorções, No entanto, a qualidade da parte de áudio de alta frequência de 12KHz a 16KHz no arquivo de som é sacrificada em troca do tamanho do arquivo. Arquivos de música com o mesmo comprimento são armazenados no formato *.mp3, geralmente apenas 1/10 de o arquivo *.wav, então a qualidade do som é a segunda.Arquivos de áudio em formato CD ou formato WAV.

2. PCM - o formato de áudio mais usado: PCM é chamado de Pulse Code Modulation em chinês. Foi desenvolvido no final dos anos 1970 e é um dos CDs de mídia de gravação. Foi lançado em conjunto pela Philips e Sony no início dos anos 1980. O formato de áudio Pulse Code Modulated também foi adotado pelo DVD-A, que suporta som estéreo e surround 5.1, e foi lançado e introduzido pelo DVD Symposium em 1999. A taxa de bits da modulação de código de pulso é desenvolvida de 14 bits a 16 bits, 18 bits, 20 bits até 24 bits; a frequência de amostragem é desenvolvida de 44,1 kHz a 192 kHz. Modulação de código de pulso PCM esta tecnologia pode ser melhorada e melhorada em cada vez menos.

3. AMR - AMR significa Adaptive Multi-Rate, codificação multi-taxa adaptável, usada principalmente para áudio de dispositivos móveis, a taxa de compactação é relativamente grande, mas a qualidade é relativamente ruim em comparação com outros formatos de compactação, porque é mais usado para vocais e chamadas.

4. Opus - áudio preferido do WebRTC: integra duas tecnologias de codificação de voz: SILK orientado para codificação de voz e CELT de baixa latência. Opus pode ajustar perfeitamente as taxas de bits altas e baixas. Dentro do codificador, ele usa codificação preditiva linear em taxas de bits mais baixas e codificação de transformação em taxas de bits altas (e também usa uma combinação dos dois na interseção de taxas de bits altas e baixas). Opus tem um atraso algorítmico muito baixo (22,5 ms por padrão), que é muito adequado para codificar chamadas de voz de baixa latência, como streaming de áudio em tempo real na Internet, narração de voz sincronizada em tempo real etc. também pode reduzir o código de codificação, reduzindo a taxa de código de codificação, para obter um atraso de algoritmo mais baixo, o mínimo pode ser de 5 ms. Em vários testes de audição às cegas, o Opus tem menor latência e melhor compactação de som do que formatos comuns, como MP3, AAC e HE-AAC.

5. AAC - o general vencedor da cena de transmissão ao vivo: AAC é na verdade a abreviação de Advanced Audio Coding, Apple iPod e telefones celulares Nokia também suportam arquivos de áudio no formato AAC. AAC é um formato de áudio desenvolvido em conjunto por Fraunhofer IIS-A, Dolby e AT&T, e faz parte da especificação MPEG-2. O algoritmo adotado pelo AAC é diferente do MP3, o AAC melhora a eficiência da codificação combinando outras funções. O algoritmo de áudio do AAC excede em muito alguns dos algoritmos de compactação anteriores (como MP3, etc.) em termos de recursos de compactação. Ele também suporta até 48 faixas de áudio, 15 faixas de áudio de baixa frequência, mais taxas de amostragem e taxas de bits, compatibilidade com vários idiomas e maior eficiência de decodificação. Em suma, o AAC pode fornecer melhor qualidade de som com um tamanho 30% menor do que os arquivos MP3.

6. Lyra — um novo produto de inteligência artificial: Lyra é um codec de fala de baixa taxa de bits baseado em aprendizado profundo proposto pelo google. Ele é usado no google Duo e pode conversar claramente em uma rede de 3 kb por segundo. Divida os dados em 40ms por quadro, extraia características (espectrogramas log mel) e comprima, e na parte do decodificador, um modelo generativo converte as características em sinais de fala. A estrutura é muito semelhante à predição linear de excitação mista do codec de áudio paramétrico tradicional (MELP melhora a eficiência calculando e transmitindo coeficientes de predição linear) Acontece que é possível gerar várias amostras de fala a partir de recursos. (O WaveNetEQ utiliza um modelo generativo para compensação de perda de pacotes). O decodificador de MBE (Multiband Excitation, divide o domínio da frequência em bandas de tamanhos iguais, transmite a energia das bandas e determina a informação vozeada/não-vozeada para cada banda) O algoritmo Griffin-Lim é usado no caso de fornecer apenas energia sem informação de fase Comparado com a série de algoritmos WaveNet, o algoritmo Griffin-Lim é muito pior em termos de qualidade de som. No entanto, métodos como o WaveNet são computacionalmente caros, e o Lyra usa milhares de horas de dados em mais de 70 idiomas para treinar uma variante do WaveRNN para obter maior qualidade de som e menor complexidade.

Terceiro, como o som é transmitido no RTC

Vamos dar uma olhada no processo geral de codificação e decodificação de áudio:

Depois que a voz de uma pessoa é amostrada digitalmente, são os dados amostrados PCM originais. Como pode ser visto na figura acima, não importa qual seja o tipo de codec, é um processo de compactação do código PCM para facilitar a transmissão e, em seguida, decodificando e restaurando-o para PCM.

Em primeiro lugar, no período inicial do telefone fixo, os codecs no período do telefone fixo incluíam principalmente G.711a/u; G.729; G.722; G.723; G.726 e assim por diante; esses codecs usavam basicamente 8KHZ Amostragem, uma vez que a comunicação naquela época era principalmente entre pessoas, a taxa de amostragem de 8K era suficiente para cobrir a parte mais importante da faixa de energia da voz humana. O G.711a/u original é uma codificação sem perdas, mas por causa da taxa de 64Kbps (mas a taxa da linha telefônica ADSL é de 64K de largura de banda).

Não sei quantos amigos sabem sobre o acesso à Internet ADSL. No início, eles usavam essa linha telefônica de 64K para transmissão, mas o G.711 ocupava toda a largura de banda, então como posso transmitir dados, então a taxa de compactação subsequente é gradualmente superior, mas o efeito não é inferior G.729, G.726 e outros codecs são usados. Entre eles, o G.722 pertence a uma série relativamente conhecida, o G.722.1 é um codec desenvolvido pela Polycom e o G.722.2 é o AMR-WB+, a versão de banda ultralarga do AMR-WB mencionada abaixo.

 Então veio a era da comunicação móvel (2G/3G), porque o conteúdo da comunicação ainda é a fala entre as pessoas, então o codec ainda está usando codec de voz, e o lado móvel usa principalmente AMR (Adaptive Multi Rate-Narrow Band Speech) . Codec), AMR-WB (AMR de banda estreita e AMR de banda larga, respectivamente). Embora o AMR de banda estreita ainda use amostragem de 8K, pode-se ver em seu nome completo que o próprio codec é multi-taxa (modos de 8 taxas) e pode ser comutado. A principal razão para esse recurso é se adaptar à situação dos canais sem fio e canais de transmissão. Por exemplo, imagine que uma estação base, se houver 10 chamadas de celular e 100 chamadas, a largura de banda do canal alocada para cada telefone celular deve ser diferente, e a conversão de taxa pode ser comutada de forma flexível de acordo com as condições do canal, de modo que as chamadas garantidas para mais pessoas.

 

O próximo é o Volte (4G), que é o que todo mundo está usando atualmente, usando AMR-WB (Adaptive Multi-RateWideband Speech Codec); este codec usa amostragem de 16K, que é duas vezes maior que o original; o efeito é No domínio do tempo , os dados de 8K são amostrados por segundo e o domínio da frequência cobre uma faixa mais ampla de altas frequências e detalhes sonoros mais ricos. No entanto, parece que a experiência do consumidor não melhorou muito. 

No entanto, na era 4G, à medida que a largura de banda se torna cada vez maior, o desenvolvimento de negócios se torna cada vez mais abundante. único padrão para entrar em 3GPP, EVS é compatível com AMR-NB e AMR-WB são suportados, e amostragem SWB (ultra wideband) e FWB (full wideband) (até 48KHZ) são suportadas ao mesmo tempo, o que cobriu todo o faixa de espectro da audição humana. Você pode ver uma etiqueta "HD" no seu celular, que na verdade é E2. Com o lançamento do EVS e a promoção de novos serviços (como o recente vídeo CRBT), todos devem poder experimentar uma experiência sonora mais rica. 

É claro que na era 3G/4G, com o desenvolvimento da Internet, a tecnologia VOIP baseada na Internet também floresceu, mas o VOIP baseado na Internet enfrenta condições de rede mais severas e complexas do que as chamadas de voz da operadora. O problema da largura de banda de atraso é ainda mais grave. O codec de áudio do VOIP também tem um estágio de desenvolvimento semelhante. O primeiro é o codec de voz, como iLBC e iSLK. Esses dois codecs são tecnologias de codec desenvolvidas pela empresa GIPS. Após serem adquiridos pelo Google, são utilizadas as duas tecnologias de codec. Aplicado na tecnologia WebRTC e de código aberto, o codec ILBC é caracterizado por reduzir a redundância entre cada quadro de codificação de áudio, e cada quadro pode ser resolvido independentemente, por isso possui características anti-perda de pacotes muito boas. Além de herdar os recursos do ILBC, o ISAK parece ter adicionado uma função de previsão de largura de banda. O codec usado pelo popular Skype é silk.O codec silk tem um efeito de codificação particularmente bom na fala. Diz-se que pode fazer com que ambas as partes na chamada pareçam estar na mesma sala.

Projeto de código aberto em nível de estrela-WebRTC Para melhorar a experiência de voz, o codec padrão usado é Opus (uma combinação de codec silk e codec celt); um detector de música neste codec é usado para determinar se o quadro atual é voz ou música, e a voz seleciona seda, seleção de música celt; ao mesmo tempo, o opus suporta PLC (compensação de perda de pacote) e possui melhores características de perda anti-pacote de rede.

Na verdade, o áudio não é usado apenas no campo da comunicação, como AAC (Advanced Audio Coding (Advanced Audio Coding)), que é um formato de compressão de áudio com perdas definido pelo padrão MPEG-4, desenvolvido pela Fraunhofer, Dolby, Sony e AT&T são as principais contribuições de By. É o sucessor natural do MPEG Layer III/MP3 no novo padrão multimídia MPEG-4 que usa o MP4 como formato de contêiner para diversos conteúdos. O codec AAC é semelhante ao protocolo de codec de vídeo do Mpeg4. Também é dividido em vários perfis, LC-AAC (baixa complexidade, qualidade normal) e HE-AAC (alta eficiência, alta qualidade); ao mesmo tempo, o AAC também é brilhante em o campo da transmissão ao vivo.

Quarta, resumo

Alguns amigos perguntarão, com tantos formatos de codificação de áudio, qual devo escolher; do artigo podemos ver que nenhum formato de codificação de áudio pode cobrir todos os cenários de aplicação e escolher de acordo com suas próprias necessidades em diferentes cenários Um codificador adequado é um escolha sábia.

 

 

 

 

 

Acho que você gosta

Origin blog.csdn.net/m0_60259116/article/details/123920553
Recomendado
Clasificación