论文阅读_音频压缩_SoundStream

论文信息

number headings: auto, first-level 2, max 4, _.1.1
name_en: SoundStream: An End-to-End Neural Audio Codec
name_ch: SoundStream：一种端到端的神经音频编解码器
paper_addr: http://arxiv.org/abs/2107.03312
doi: 10.1109/TASLP.2021.3129994
date_read: 2023-05-01
date_publish: 2021-07-07
tags: [‘深度学习’,‘音频’]
if: 4.364 Q1 B1
journal: IEEE
author: Neil Zeghidour，Google
citation: 82

1 读后感

高效压缩语音、音乐和一般音频。模型由编码器，量化器，解码器组成，主要使用了卷积技术。

2 摘要

基于神经网络的音频编码器，可高效生成文本，音乐。模型结构由全卷积编码器/解码器网络和残差矢量量化器组成。它结合了对抗和重建损失技术，可将量化的嵌入作为输入，生成高质量音频。
单模型生成3kbps~18kpbs的音频。该模型适用于低延迟实现，支持流式推理，并可在智能手机 CPU 上实时运行。通过主观质量证明，SoundStream输出音频高于之前模型。

3 介绍

主要贡献：

提出音频编码器SoundStream，由编码、解码、量化器组成；通过重建和对抗损失训练模型，实现高品质音频生成。
提出新的残差量化器，平衡速率/失真/复杂度；提出quantizer dropout，使单个模型能处理不同比特率。
对于采用梅尔图谱特征的解决方案，编码器带来了非常显著的编码效率提升。
主观评测中证明，其输出音质高于之前模型，其3kbps的效果在主观评估中优于12kbps的Opus和9.6kbps的EVS。
模型可在低延迟下运行，部署在智能手机上时，可在单个 CPU 线程上实时运行。
提出了一种 SoundStream 编解码器的变体，可以联合音频压缩和增强，而不引入额外的延迟。

4 方法

模型由三部分组成：

编码器：卷积Encoder将采样率为fs的输入音频x转换为嵌入序列。
残差向量量化（RVQ）：将嵌入通过codebooks，压缩成少量字节（目标位数）的表示，生成量化嵌入。
解码器：从量化的嵌入中产生有损重建x^。
其训练过程中还用了一个判别器Discrminator，它结合了对抗和重建损失，并使用可选的条件输入，用于指示是否从音频中去除背景噪声（Denosing）。

部署模型时，Transmiter的编码器和量化器将压缩，由Receiver解码音频信号。