Audio Bandwidth Extension

版权声明:CSDN的所有文章均转载自我博客园的文章,由于存在转载丢失,想了解细节,可访问我的博客园。 https://www.cnblogs.com/LXP-Never/ https://blog.csdn.net/qq_34218078/article/details/85043154

论文和代码都在这个地址

作者:Somesh Ganesh;单位:Georgia Tech Center for Music Technology,Georgia Institute of Technology;Email:[email protected]

摘要

音频带宽扩展是一种利用各种音频编解码器提高有限频带音频感知质量的技术。本文提出了几种音频带宽扩展的方法,并通过听力测试对其进行了评估。比较了半波校正和全波校正,以及子带滤波的应用。结果表明,采用子带滤波的半波校正是测试算法中的最佳技术。

一、引言

  在今天的世界里有一套很大的带限音频.这主要是由于以下原因。信号的数字化要求对模拟信号进行采样。当模拟到数字转换器中的采样率不高时,就会产生混叠现象。为了避免这一点,反混叠滤波器作为预处理步骤实现.这些滤波器基本上是低通滤波器,限制了信号的带宽。大量有限频带音频的另一个原因是在音频编解码器中实现的算法。为了增加存储,音频编解码器利用这样的事实,即与低频组件相比,人类对高频分量不太敏感,并且危及音频文件的高频分量。这导致了一场骚动。

  频带限制降低了音频的质量。因此,需要开发一种音频带宽扩展算法来检索原始音频质量。

二、背景

首先,我们将相关工作分为两大类:盲带宽扩展和非盲带宽扩展。

A、非盲带宽扩展

非盲带宽扩展是指利用特定的编码和解码技术重建缺失频谱的过程。这包括一些定时或频率信息、噪声级别或与编码信号中缺失的频率分量以及低频分量有关的任何其他相关信息。最著名的非盲带宽扩展算法之一是谱带复制(SBR)[1].该方法有自己的编解码器,其工作原理是假设低频分量与高频分量有很强的相关性。利用逆滤波、自适应加噪和正弦再生等技术,对相关系数较低的信号进行了分析。[2]提出了一种用分形自相似模型(Fssm)表示音频信号的改进离散余弦变换(Mdct)的算法。该方法用于多种音频信号,并对缺失频谱进行了详细的重构。[3]引入精确谱替换(ASR)技术,对缺失频谱中的色调分量和谐波结构进行重构。[4]使用[2]和[3]中的概念,并将它们应用于信号的高频分辨率表示,如mdct。它还包括“多波段时域幅度编码”(Mbtac),用于重构高频分量的时间整形。这些方法的问题在于,该过程需要额外的信道资源来传输有关缺失频谱的信息。当对比特率和存储有限制时,这是不可取的。

B、盲带宽扩展

盲带宽扩展是指在没有任何关于缺失频谱的先验信息的情况下进行重构的过程。[5]提出了一种基于半波校正的盲带宽扩展算法。该方法采用半波整流法对带限信号中的最高倍频程进行校正,产生高频谱。这个新的频谱通过增益因子进行缩放,并被添加到延迟输入信号中。[6]通过提出一种不同的滤波最高倍频程的方法来优化这一过程以实现实时应用。该方法还包括作为预处理步骤的带宽检测模块和作为后处理步骤的自适应增益。[7]和[8]建议采用线性外推法求出高频谱的包络并进行重构。文[9]中的算法是基于相空间重构(PSR)的。这里,PSR被用来将宽带音频的低频mdct系数转换成多维空间。高频频谱根据听者的感知进行调整。这包括线性和非线性预测。[10]提出了基于混沌预测理论的算法,并根据音频产生原理和人耳感知提出了高频信息的产生方法。

三、算法

本文所使用的算法是一种盲带宽扩展算法。这是因为已经有一套大范围的有限音频没有原始音频。在这种情况下,非盲目的扩展不会有多大帮助。让我们首先简要地看一下图1中实现的系统。

图1:算法概述

A、滤波器一

本节包括对有限频带音频进行的滤波操作。在此过程中,提取信号中的最高倍频程。假设信号中的最高频率分量是FHF。现在,假设信号fs的≥4*FHF的采样频率,这可以通过采样作为预处理步骤。信号中的最高倍频程在FHF/2-FHF之间.该滤波信号用于使用非线性器件在下一个块中产生缺失的高频谱。非线性器件产生互调失真(在下一节中定义).为了研究这种失真对系统质量的影响,我们实现了该块的两个不同版本。第一种是简单的IIR(无限脉冲响应)带通滤波器,它在FHF/2和FHF的范围内通过频率。互调失真随频率分量的增加而增加。因此,第二个版本是两个IIR带通滤波器的组合,其中第一个滤除信号中最高倍频程的一半,而另一个滤除另一半。

B、非线性器件

  该部分由非线性器件组成,该器件利用来自前一个块的滤波信号产生高频谱。它是产生信号高次谐波的区域。在这里,我们使用了两个非线性器件.一个是半波整流器,另一个是全波整流器。我们选择了整改,因为这是一个均匀的过程。整流器的输出主要是输入频率的二次谐波,衰减为每倍频程12分贝。半波整流输出的频谱由原始输入频率和所有谐波组成。另一方面,全波整流输出的频谱仅由输入频率的均匀谐波组成。我们感兴趣的是产生下一次谐波,即FHF-2*FHF之间的频谱。现在,让我们定义术语互调失真(IMD)。当一个由两个或多个频率分量组成的信号经过非线性运算时,输出不仅包含这些频率分量,而且还包含几个不理想的分量,这些分量基本上是输入分量的总和差。输出中的这种失真称为互调失真。本文研究了半波互调失真和全波校正对重建音频信号主观质量的影响。

C、滤波器2

  本节遵循非线性设备块.我们只对在前一个块中产生的高频谱感兴趣。经过前一段的整流后,高频分量主要包含输入频率分量的二次谐波。由于互调失真,会出现低于FHF和高于2*FHF的不良成分。这些组成部分需要消除。因此,感兴趣的信号将位于FHF和2*FHF之间。在这个阶段,这些边界之间的信号将被过滤掉。类似于过滤器1块,我们将有两个版本的这个块。第一个版本将包含一个简单的带通IIR,它将滤除FHF和2*FHF之间的信号。第二个版本将包含两个独立的IIR带通滤波器。当使用过滤器1的第二个版本时,将使用这些过滤器。第一滤波器将滤除滤波器1块的第二版本中的第一滤波器的输入频率的第二次谐波。第二滤波器将滤除滤波器1块的第二版本中从来自第二滤波器的输入频率产生的第二次谐波。然后可以增加这两个滤波器的输出,使我们得到完整的重构高频谱。

  最后,将产生的高频频谱添加到输入中,输入延迟的量相当于产生频谱所需的时间。因此,我们最终将有带宽扩展信号。

四、评估

A、试验方法与技术

  在评估方面,进行听力测试,以了解带宽扩展音频的主观质量。实验数据集是用一个简单的IIR低通滤波器生成的。五首歌来自不同的流派-电子,摇滚,电子屋,声学和世界音乐。所有文件的采样频率为44.1kHz,带限为7 kHz。每个文件都有20秒长。

  对于听力测试,进行了一次类似蘑菇式的测试。首先让参与者听到原始的音频文件(参考),然后是乐队有限的音频文件。之后,他们随机听到五个文件,其中包括一个隐藏的引用。这五个文件包括使用上述算法扩展带宽的文件-

  • 半波整流;
  • 基于子带滤波的半波校正
  • 全波整流;
  • 基于子带滤波的全波校正

然后,他们将这些文件的评分范围从1到10,1是感知质量的最小量,10是感知质量的最大数量。这五首歌都重复了一遍。所有这些文件的响度标准化为均方根值0.7。

  其中一首歌曲的所有5个文件的光谱图以及带限信号如下图2所示。

          图2a,原始信号(参考信号)

                          

图2b:有限带宽信号

图2c:半波校正重构信号

图2D:半波校正和子带滤波重构信号

 

图2E:全波校正重构信号

图2f:全波校正和子带滤波重构信号

B、结果

  测试有6名参与者。记录结果,计算评分均值。这些数字列于表1。 

表1:评估方法

  从结果可以看出,原始音频文件(参考)获得最高的评级。这就告诉我们,参与者给出的评分是真实的,是可以考虑的。

图3:评估手段的柱形图

  从图3中的条形图中,我们可以看到原始音频文件比带宽扩展文件具有更好的质量。我们还可以看到,在算法中使用子带滤波对音频文件的主观质量有积极的影响。使用简单的全波校正扩展的文件发现,在所有文件中,感知质量的数量最少。

五、论述

  首先,对本文提出的算法和实验结果进行了讨论。

  结果表明,采用子带滤波可以降低重构输出的互调失真,具有较高的主观品质。我们还可以得出结论,与全波校正相比,半波校正是一种更好的方法。根据所收到的评分,我们可以根据感知质量的数量对算法进行排序。

  1. 基于子带滤波的半波校正
  2. 基于子带滤波的全波校正
  3. 半波整流;
  4. 全波整流;

  这些结果验证了文献[6]所提出的方法,即子带滤波的使用预期具有较高的感知质量,但与文献[5]中使用的一般滤波技术不相比较。本文还比较了半波校正与全波校正对感知质量的影响。

  现在,让我们来讨论一下本文提出的算法和实验的缺点。

  该算法只有在频带限制信号FHF=fs/4中存在最高频率的情况下,才能将频谱重构到最大极限(fs/2)。如果fhf

  所进行的实验只有很少的参与者和一个很小的数据集。

六、展望工作

  本文可作为今后音频带宽扩展工作的基本框架。以下是本文算法和实验的改进和扩展。

  1. 高频谱的重建可以独立于频带受限音频中的最高频率。这将允许适当的重建,即使信号中的最高频率很低,即在5-7千赫的范围内。
  2. 由于在非线性器件块中只使用了两种不同的整流器,因此可以对不同的非线性器件(如积分器)进行进一步的研究。
  3. 整个系统可以进一步优化,以更好地实时工作。

七、结论

  本文对不同的音频带宽扩展方法进行了比较,并通过听力测试对结果进行了评价。实验结果表明,半波校正作为一种非线性器件,其校正效果优于全波校正,采用子带滤波可以提高带宽扩展信号的感知质量。

八、参考文献

[1] P. Ekstrand, “Bandwidth extension of audio signals by spectral band replication,” in Proceedings of the 1st IEEE Benelux Workshop on Model Based Processing and Coding of Audio (MPCA ’02, 2002.)
[2] Deepen Sinha, Anibal Ferreira, and, Deep Sen “A Fractal Self-Similarity Model for the Spectral Representation of Audio Signals,” 118th Convention of the Audio Engineering Society, May 2005, Paper 6467.
[3] Anibal J. S. Ferreira and Deepen Sinha, “Accurate Spectral Replacement,” 118th Convention of the Audio Engineering Society, May 2005, Paper 6383.
[4] H. E. V., A. J. S. Ferreira, and D. Sinha, “A Novel Integrated Audio Bandwidth Extension Toolkit (ABET),” presented at the Audio Engineering Society Convention 120, 2006.
[5] E. Larsen, R. M. Aarts, and M. Danessis, “Efficient High-frequency Bandwidth Extension of Music and Speech,” presented at the Audio Engineering Society Convention 112, 2002.
[6] M. Arora, J. Lee, and S. Park, “High Quality Blind Bandwidth Extension of Audio for Portable Player Applications,” presented at the Audio Engineering Society Convention 120, 2006.
[7] C.-M. Liu, W.-C. Lee, and H.-W. Hsu, “High Frequency Reconstruction for Band-Limited Audio Signals,” in Proceedings of the 6th International Conference on Digital Audio Effects (DAFX-03), 2003.
[8] “AES E-Library » High Frequency Reconstruction by Linear Extrapolation.” [Online]. Available: http://www.aes.org/elib/browse.cfm?elib=12426.
[9] C.-C. Bao, X. Liu, Y.-T. Sha, and X.-T. Zhang, “A blind bandwidth extension method for audio signals based on phase space reconstruction,” EURASIP Journal on Audio, Speech, and Music Processing, vol. 2014, no. 1, p. 1, 2014.
[10] Y. T Sha, C. C Bao, M. S Jia, and X. Liu, “High frequency reconstruction of audio signal based on chaotic prediction theory,” in 2010 IEEE International Conference on Acoustics, Speech and Signal Processing, 2010, pp. 381–384.
[11] The MUSHRA audio subjective test method - BBC R&D, 2002.

 

 

 

 

猜你喜欢

转载自blog.csdn.net/qq_34218078/article/details/85043154