04|主观与客观评价音频质量

目录

引言:

一. 音频主观评价方法

MUSHRA

介绍

特点:

应用MUSHRA例子:

常用的主观评价指标:

二. 音频客观评价方法

有参考评价:

PESQ与POLQA

PESQ的算法步骤:

note:

ViSQOL :https://arxiv.org/pdf/2004.09584.pdf

无参考评价:

适用场景:

比较著名的无参考客观评价方法:

三. 小结:


引言:

音频的评价方法主要两种:

  1. 主观评价

即组织足够数量多人来听被测音频并对样本进行打分,最后依据打分的高低来评价音频质量的好坏。

优点:

主观测试是音频评价的黄金准则,最符合人的实际听感。

缺点

主观评测费时费力,不一定是最经济的方案

  1. 客观测试

通过给定数学公式计算音频质量评价指标,比如SNR、频谱差异等。 结合计算结果拟合一个主观分数。

一. 音频主观评价方法

ITU(国际电信联盟),联合国下属一个专门机构,负责电信、通话等相关标准等制定。   比较有公信力的组织包括ITU-R(无线电通信组)和ITU-T(远程通信标准化组织)。   这两个组织为了统一国际音频质量评价指标,制定了一系列的主、客观评价方法。 

MUSHRA

介绍

(Multi-Stimulus Test with Hidden Reference and Anchor,多激励隐藏参考基准测试方法)属于 ITU-R BS.1534 中的推荐测试方法。  它最早被用于流媒体与通信的相关编码的主观评价,现在也被广泛应用于心理声学相关研究中的音质主观评价。

MUSHRA 的分数是 0 到 100 分,按照从高到低的听感描述,如表 1 所示:

为了保证测试的有效性,主要需要注意以下4点:

  1. 参考的标准音频和被测试音频间隔测试,连续重复 4 次; (防止误判)
  2. 音频源采用 15~20s;  (防止测试者产生听音疲劳)
  3. 一次完整的测试时间不应超过 15~20min;(防止测试者产生听音疲劳)
  4. 测试成员:专家成员最少 10 人,非专家 20 人。(使得标准不过于严苛更能符合大众的听音习惯)

特点:

其测试的特点主要是在测试语料中混入无损音源作为参考(上限),全损音源作为锚点(下限),通过双盲听测试,对待测音源和隐藏参考音源与锚点进行主观评分。

MUSHRA 方法的测试面比较广,可以用于编 / 解码器,语音合成,甚至是耳机测评。

应用MUSHRA例子:

REF是无损音频,采样位深8bit记位8bit_lal_REF,  Anchor35是锚点,其他为不同语音合成算法。

常用的主观评价指标:

  1. MUSHRA方法
  2.  ITU-T P.800《语音质量的主观评价方法》,也就是我们常说的 MOS(Mean Option Scores,平均意见分)
  3. ITU-T P.830《电话和宽带数字语音编码器的主观评价方法》
  4. ITU-T P.805《对话质量的主观评价》
  5. ITU-R 主观评价标准中的 ITU-R BS.1116 《音频系统中小损伤主观评价方法》
  6. ITU-R BS.1285 《音频系统中小损伤主观评价的预选方法》

ITU官网: 国际电联:致力于连通世界

主观评价缺点:测试者太少、测试者不规范等都会带来测试误差

二. 音频客观评价方法

客观评价包括有参考评价和无参考评价。

有参考评价:

除了需要给定测试音频外,还需要同时给出参考音频做基准。通过计算测试音频和参考音频等区别来拟合音频的主观得分。

PESQ与POLQA

在 2001 年,ITU-T P.862 标准定义了有参考客观评价算法PESQ(Perceptual Evaluation of Speech Quality,语音质量感知评价),该算法主要用来评估窄带(8kHz 采样率)及宽带(16kHz 采样率)下的编、解码损伤。该算法在过去的二十年中,被广泛的应用于通信质量的评定。   已开源。

2011 年,P.863 标准定义了一套更全面、更准确的有参考客观评价POLQA。相比 PESQ,POLQA 可评估的带宽更广,对噪声信号和延时的鲁棒性更好,其语音质量评分也更接近于主观的评分。  需要购买百万元的专门设备和授权才能使用。

PESQ的算法步骤:

时间对齐:目的消除系统延迟的影响。

听觉变换:将音频信号转化为频谱信号。

差异处理:逐帧处理

取时间平均得到PESQ分数。如对齐错误可再次对齐。

PESQ 的分数范围在 0~4.5 分,一般音质比较好的编/解码器,比如 64kbps 比特率的 OPUS 编解码器,可以达到 4.5 分,而分数越低则代表音质越差。比如 OPUS 的码率降到 6kbps 那 PESQ 可能就只有不到 3 的分数。

note:

PESQ 最多只能评价 16kHz 采样率的音频。  如果要评价一个采样率比较高的音频信号,比如音乐信号,POLQA 会比较合适。POLQA 最高可以支持 48kHz 采样率的全带音频的客观质量评价。     但购买一套 POLQA 设备的价格都是百万级的,为了方便使用,你还可以考虑一下使用例如ViSQOL 等开源算法,也可以支持 48kHz 的音频采样率。

ViSQOL :https://arxiv.org/pdf/2004.09584.pdf

无参考评价:

不需要参考音频,根据音频的频谱能量分布、连续性等指标评分。

适用场景:

比如在打网络电话时,只有接收到的经过编 / 解码和网络传输的音频信号,没有远端的输入信号。这时只能采用无参考音频质量评价方法。

不需要参考信号,仅通过对输入信号本身或参数的分析即可得到一个质量评分。

比较著名的无参考客观评价方法:

  1.  ITU-T P.563

2004 年提出,主要是面向窄带语音的质量评估

  1. ANIQUE+

2006 年提出,也是面向窄带语音,其评分准确度据作者称超过了 PESQ,不过 PESQ 的测量不能反应网络的延时、丢包等,并不能完美适用于如今基于互联网传输的实时互动场景。

  1. E-model

于 2003 年提出,不同于上述两种方法,这是一个基于 VoIP 链路参数的损伤定量标准,不会直接基于信号域进行分析。

  1. ITU-T P.1201

ITU-T P.1201 系列于 2012 年提出,对于音频部分,该标准也不对音频信号直接进行分析,而是基于网络状态和信号状态对通信质量进行评分。

三. 小结:

客观测试目前只能测量音频的损伤程度,比如我们平时在选择编解码器时不知道选择什么类型、多少码率,这时不妨跑一下 PESQ 或者 VisQol 看一下分数。

而对于一些偏主观的测试类型,比如音乐听感、耳机效果等,则一般还是需要依靠主观测试。主观测试可以采用众包等方式把测试分发出去。

针对这种分发式的主观测试,最近的 ITU-T P.808 也有详细的测试流程和方法。

猜你喜欢

转载自blog.csdn.net/qq_36533552/article/details/125487419