在 2001 年，ITU-T P.862 标准定义了有参考客观评价算法PESQ（Perceptual Evaluation of Speech Quality，语音质量感知评价），该算法主要用来评估窄带（8kHz 采样率）及宽带（16kHz 采样率）下的编、解码损伤。该算法在过去的二十年中，被广泛的应用于通信质量的评定。已开源。

2011 年，P.863 标准定义了一套更全面、更准确的有参考客观评价POLQA。相比 PESQ，POLQA 可评估的带宽更广，对噪声信号和延时的鲁棒性更好，其语音质量评分也更接近于主观的评分。需要购买百万元的专门设备和授权才能使用。

PESQ的算法步骤：

时间对齐：目的消除系统延迟的影响。

听觉变换：将音频信号转化为频谱信号。

差异处理：逐帧处理

取时间平均得到PESQ分数。如对齐错误可再次对齐。

PESQ 的分数范围在 0～4.5 分，一般音质比较好的编／解码器，比如 64kbps 比特率的 OPUS 编解码器，可以达到 4.5 分，而分数越低则代表音质越差。比如 OPUS 的码率降到 6kbps 那 PESQ 可能就只有不到 3 的分数。

note：

PESQ 最多只能评价 16kHz 采样率的音频。如果要评价一个采样率比较高的音频信号，比如音乐信号，POLQA 会比较合适。POLQA 最高可以支持 48kHz 采样率的全带音频的客观质量评价。但购买一套 POLQA 设备的价格都是百万级的，为了方便使用，你还可以考虑一下使用例如ViSQOL 等开源算法，也可以支持 48kHz 的音频采样率。

ViSQOL ：https://arxiv.org/pdf/2004.09584.pdf

无参考评价：

不需要参考音频，根据音频的频谱能量分布、连续性等指标评分。

适用场景：

比如在打网络电话时，只有接收到的经过编 / 解码和网络传输的音频信号，没有远端的输入信号。这时只能采用无参考音频质量评价方法。

不需要参考信号，仅通过对输入信号本身或参数的分析即可得到一个质量评分。

比较著名的无参考客观评价方法：

ITU-T P.563

2004 年提出，主要是面向窄带语音的质量评估

ANIQUE+

2006 年提出，也是面向窄带语音，其评分准确度据作者称超过了 PESQ，不过 PESQ 的测量不能反应网络的延时、丢包等，并不能完美适用于如今基于互联网传输的实时互动场景。

E-model

于 2003 年提出，不同于上述两种方法，这是一个基于 VoIP 链路参数的损伤定量标准，不会直接基于信号域进行分析。

ITU-T P.1201

ITU-T P.1201 系列于 2012 年提出，对于音频部分，该标准也不对音频信号直接进行分析，而是基于网络状态和信号状态对通信质量进行评分。

三. 小结：

客观测试目前只能测量音频的损伤程度，比如我们平时在选择编解码器时不知道选择什么类型、多少码率，这时不妨跑一下 PESQ 或者 VisQol 看一下分数。

而对于一些偏主观的测试类型，比如音乐听感、耳机效果等，则一般还是需要依靠主观测试。主观测试可以采用众包等方式把测试分发出去。

针对这种分发式的主观测试，最近的 ITU-T P.808 也有详细的测试流程和方法。

04｜主观与客观评价音频质量

引言：

一. 音频主观评价方法

MUSHRA

介绍

特点：

应用MUSHRA例子：

常用的主观评价指标：

二. 音频客观评价方法

有参考评价：

PESQ与POLQA