ETSI EG 202 396-3 GMOS背景噪声下的语音性能评价

一、概述
大多数的通话状态和环境都不可避免的受到背景噪声的干扰,同时需要考虑终端及网络的影响。ETSI EG 202 396旨在通过背景噪声传输的性能测试和评估,提高通讯语音质量。标准涵盖了三部分:
第一部分:背景噪声模拟技术和背景噪声数据库。描述了实验室环境中背景噪声模拟的录制和回放设置,用于终端和通讯系统的性能评价。
第二部分:背景噪声传输-网络模拟-主管测试数据库和结果。其描述了网络损伤的模拟以及如何模拟实际的传输网络场景,并且包含主观评分的方法和结果。
第三部分:背景噪声传输客观测试方法
标准ETSI EG 202 396-3定义了用于客观评价背景噪声下终端或系统的语音通讯质量(含窄带和宽带)的测试方法。

二、参数评定
标准文件适用于确定当前背景噪声下影响语音质量的不同参数:
语音质量,定义为S-MOS。
背景噪声传输质量,定义为N-MOS。
整体质量,定义为G-MOS。
2.1 N-MOS
N-MOS客观算法基于主观听力测试结果和专家听力分析的结论。影响主观N-MOS的主要参数有:
绝对背景噪音大小。
背景噪声的调制。
背景噪音的“自然性”。
丢失数据包(次要影响)。
N-MOS依据二次线性回归得到:
在这里插入图片描述
标准中给出了N-MOS二次线性回归算法的系数,并将主观评分和得到的客观结果进行对比:

在这里插入图片描述
左图中显示了几乎每个样本的主观和客观N-MOS之差都小于0.5,右图中给出了客观N-MOS计算结果与主观N-MOS评定值的误差密度函数,可以看出69%的N-MOS误差小于0.25,99%的N-MOS计算误差小于0.75。
2.2 S-MOS
S-MOS的客观评定旨在再现听力测试中测试人员的听觉印象,以校正数据库并提高测试重复性。专家组结合听觉印象,给出了与S-MOS相关的参数:
处理后信号的背景噪音的大小和质量。
处理后信号语音和噪声之间的信噪比(SNR)。
未处理和处理信号之间SNR的改善或恶化。
数据包丢失。
语音调制。
“自然”。
处理后的背景噪声的质量及音量不仅影响N-MOS,也会影响S-MOS,好的背景噪声会使得S-MOS更容易得到高分,而不愉悦的背景噪声会降低S-MOS的评分。
在这里插入图片描述
对比S-MOS客观计算结果和主观评定结论,约90%的样本主观和客观S-MOS之差控制在0.5 MOS内。
2.3 G-MOS
主观的整体质量是语音质量和噪声质量的结合。根据人类感知,首先计算噪声和语音质量,然后对整体质量进行建模。通过对N-MOS和S-MOS应用线性二次回归算法来计算G-MOS。
在这里插入图片描述
其中:
j是回归阶次指数;
c0,cSj,cNj是二次线性回归系数。
G-MOS二次线性回归系数
阶次 c0 cNj(N-MOS) cSj(S-MOS)
1 0.4539 0.5981 -0.1603
2 - -0.0242 0.1143

由此得到的G-MOS于主观G-MOS相差无几,几乎所有的测试结果偏差都在0.5 MOS内。

三、标准化测试
其测试音源的定义由ITU-T P.501给出,其描述了宽带测试中法语语句,及窄带测试中的英语语句,测试涉及:
手持和免提设备(发送方向)
噪声环境(稳态噪声和非稳态噪声)
不同的降噪算法
相关宽带及窄带编码器
引入数据包丢失的VoIP网络
计算N-MOS,S-MOS,G-MOS时,可采用不同的输入信号进行录制分析,另外在计算时需要用到测试用的纯语音信号及未处理信号。
两个信号用于模拟听众在听音测试中确定语音和背景噪声的消减。以宽带测试为例,信号样本生成过程如图,其中包含纯语音信号,未处理语音信号,处理后语音信号:
在这里插入图片描述
宽带测试信号流程

采用背景噪声模拟系统进行背景噪声的录制和回放,复现终端或通讯电话的实际应用场景。测试由标准数据库及标准测试系统完成,纯音信号由测试系统给出,通过人工嘴播放,未处理语音信号有标准麦克风在模拟手持设备或免提电话麦克风处录制信号。处理后的语音信号由被测设备经信号处理后传回测试系统,由系统进行自动化分析及计算,得到背景噪声下的通讯语音质量。

四、应用

 依据标准针对通信终端进行背景噪声下的通话质量测试。
 依据语测试结果对语音处理及背景噪声处理模块进行算法调试和比对。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/zhangruiwenbb/article/details/89874053