语音质量评价方法-【音频质量专题】

主要内容:
1.信噪比(Signal-to-Noise Ratio,SNR)

2.分段信噪比(Segment Signal-to-Noise Ratio,SegSNR)

3.PESQ(Perceptual Evaluation of Speech Quality) 

4.对数似然比测度(Log Likelihood Ratio Measure,LLR) 

5.对数谱距离(log spectral distance,LSD)

6.可短时客观可懂(Short-Time Objective Intelligibility,STOI)

7.加权谱倾斜测度(Weighted Spectral Slope,WSS)

8.感知客观语音质量评估(Perceptual Objective Listening Quality Analysis,POLQA)

部分内容来源于网络和书籍,在此先表感谢,因作者才疏学浅,偶有纰漏,望不吝指出。本内容由灵声讯音频-语音算法实验室整理创作,转载和使用请与“灵声讯”联系,联系方式:音频/识别/合成算法QQ群(696554058)

1.信噪比(Signal-to-Noise Ratio,SNR)

SNR一直是衡量针对宽带噪声失真的语音增强算的常规方法。但要计算信噪比必需知道纯净语音信号,但在实际应用中这是不可能的。因此,SNR主要用于纯净语音信号和噪声信号都是己知的算法的仿真中。 

信噪比计算整个时间轴上的语音信号与噪声信号的平均功率之比。

2.分段信噪比(Segment Signal-to-Noise Ratio,SegSNR)

由于语音信号是一种缓慢变化的短时平稳信号,因而在不同时间段上的信噪比也应不一样。为了改善上面的问题,可以采用分段信噪比。

3.PESQ(Perceptual Evaluation of Speech Quality) 

2001年2月,ITU-T推出了P.862 标准《窄带电话网络端到端语音质量和话音编解码器质量的客观评价方法》,推荐使用语音质量感知评价PESQ算法,该建议是基于输入-输出方式的典型算法,效果良好。 

PESQ算法需要带噪的衰减信号和一个原始的参考信号。开始时将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后, 分别提取两路信号的参数, 综合其时频特性, 得到PESQ分数, 最终将这个分数映射到主观平均意见分(MOS)。PESQ得分范围在-0.5--4.5之间。得分越高表示语音质量越好。

4.对数似然比测度(Log Likelihood Ratio Measure,LLR) 

坂仓距离测度是通过语音信号的线性预测分析来实现的。ISD基于两组线性预测参数(分别从原纯净语音和处理过的语音的同步帧得到)之间的差异。LLR可以看成一种坂仓距离(Itakura Distance,IS),但IS距离需要考虑模型增益。而LLR不考虑模型增益引起的幅度位移,更重视整体谱包络的相似度。

5.对数谱距离(log spectral distance,LSD)

    对数谱距离的定义

                                          

6.可短时客观可懂(Short-Time Objective Intelligibility,STOI)

0-1范围,值越大,可懂度越高

                                                                             

7.加权谱倾斜测度(Weighted Spectral Slope,WSS)

WSS值越小说明扭曲越少,越小越好,范围

8.感知客观语音质量评估(Perceptual Objective Listening Quality Analysis,POLQA)

POLQA (感知客观语音质量评估),是一个技术升级,它能够覆盖最新的语音编码和网络传输技术,对于3G,4G/LTE和VoIP网络有了更高的准确度。POLQA是PESQ的继承者(ITU-T P.862建议书)。POLQA避免了当前P.862型号的弱点,并且扩展到处理更高带宽的音频信号。进一步的改进针对具有许多延迟变化的称为信号和信号的时间的处理。与P.862类似,POLQA支持普通电话频段(300-3400 Hz)的测量,但此外它还具有第二种操作模式,用于评估宽带和超宽带语音信号中的HD-Voice(50-14000)赫兹)。POLQA还针对由具有嘴和耳模拟器的人造头部在声学上记录的语音信号的评估。

ITU-T的全系列参考目标语音质量测量系列始于1997年的P.861(PSQM),2001年被P.862(PESQ)取代.P.862 后来补充了P.862.1的建议。(PESQ得分到MOS量表的映射),P.862.2(宽带测量)和P.862.3(应用指南)。自2011年以来P.863(POLQA)生效。ITU-T第12研究组于2011年11月同意了P.863的另外两个实施者指南。除了上面列出的完整参考方法外,ITU-T的客观语音质量测量标准清单还包括P.563(无参考算法)

POLQA,类似于P.862 PESQ,是一种全参考(FR)算法,可对与原始信号相关的降级或处理过的语音信号进行评级。它将参考信号(讲话者侧)的每个样本与劣化信号(收听者侧)的每个相应样本进行比较。两个信号之间的感知差异被评为差异。感知心理声学模型基于类似的人类感知模型,如MP3或AAC。基本上,在应用掩蔽函数之后,在频域(在临界频带中)分析信号。两个信号表示之间的未屏蔽差异将被计为失真。最后,语音文件中累积的失真被映射到MOS测试中通常的1到5质量等级。

POLQA是全参考算法,并且在对应的参考和测试信号的摘录的时间对准之后逐个样本地分析语音信号。POLQA可用于为网络提供端到端(E2E)质量评估,或表征各个网络组件。目前该算法还是受保护状态,非公开,使用需购买,SDK由http://www.polqa.info/ 提供。

POLQA结果主要是模型平均意见得分(MOS),涵盖从1(差)到5(优秀)的范围。

具体参考请见:http://www.polqa.info/ 

                                                         

猜你喜欢

转载自blog.csdn.net/tanningzhong/article/details/88663973