语音合成vocoder(四) aperiodicity参数


基本概念

“aperiodicity” is defined as the power ratio between the speech signal and the aperiodic component of the signal

它是跟混合激励有关的参数,为了获得自然的声音,激励源不能只使用周期信号,也需要包含一些非周期信号。一种典型的非周期信号是噪音。

PLANTINUM[1]

使用excitation signal替换aperiodicity

X(ω)=Y(ω)H(ω)

首先根据F0标出voiced section,然后 y2(t) 最大的点对应加窗的时间点,使用长度为 2T0 的Hanning窗。
合成语音的时候直接使用求出的 x(t) h(t) 进行卷积即可。

D4C[4]

D4C需要计算不同频带对应的功率比。

1.计算群延迟

τgω=dϕ(ω)dω

假设所加窗口的中心点在 τ ,那么最后求出的群延迟 τ(ω,τ) τ 有关,使用了一些方法消除了参数 τ ,也就是最后得到的群延迟跟窗口位置无关。

2.修正参数

这里写图片描述
上一步计算加窗会带来频谱上的失真(上图a),这里进行smooth恢复出来原始的信号。

τgs(ω)=2ω0ω04ω04τg(ω+λ)dλ

τgb(ω)=1ω0ω02ω02τgs(ω+λ)dλ

τD=τgs(ω)τgb(ω)

3.估计band-aperiodicity

中心频率 ωc 对应的时域信号

p(t,ωc)=F1[w(ω)τD(ω(ωcwl2))]

wl 表示窗的长度
pc(t,ωc)=1t0ps(λ,ωc)dλ

其中 ps 是由功率谱 |p|2 在时间上按降序排序得到,而且 |p|2 做了归一化
band aperiodicity可得
ap(ωc)=10log10(pc(2wbw,ωc))

wbw 表示窗函数的主瓣宽度。

参考文献

[1].PLATINUM: A method to extract excitation signals for voice synthesis system
[2].D4C, a band-aperiodicity estimator for high-quality speech synthesis

猜你喜欢

转载自blog.csdn.net/xmdxcsj/article/details/72420051