PaddleSpeech 处理 SSML 输入

(以下内容搬运自 PaddleSpeech)

尝试 PaddleSpeech 处理 SSML 输入
参考:SSML标记语言介绍
pr 链接:https://github.com/PaddlePaddle/PaddleSpeech/pull/2531

目前只支持中文的多音字的处理, 通过标签给字或词 指定拼音,以下为文本样例. 可以把下面的文本保存在 sentences.txt 中:

❣️使用中英文混合合成时,请不要使用 SSML 标签,因为目前的 SSML 标签判断是放在中文文本前端中的,中英文混合合成时会先对文本进行语言判断,SSML 标签会被分类成英文,无法正常使用

❣️标签跨多句,不太好处理,有可能截断,不成 xml 了,最好标签不跨句子。如果输入文本中包含 <speak> </speak> 标签,会走带 SSML 处理的前端,不会按照标点进行切分,如果输入过长可能会 OOM

00001 "希腊"神话,不只是人类的想象!
00002 你好吗?<speak>前浪<say-as pinyin='dao3'>倒</say-as>在沙滩上,沙滩上倒了一堆<say-as pinyin='tu3'>土</say-as>。 想象<say-as pinyin='gan1 gan1'>干干</say-as>的树干倒了, 里面有个干尸,不知是被谁<say-as pinyin='gan4'>干</say-as>死的。</speak>你很好。哈哈哈

播放音频

播放音频

解释:

  • 用于标识拼音的文本需放在<speak> </speak>标签之内,且每个语音合成任务只能包含一个<speak> </speak>标签。
  • 多音字 用 标签, 设置 pinyin 的属性
  • 多个字的拼音需要用空格分开, 比如上面例子中的 干干 pinyin=“gan1 gan1”

P.S. 欢迎关注我们的 github repo PaddleSpeech, 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

猜你喜欢

转载自blog.csdn.net/qq_21275321/article/details/127533533
今日推荐