语音合成论文优选：Unified Mandarin TTS Front-end Based on Distilled BERT Model

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Unified Mandarin TTS Front-end Based on Distilled BERT Model

本文章是华为诺亚方舟实验室在2020.12.31更新的文章，主要做语音合成前端的工作，把韵律预测和多音字消歧进行同时预测，具体的文章链接

https://arxiv.org/pdf/2012.15404.pdf

（语音合成前端的文章真是稀少，阅读起来感觉倍感轻松有趣）

1 研究背景

语音合成前端的主要工作是把输入的内容转换到统一格式的语言特征序列，其中最主要的两个工作是韵律预测PSP：prosodic structure prediction 和G2P: grapheme-to-phoneme，具体实例如图1所示，其中中文的g2p最艰难的任务是多音字消歧，因此本文把韵律预测和多音字消歧工作进行统一建模，使模型大小和预测准确度都得到优化。

2 详细设计

本文使用预训练的中文bert上进行多任务训练，具体如图2所示，对于多音字消歧主要是分类任务，把所有多音字的拼音个数作为分类种类，然后预测概率。韵律预测本文进行统一预测，不再单独预测pw.pph和iph三级预测，具体事例如图3所示。两者训练的loss为公式3，其中α为可调节的超参。

因为bert是计算密集型任务和超大模型，因此本文在预训练的bert上进行知识蒸馏tinyBERT，具体如图4所示，蒸馏过程分为4个步骤，具体为图5所示。1）在预训练的bert上进行蒸馏获取general tinybert; 2)在预训练的bert上使用多音字和韵律语料进行微调获取finetuned bert; 3)从general tinybert上对finetuned bert进行蒸馏为task tinybert；4)对task tinybert进行微调获取多任务的TinyBert-MTL。

3 实验

实验结果多音字准确率，本文的tinyBert-mtl比最好的bert-polyphone稍微差一点，但好于wfst和blstm。韵律预测结果如table 2所示亦是如此。table3和4是使用mlp和blstm对结果影响。最后table显示tinybert的大小比现有的方案的模型大小只有25%，但速度为原来慢了一倍。

4 总结

本文把韵律预测和多音字消歧工作进行统一建模，使模型大小和预测准确度都得到优化。(但优化的模型也有47M，说实话还是挺大的。以前我们做嵌入式，前端模型+声学模型的总的存储开销才是15M，47M很多微小嵌入式设备应该无法使用。当然在手机这些设备上还是没啥问题）

语音合成论文优选：Unified Mandarin TTS Front-end Based on Distilled BERT Model

猜你喜欢