GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

企业开发 2023-09-19 00:25:52 阅读次数: 0

文章目录

abstract
背景
GenerSpeech

abstract

目标：做out-of-domain （OOD）style transfer(情感、音色、韵律）
两个改进：（1）multi-level style adaptor ：包括global style以及 local style (utterance, phoneme, and word-level) ；(2) content adaptor with Mix-Style Layer Normalization：用以消除输入文本特征中的风格信息，改善模型泛化能力；

背景

Meta-StyleSpeech，SC-GlowTTS，Styler: Style factor modeling with rapidity and robustness via speech decomposition for expressive and controllable neural text to speech.
OOD的风格迁移，尤其是zero-shot的，都有先验的假设新的目标风格对于base model是可迁移的，但实际上，新的目标风格可能不同于base model中任意一种数据分布，这就要求：the model can be invariant to domain shift given unseen data. 从图像上借鉴一些方法。

GenerSpeech

问题定义：transfer of out-of-domain custom voice.
分析：想要做风格迁移，首先要划分好哪些是风格先管的特征，哪些是风格无关的特征
- style-agnostic (linguistic content)
- style-specific (e.g., speaker identity, emotion, and prosody)

Mix-Style Layer Normalization—去除文本中的风格信息

在这里插入图片描述

常规condition layer norm的基础上，将说话人相关的向量打散加入layer norm的系数中；

Multi-level Style adaptor

在这里插入图片描述

Global Representation

从wav2vec2.0 中提取，
wav2vec训练的loss是mask挖空对比学习之类，得到的模型浅层是比较全局的信息如音色之类，深层的是内容相关的信息。这种可以作为ASR的前置特征提取；audio token训练的loss是重建，所以包含了重建语音所需的所有信息，可用于TTS离散化

Local Representation

frame/phn/word level prosody embedding：按照边界进行conv pooling，然后加VQ量化，过滤韵律无关的信息；

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/132546049

GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

语音合成论文优选：通用tts系统Towards Universal Text-to-Speech

Text Style Transfer论文笔记

A Probabilistic Formulation of Unsupervised Text Style Transfer

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis翻译（不含实验部分）

Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

[Style Transfer]——Neural Style Transfer: A Review

[Style Transfer]——Deep Photo Style Transfer

GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

Fighting Offensive Language on Social Media with Unsupervised Text Style Transfer 阅读

A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer

Style Transfer 合集

Neural style transfer

Neural Style Transfer: A Review

Deep Photo Style Transfer

Towards a Robust Deep Neural Network in Text Domain A Survey

Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset

[Style Transfer]——A Neural Algorithm of Artistic Style

谈谈图像的Style Transfer（一）

谈谈图像的style transfer（二）

3D Style Transfer

论文阅读 | A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer

深度学总结：Image Style Transfer pytorch方式实现，这个是非基于autoencoder和domain adversrial方式

[Style Transfer]——Adversarial Stain Transfer for Histopathology Image Analysis

风格迁移(2)-Fast Style Transfer

神经风格迁移（Neural Style Transfer）简介

图像风格转换(Image style transfer)

深度学习之风格转换——Style Transfer

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)