【VC】END-TO-END ACCENT CONVERSION WITHOUT USING NATIVE UTTERANCES - 代码天地

【VC】END-TO-END ACCENT CONVERSION WITHOUT USING NATIVE UTTERANCES

企业开发 2024-01-09 04:35:45 阅读次数: 0

文章目录

来源：ICASSP 2020
从L2说话人的句子中分别提取语言学信息和说话人表征，然后驱动语音合成模型，从而产生没有口音的说话人特征不变的句子。

1. INTRODUCTION

传统的AC方法是将native说话人转换成non-native target说话人，但是内容和发音不变。因此在推理过程中需要native speaker的句子，也就只能转换有native speaker的句子。本文提出了一种端到端的方法，在转换过程中不需要native- accented utterances，理论上也可以转换任意内容的non-native utterances。本文的方法由4个部分组成：一个speaker encoder，一个seq2seq 多说话人的TTS，一个seq2seq 有口音的ASR，以及一个vocoder。speaker encoder是在说话人识别任务上训练的，得到固定维度的speaker embedding。多说话人TTS基于tacotron架构，将phoneme序列转成mel谱，以speaker embedding为条件。在native数据上训练。有口音的ASR则是在native 和 accent数据上训练的。在转换期间，应用non-native音频经过ASR产生的语言学信息和说话人表示，语言学信息和说话人表示喂给TTS的decoder，从而产生native的音频。声码器最终将mel转成音频。主要的贡献：

在转换过程中不需要ref
基于seq2seq框架，有能力建模韵律特性，听起来更native
不需要平行语料

2. PROPOSED APPROACH

2.1 训练阶段

训练阶段，应用speaker encoder提取speaker信息，实现speaker信息的解耦。根据文本信息和speaker的embedding生成native的音频。 $H^l$ 这里表示的是linguistic information，因为是平行语料，所以上下图中linguistic information是一致的， $L_{TTSE}$ 用于计算两个linguistic information之间的loss。
在这里插入图片描述

2.2 转换阶段

在这里插入图片描述

3. Experimental results

3.1 Audio naturalness

在这里插入图片描述
Ablation是去掉Accent embedding和Accent classifier的model。

3.2 Speaker similarity

在这里插入图片描述
三组分别是： “AB-BL”, “PB-L” and “P-AB”

3.3 Accentedness

在这里插入图片描述
口音测试，可以看到提出的方法明显好于baseline，ablation，和L2原音频，但稍差于L1原音频。

猜你喜欢

转载自blog.csdn.net/weixin_42262721/article/details/127030077

【VC】END-TO-END ACCENT CONVERSION WITHOUT USING NATIVE UTTERANCES

【VC】accent conversion 口音转换论文

【VC】Converting Foreign Accent Speech Without a Reference

【AC】Accent Conversion论文整理

End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures

[ACL2016]End-to-end Relation Extraction using LSTMs on Sequence and Tree Structures

实体-关系联合抽取：End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures

对抗机器学习：Deceiving End-to-End Deep Learning Malware Detectors using Adversarial Examples

END-TO-END NAMED ENTITY RECOGNITION AND RELATION EXTRACTION USING PRE-TRAINED LANGUAGE MODELS

Using Git without Password

知识图谱4-【再看一篇论文《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》】

文献阅读:CrossNet: An End-to-end Reference-based Super Resolution Network using Cross-scale Warping

MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms

Towards End-to-end

End-to-end Learning

Infix to Prefix conversion using two stacks

Remote end closed connection without response

Transparent native-to-ascii conversion的个人理解

idea的Transparent native-to-ascii conversion设置

cause:java.util.UnknownFormatConversionException: Conversion = 'End of String'

Upload file to servlet without using HTML form

This is usually caused by using Struts tags without the asso

Using ribbon and feign without eureka or both

Using Dependency Injection without any DI Library

A Small End-to-End Project

Non-parallel Voice Conversion using Weighted Generative Adversarial Networks

2000_narrowband to wideband conversion of speech using GMM based transformation

RemoteDisconnected: Remote end closed connection without response的解决方法

How To Learn Accent Reduction and Speak With an AMERICAN ACCENT

Train Your Accent

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

慧测学习课件

Mscordacwks.dll/SOS.dll 调试归档

关于深度学习人工智能模型的探讨（二）（7）

Stop Using the text-indent:-9999px

Least Common Multiple（HDU - 1019 ）

Comparator接口的使用方法--例子

修改framework Camera的API,旋转摄像头

机器学习时代的“大数据+”：数据平台的设计与搭建

vue 项目部署到nginx

webstorm 常用插件集合

每日归档

更多

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)