Whether To Pretrain DNN or Not?: An Empirical Analysis for Voice Conversion - 代码天地

Whether To Pretrain DNN or Not?: An Empirical Analysis for Voice Conversion

其他 2020-01-11 18:49:34 阅读次数: 0

会议：2019 interspeech
作者：Nirmesh J. Shah
单位：DA-IICT, Gandhinagar, India

abstract

在数据有限的情况下，vc model会过拟合，因此大部分的方法是pre-training再finetune。作者希望探究通过不需要预训练的方法同时避免过拟合。

1. introduction

深度学习中，预训练的方法逐渐被better activation function and regularization methods替代。
contribution:

DNN训练策略的探究
ReLU各种变种的尝试，希望更快的收敛
Xavier initialization 与random initialization的比较，前者得到更好的收敛性能
drop out避免过拟合
w.r.t （with reference to) 不同的优化策略， SGD和Adam
在VCC 2016 和VCC2018 上进行了主观和客观测试

2. DNN-based VC

讲了DNN训练的几个部分。。。。

3. Strategies for Training DNN for VC

drop out 解决过拟合 drop_out_rate = 0.3
激活函数：ReLU, LReLU, and ELU的优点是他们不会有梯度消失的问题，并且收敛速度快，泛化性好。
SGD的学习速率保持不变，Adam会根据梯度下降的速度调整学习率
初始化：如果权重过小，输入在各层之间的变化很小，会导致输入数据没有起作用。如果权重过大，输入在各层之间的变化很大，输入爆炸。Xavier initializer保证各层权重的变化是一致的，保持0均值，1/N方差的高斯分布（n是输入神经元数目）。

4. Experimental Results

基于平行数据，DTW的算法实现的，说话人句子数n = 10, 20, 40, 100, and150.
分别在VCC 2016和VCC2018上做了实验对比，主管评测分数一般。
在这里插入图片描述

postscript
这篇文章一开始看就有点不舒服的感觉，看完发现前2页半全是在普及深度学习的基础知识。。。。
自己写论文要注意创新点，避免这种看起来非常工程化的工作量的堆砌。

林林宋

发布了98 篇原创文章 · 获赞 9 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/103938209

Whether To Pretrain DNN or Not?: An Empirical Analysis for Voice Conversion

Voice conversion with SI-DNN and KL divergence based mapping without parallel training data

An Empirical Analysis of Anonymity in Zcash

2018ins--Wavelet Analysis of Speaker Dependent and Independent Prosody for Voice Conversion

The Voice Conversion Challenge 2018

An Empirical Analysis of Traceability in the Monero Blockchain

Unsupervised Cross-Domain Singing Voice Conversion

李宏毅，语音转换，voice conversion

Self-Supervised Representations for Singing Voice Conversion

Empirical Evaluation of Speaker Adaptation on DNN based Acoustic Model

论文笔记：Empirical Analysis of Predictive Algorithms for Collaborative Filtering

Empirical Analysis of Beam Search Performance Degradation in Neural Sequence Models

New Empirical Traceability Analysis of CryptoNote-Style Blockchains

2019trans--Sequence-to-Sequence Acoustic Modeling for Voice Conversion

One-shot Voice Conversion with Global Speaker Embeddings

One-shot Voice Conversion with Disentangled Representations by Leveraging Phonetic Posteriorgrams

ON the study of generative adversarial network for corss-lingual voice conversion

Non-parallel Voice Conversion using Weighted Generative Adversarial Networks

2021-3-13组会 Overview of Voice Conversion

Transferring Source Style in Non-Parallel Voice Conversion

Investigating Deep Neural Structures and their Interpretability in the Domain of Voice Conversion

（推荐系统）论文笔记：Empirical Analysis of Predictive Algorithms for Collaborative Filtering

[论文笔记] Phonetic posteriorgrams for many-to-one voice conversion without parallel data training

sub2019ins:A Vocoder-free WaveNet Voice Conversion with Non-Parallel Data

2018icassp-Non-parallel voice conversion using variational autoencoders conditioned by phonetic PPGs

2016 ICME:Phonetic posteriorgrams for many-to-one voice conversion without parallel data training

Odessey2018:Average Modeling Approach to Voice Conversion with Non-Parallel Data

2019icas--Cross-lingual Voice Conversion with Bilingual Phonetic PosteriorGram and Average Modeling

Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

StarGAN-VC： non-parallel many-to-many voice conversion with StaGAN

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)