Investigating Deep Neural Structures and their Interpretability in the Domain of Voice Conversion

作者:Samuel J. Broughton
单位:新加坡国立,英国谢菲尔德
会议:2021 interspeech

abstract

研究GAN生效的细节:
(1)对于一个特定的GAN结构,重复层学到的特征和他们随机初始化的参数非常像
(2)对于在一个指定数据集训好的网络,transfer到另外一个数据集合,repeating layers的参数也呈现出高度的一致性。
结论:repeating layers的层数对于好的表征是更重要的。

SVCCA分析向量

Singular Vector Canonical Correlation Analysis (SVCCA) 奇异向量标准关联分析,对比两个高维向量的一致性。谷歌提出的model insight的方法。
SVCCA的方法介绍

experiments

想要探究的问题

  1. 训练好模型的latent representation和随机初始化的相似性;
  • 计算模型初始化时各层输出与不同训练step时输出的相关度 CCA
    在这里插入图片描述

在这里插入图片描述

  • 结论:repeating layer (R1—R9)学到的特征非常相像;D1非常接近初始状态,去除GLU结果也一样
  1. 模型自适应之前和之后,latent representations的相似性;
  • pre-trained model作为初始态,换一个数据集进行transfer learning,得到的结果和1类似;
  1. 带有各种frozen repeating layer网络学学到特征的相似性;
  • 不同的实验对照:(1)freeze R2/3/4;(2)freeze R5/6;(3)freeze R7/8
  • 结论:不同对照试验的中间层输出相似,最终结果相似;
  1. 不同数量repeating layers (1D CNN)的网络得到输出特征的质量有何区别;
  • 对比实验:含有不同的repeating layer,3/6/9/12/15
  • 结论:(1)层数越多,conversion的音色迁移越明显;
    (2)音色迁移明显,有时候也会伴随可懂度的下降;
    (3)层数增加,噪声也更明显。

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/120176136