Unsupervised Speech Decomposition via Triple Information Bottleneck

文章目录

作者：Kaizhi Qian，Yang Zhang
会议：2020 ICML
单位：IBM
code link

abstract

提出SPEECHSPLIT的结构，可以从语音中解耦出timbre, pitch，rhythm，content四个部分。

1. introduction

speaker identity不能作为pitch和rhythm的代表，因为重叠的信息非常有限。content信息来源于文本转录，rhythm信息也依赖于转录的文本，而对于低资源的数据，是否有不需要文本或者其他带有other info label的方式解耦出语音中的成分？

SPEECHSPLIT使用encoder-decoder的结构，包括三个encoder channels。作者认为成功在于：（1）输出维度的限制，过滤了其他无效的信息；（2）时间维度随机采样引入噪声的帮助。作者发现，不同的channel可以传递不同的信息（content，rhythm， pitch），从而实现信息解耦。

BN不仅可以用于VC，也可以用于其他的style transfer的任务。在BN存在的情况下，神经网络会优先通过其他地方没有的信息。

2. Related Work

Rhythm：每个字的语速
pitch：与其他信息耦合在一起，比如包含了rhythm的信息，voice/unvoice的信息是和字相关的；包含了说话人的信息，比如男/女基频高低不同-----可以通过norm去除。
Timbre：说话人相关的特征，与共振峰频率有关，共振峰频率是声道中的共振频率成分。在光谱图中，共振峰显示为光谱包络的显著频率成分。在图1中，声谱图上的矩形和箭头突出了三个共振峰。从图中可以看出，图上的共振峰频率范围较高，说明声音较亮;底部频谱图有一个较低的共振峰频率范围，表明一个低沉的声音。
content：与说话人无关，只和txt有关系，它们倾向于聚集在一起，远离最低的共振峰

4. SPEECHSPLIT

在这里插入图片描述
RR：random resampling，具体是：（1）语音长度的随机裁剪，（2）时间维度的放缩
假定模型各个部分是binding的，然后才有下边的推论：

对于 $E_f$ ，本身输入的picth是根据所有说话人的mean/std归一之后的，韵律信息已经有损（缺一个角），通过RR过程丢失更多的韵律信息；
timbre认为是speaker_emb；
$E_r$ 中有所有的韵律信息，他不知道该丢弃那一部分信息，但是其他的encoder输出没有韵律，因此 $E_r$ 会被迫丢掉韵律以外的信息；
因为 $E_f$ 中没有content信息，因此 $E_c$ 必须编码所有的content信息；
PS：疑问： $E_c$ 中没有韵律信息不假，但是是否编码了完整的content信息，而不需要 $E_r$ 补充？？if it work in practice?
韵律和基频包络具体还有什么区别？？

experiments

BN测试准则：去掉其中一个encoder，输出中应该没有对应的成分。在满足要求的模型中，选择训练误差最小的when the input to one of the en- coders or the speaker embedding is set to zero, the output reconstruction should not contain the corresponding information.

Conversion Visualization

在这里插入图片描述
使用一对平行数据进行测试，每次将source的一个特征替换为target。

Subjective Evaluation

在这里插入图片描述

依然是平行数据作为测试，测试样例包括：source utt， AUTOVC的结果，7个转换结果（见下表）
受测者要求选择和那个ref utt（source utt & target utt）的韵律更像，然后计算受测者选择target utt为更像的比例，rate更高，模型效果更好。

在这里插入图片描述
table 2是语音质量的评测：（1）pitch转换的结果比timbre和rhythm的更高，说明timbre和rhythm的建模难度更大；（2）转换种类增加，得分降低，说明任务难度加大；