speaker embeddings中的embeddings什么意思

转:链接:https://www.zhihu.com/question/267879982/answer/331017287
来源:知乎

做说话人识别,首先要获得每句话的一个低维表征向量,这个向量是要富含说话人信息,同时要少含有信道或噪声等无关信息,可用于做分类,称之为speaker representation。而常见的i-vector,就是属于speaker representation之一。而题主所问embedding,我认为是以网络中某层的输出,提取出一个低维固定向量,而这个向量能表征当前输入的feature信息;同时由于训练时输出后验概率是P(spki|xt),仅以speaker作为分类的标签,在这个点上是很discriminative,所以embedding也可以作为speaker representation。除了i-vector,还有好几种speaker representations,例如d-vector,s-vector,x-vector等等这些embeddings,还有end-to-end中产生出的中间量embeddings;另外有paper把iv归类于embeddings中。我就简单总结embedding一些特点:1、都有一个出发点,要把variable-length的utterance映射为fixed-dimensional embedding,毕竟我们需要的是一句话对应一个说话人表征向量,无论输入语音时长是多少,输出也要固定维度才能方便做比较或分类。目前常见的方法有几种,以帧(段)级别去训练然后提取再沿时域求平均,把输入的语句给切割等分或前后补全等长再输入,弃用MFCC一类特征改为等size语谱图输入,整句输入做RNN/LSTM……2、结构都是基于网络的,有DNN/CNN/ResNet/RNN/LSTM,训练方式是以分类speakers的方式(我不是很清楚s-vector是不是也这样),所以训练出来的模型都具有不错的discriminative ability3、embedding提取方法是从模型的倒数第几层隐藏层输出,会弃掉softmax output layer4、embedding系统相比i-vector系统,有了非线性建模的能力,但少了贝叶斯的味道5、embedding和i-vector都要另外用back-end算法去做分类和打分,end-to-end不用6、embedding是神经网络的产物,可以有很多变种和有趣的玩法

参考:Wang D, Li L, Tang Z, et al. Deep Speaker Verification: Do We Need End to End?[J]. 2017.Wang S, Qian Y, Yu K. What Does the Speaker Embedding Encode?[C]// INTERSPEECH. 2017:1497-1501.Wang S, Qian Y, Yu K. What Does the Speaker Embedding Encode?[C]// INTERSPEECH. 2017:1497-1501.Variani E, Lei X, Mcdermott E, et al. Deep neural networks for small footprint text-dependent speaker verification[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2014:4052-4056.Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification[C]// INTERSPEECH. 2017:999-1003.

おすすめ

転載: blog.csdn.net/weixin_44885180/article/details/117260077