speaker embeddings中的embeddings什么意思

转：链接：https://www.zhihu.com/question/267879982/answer/331017287
来源：知乎

做说话人识别，首先要获得每句话的一个低维表征向量，这个向量是要富含说话人信息，同时要少含有信道或噪声等无关信息，可用于做分类，称之为speaker representation。而常见的i-vector，就是属于speaker representation之一。而题主所问embedding，我认为是以网络中某层的输出，提取出一个低维固定向量，而这个向量能表征当前输入的feature信息；同时由于训练时输出后验概率是P(spki|xt)，仅以speaker作为分类的标签，在这个点上是很discriminative，所以embedding也可以作为speaker representation。除了i-vector，还有好几种speaker representations，例如d-vector，s-vector，x-vector等等这些embeddings，还有end-to-end中产生出的中间量embeddings；另外有paper把iv归类于embeddings中。我就简单总结embedding一些特点：1、都有一个出发点，要把variable-length的utterance映射为fixed-dimensional embedding，毕竟我们需要的是一句话对应一个说话人表征向量，无论输入语音时长是多少，输出也要固定维度才能方便做比较或分类。目前常见的方法有几种，以帧（段）级别去训练然后提取再沿时域求平均，把输入的语句给切割等分或前后补全等长再输入，弃用MFCC一类特征改为等size语谱图输入，整句输入做RNN/LSTM……2、结构都是基于网络的，有DNN/CNN/ResNet/RNN/LSTM，训练方式是以分类speakers的方式（我不是很清楚s-vector是不是也这样），所以训练出来的模型都具有不错的discriminative ability3、embedding提取方法是从模型的倒数第几层隐藏层输出，会弃掉softmax output layer4、embedding系统相比i-vector系统，有了非线性建模的能力，但少了贝叶斯的味道5、embedding和i-vector都要另外用back-end算法去做分类和打分，end-to-end不用6、embedding是神经网络的产物，可以有很多变种和有趣的玩法

参考：Wang D, Li L, Tang Z, et al. Deep Speaker Verification: Do We Need End to End?[J]. 2017.Wang S, Qian Y, Yu K. What Does the Speaker Embedding Encode?[C]// INTERSPEECH. 2017:1497-1501.Wang S, Qian Y, Yu K. What Does the Speaker Embedding Encode?[C]// INTERSPEECH. 2017:1497-1501.Variani E, Lei X, Mcdermott E, et al. Deep neural networks for small footprint text-dependent speaker verification[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2014:4052-4056.Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification[C]// INTERSPEECH. 2017:999-1003.

speaker embeddings中的embeddings什么意思

おすすめ