基于深度卷积神经网络的单通道人声与音乐的分离-论文翻译

主体内容:作为当前的一大热门,语音识别在得到快速应用的同时,也要更适应不同场景的需求,特别是对于智能手机而言,由于元器件的微型化导致对于语音处理方面的器件不可能很大,因此单通道上的语音分离技术就显得极为重要,而语音分离正是语音识别的前端部分。而传统的技术由于数据处理的限制,无法处理信号中复杂了干扰,因此,近年来通过DNN和RNN的引用,使得分离效果达到了很大的提高。

  • 摘要   单通道语音分离的难点主要在与单通道。在这篇文章中,作者通过采用深度循环神经网络DRNN来对混合语音信号进行有监督的分离,通过在末端采用非线性的模型来分离不同的源信号。其中损失函数使用的是理想时频掩蔽,来进行前后对比误差。后续也可以采用不同的损失函数来增大信号干扰比。相对于之前的方式,这种方式得到了很大的提高。其中GNSDR在2.302.48dB,GSIR在4.325.42 dB(数据基于MIR-1K dataset.相关的数据集可以直接谷歌搜索,如果找不到或者下载缓慢请邮件联系:[email protected]

  • 介绍   单通道语音分离的使用场景:自动语音识别(ASR)中的去燥;通过分离音乐中的人声,可以提高和弦识别和音高判断的准确性等(这个主要是识别乐器和判断唱歌人的声音品质–我的想法)。但是目前的方法还远没有达到人工识别的准确度,特别是对于单通道而言,差别就更大了。   本文主要关注于人声和音乐的分离。对于这个目标,目前主流的处理方式[7,13,16,17]都基于一个假设:即人声和音乐信号的数据矩阵是低秩且稀疏的(低秩即当前矩阵能够用更少的数据元来直接加权表示;稀疏即矩阵中存在更多的零值元素--参见文末)   相对于传统的方式,深度学习的方式少了很多的限制,这种方式能够通过非线性结构更好的扩展模型的表达能力,找到数据的最优化特征表达。本文中,通过使用连接优化和软掩蔽函数来搭建一个不同于以往的深度循环神经网络。而且,训练目标可以灵活改变以优化网络的结构,具体流程如图 1 图 1. 网络架构   本文组织如下,第二节主要讨论传统的工作方式,作为方法的引入。第三节主要介绍本文的方法:包括深度循环神经网络、深度网络的连接优化、软时频掩蔽函数和不同的目标函数。第四节主要是实验的MIR-1K数据集的设置和分析结果。第五节为本文的总结。

  1. 与以前工作的联系   以前的工作主要基于一个假设,即音频信号的矩阵低秩和稀疏性,如[7, 13, 16, 17]。但是这个假设并不总是正确的。而且,在分离阶段,这些模型都被看作是单层线性网络,通过线性转换来预测干净的频谱信号,显然这个缺陷很大。因此,为了优化这个模型的表达能力,我们采用了深度循环的网络,这个网络对数据的低秩和稀疏性都没有强烈的要求。   通过使用深度架构,在数据的不同抽象等级上,深度学习的方式能够找到那些隐藏的结构和特征。近来,深度学习已经使用在相关的领域中,比如语音增强和理想二值掩蔽估计[1, 9–11, 15]。   在理想二值掩蔽估计中,研究人员采用了两个阶段的深度学习框架。第一阶段,作者使用d个神经网络来分别预测输出维数,d即目标的特征维数。第二阶段,通过一个分类器(单层感知机或者SVM),来改善第一阶段的预测。但是这种网络有个缺陷,即如果FFT的采样点是1024个,那么数据的输出将是513维,这个神经网络将会很大,而且,相邻频率之间将会有很多的冗余。因此,本文采用了一个普通的框架,能够用一个神经网络来预测所有的特征维数。   另外研究员采用了深度卷积神经网络DCNN,来对音频信号进行去燥,但是这种模式是不适合这里的,因为这只能分离一个源信号,而我们需要分离出所有的源信号。而对于我们的方式,如果分离出多个信号,我们可以通过信号之间的不同信息来优化掩蔽和,进而得到更好的区分性训练。

  2. 本文的方法 3.1 深度循环神经网络DRNN   DRNN由两部分组成,DNN和RNN,这两种方式都汇集了各自的优势。RNN通过记忆和遗忘,能更好的捕获信号的上下文信息,从而得出信号的关联特征;而DNN可以通过分层来获取不同阶段,不同时间片段的信息。DRNN主要有图2三种模式:最左边的即单纯的RNN,中间为DRNN,但是只有一层有时序连接,右边的是每一层都有时序连接。 DRNN架构:其中灰色、黑色、白色分别是输出、隐藏层、输入层   我们的DRNN方案如下:对于一个L层的DRNN,在第l层是循环层,其中的时间激活函数如下: enter description here   它的输出定义如下: enter description here   其中Xt是时间t的输入,φl是变量的非线性函数,Wl是第l层的权重矩阵,Ul是第l层的循环连接权重矩阵,输出为线性层。   堆叠RNN有多层转换函数,定义如下: enter description here   其中:hl是时间t,第l层的隐藏状态,U和W是前一时刻t-1、前一层l-1的隐藏激活矩阵。当l=1时,ht = Xt。对于激活函数φ,我们发现实用如下函数f(x) = max(0, x) 2,要比sigmoid和tanh函数要好。对于DNN,时序权重矩阵U是zero矩阵。 3.2 模型结构   网络的输入为混合信号的幅度谱,通过网络将t时刻的特征进行汇聚,然后输出两个不同的源信号,通过两个不同源信号的各自前后对比,来更新网络。   我们的目标是分离出所有的源信号,而不是只得到一种信号,所以,我们使用了文献9的方法,模拟所有的源信号,具体的架构图如图 3。 图 3. 神经网络架构   损失函数:我们使用的是时频掩蔽,即二值时频掩蔽或者软时频掩蔽[7,9]。时频掩蔽函数能够强制约束预测信号的数据和等于原始信号。   时频掩蔽函数的定义如下: enter description here   其中y是分离的两个结果信号,f代表不同的频率   分别得到时频掩蔽的值,乘以混合信号就能够得到各自的源信号: enter description here   与以往的不同,我们这里的时频掩蔽函数不是作为训练结果的评估,而是作为模型的连接中介,即时频掩蔽函数也是一个层,计算公如下: enter description here   其中圆点为矩阵乘法,时域信号的重构使用ISTFT。 3.3 训练目标   我们使用了最小均方误差和常规KL散度来进行度量。公式如下: enter description here   对于一个混合信号,在每一帧上,都会只有一个源信号占多数,即信号干扰比,所以,使用上述函数,更能够使得预测信号近似于原始信号,同时区别于另外一个信号。 enter description here   其中λ是训练时的性能选择变量。

  3. 进行实验 4.1 实验设置   数据集使用的是MIR-1K dataset 6。数据来源于110个中国人的卡拉ok歌曲(分男女),采样率为16khz,时间4-13秒,声音的各种属性信息都进行过人工标注。其中只包含一个唱歌声音和一个背景音,我们的实验也是基于此。   采用[13,17]的评估框架,文中将数据集分为训练集和数据集,通过声道分别提取歌声和背景音乐,通过0信噪比合成混合信号用于分离。   实验结果的评估使用了信号干扰比SIR、信号构建比SAR、信号失真SDR比用于度量。标准SDR如下: enter description here   训练框架上,为了增加数据的多样性,我们每次混合信号时都会对声音信号进行变换   输入特征采用的是1024采样点的STFT,重叠率为50%,基于先前的经验,对数梅尔谱和对数功率谱效果会更差一下。 4.2 实验结果   主要从五个方面来对神经网络的效果进行对比:输入数据的大小、循环变换步数、输出格式、DRNN架构以及训练目标函数的选取   实验具体配置:3个隐藏层,每个1000个单元,采用均方误差度量,10000个循环转换步数,输入窗口为3帧,框架为DRNN-K,即第k个层循环层,评估标准为GNSDR. * 第一步:调整输入窗口大小,分别取1、3、5帧,比较结果如表 1。结果显示:1帧更好,之后的比较则以1帧为基础 * 第二步:循环转换步数:50k、25k、10k、0;通过对比,发现有循环步骤比没有循环步骤要好很多,但是,提高循环步数却并没有更大的提高,所以,设定步数为10k * 第三步:输出格式:单源、双源无掩蔽、双源有掩蔽;双源有掩蔽更好一些。 * 第四步:SRNN架构和评估函数:分别如表4。结果显示:在第2个隐藏层使用循环连接的DRNN效果最好(这里的架构可以更多样式) * 第五步:区分度训练。表5,区分度训练提高了GSIR,但是降低了GSAR,GNSDR有略微的提高。 最后:作者与传统的方式做了比较,相对于RNMF13,这种方式获得了2.302.48 dB GNSDR、4.325.42dB GSIR以及同样的GSAR。一个分离流程样例如图 4。 enter description here enter description here

  4. 总结展望   本文主要探索在单通道上的DRNN实现。特别是,比较了相对于传统的方式、单纯DNN的改进提高,采用连接优化和掩蔽函数来提高效果。最终模型的效果达到了很好地水平:2.302.48 dB GNSDR、4.325.42dB GSIR以及同样的GSAR。另外,模型还能使用在其他的应用场景,比如主旋律的提取。

  5. 相关关键词   低秩:一个m*n的矩阵,如果秩很低(秩r远小于m,n),则它可以拆成一个m*r矩阵和一个r*n矩阵之积(类似于SVD分解)。后面这两个矩阵所占用的存储空间比原来的m*n矩阵小得多。即不同的声源都可以由较少的几组基因来表示,找到这几组基因就行了,特有的特征。

  6. 参考文献 1 N. Boulanger-Lewandowski, G. Mysore, and M. Hoffman. Exploiting long-term temporal dependencies in NMF using recurrent neural networks with application to source separation. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014. 2 X. Glorot, A. Bordes, and Y. Bengio. Deep sparse rectifier neural networks. In JMLR W&CP: Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (AISTATS 2011), 2011. 3 M. Hermans and B. Schrauwen. Training and analysing deep recurrent neural networks. In Advances in Neural Information Processing Systems, pages 190–198, 2013. 4 G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury. Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29:82–97, Nov. 2012. 5 G. Hinton and R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504 – 507, 2006. 6 C.-L. Hsu and J.-S.R. Jang. On the improvement of singing voice separation for monaural recordings using the MIR-1K dataset. IEEE Transactions on Audio, Speech, and Language Processing, 18(2):310 –319, Feb. 2010. 7 P.-S. Huang, S. D. Chen, P. Smaragdis, and M. Hasegawa- Johnson. Singing-voice separation from monaural recordings using robust principal component analysis. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 57–60, 2012. 8 P.-S. Huang, X. He, J. Gao, L. Deng, A. Acero, and L. Heck. Learning deep structured semantic models for web search using clickthrough data. In ACM International Conference on Information and Knowledge Management (CIKM), 2013. 9 P.-S. Huang, M. Kim, M. Hasegawa-Johnson, and P. Smaragdis. Deep learning for monaural speech separation. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014. 10 A. L. Maas, Q. V Le, T. M O’Neil, O. Vinyals, P. Nguyen, and A. Y. Ng. Recurrent neural networks for noise reduction in robust ASR. In INTERSPEECH, 2012. 11 A. Narayanan and D.Wang. Ideal ratio mask estimation using deep neural networks for robust speech recognition. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing. IEEE, 2013. 12 R. Pascanu, C. Gulcehre, K. Cho, and Y. Bengio. How to construct deep recurrent neural networks. In International Conference on Learning Representations, 2014. 13 P. Sprechmann, A. Bronstein, and G. Sapiro. Real-time online singing voice separation from monaural recordings using robust low-rank modeling. In Proceedings of the 13th International Society for Music Information Retrieval Conference,

14 E. Vincent, R. Gribonval, and C. Fevotte. Performance measurement in blind audio source separation. Audio, Speech, and Language Processing, IEEE Transactions on, 14(4):1462 –1469, July 2006. [15] Y. Wang and D. Wang. Towards scaling up classificationbased speech separation. IEEE Transactions on Audio, Speech, and Language Processing, 21(7):1381–1390, 2013. [16] Y.-H. Yang. On sparse and low-rank matrix decomposition for singing voice separation. In ACM Multimedia, 2012. [17] Y.-H. Yang. Low-rank representation of both singing voice and music accompaniment via learned dictionaries. In Proceedings of the 14th International Society for Music Information Retrieval Conference, November 4-8 2013.

猜你喜欢

转载自blog.csdn.net/qq_36810544/article/details/81325531