DNN 语音相关模型

DNN

1 A practical guide to training restricted Boltzmann machines

介绍RBM以及训练RBM时的N多trick,如果要实现RBM算法，这篇文章必看

2 A fast learning algorithm for deep belief nets

Hinton的经典之作，Deep Learning的开山之作，算是Deep Learning爆发的起点

3 A Learning Algorithm for Boltzmann Machines

85年较老的介绍如何Boltzmann训练算法

4 Greedy Layer-Wise Training of Deep Networks

可以看作Yoshua Bengio对06年Hinton工作的延续和总结，与06年的文章很具有互补性，是入门Deep Learning的必备文章

文章中也介绍了一些trick,如如何处理第一层节点为实值的情况等等

5 Large Scale Distributed Deep Networks

google的Jeffrey Dean小组工作，DistBelief框架的提出，主要介绍了google如何采用分布式以及模型切分处理深度网络，加速其训练效果。

6 Context Dependent Pretrained Deep Neural Networks fo Large Vocabulary Speech Recognition

微软在语音上的成功应用，语音识别系统相对错误率降了20%多，算是Deep Learning在工业界第一个成功案例，其影响轰动一时。

7 Deep Belief Networks for phone recognition

Hinton小组将DNN用于语音上的早期工作，是微软工作的基础

8 Application Of Pretrained Deep Neural Networks To Large Vocabulary Speech Recognition

DNN在大词汇量会话语音识别工作，里面有一些Voice Search和Youtube上的实验报道

9 An Empirical Study of Learning Rates in Deep Neural Networks for Speech Recognition

google的DNN-HMM语音识别系统上学习率的一些调参经验

10 Acoustic Modeling using Deep Belief Networks

Hinton小组早期在语音上的工作，主要是介绍如何将DNN运用于声学模型训练

11 Deep Neural Networks for Acoustic Modeling in Speech Recognition

微软、google、IBM等几家工业界巨头对DNN在语音识别上的一些共同观点

12 Deep Belief Networks Using Discriminative Features for Phone Recognition

Hinton小组和IBM的对于采用一些区分性特征训练DNN网络的工作，采用LDA降维到40维

13 A Comparison of Deep Neural Network Training Methods for Large Vocabulary Speech Recognition

DNN实验方面的对比，比如采用不同的预训练方式：区分性预训练和DBN生成式预训练方式对比，以及神经元非线性的改变

14 Asynchronous Stochastic Gradient Desent for DNN Training

中科院的文章，异步式的GPU并行训练，思想基本跟DistBelief差不多，只不过硬件换成了GPU，模型没有做切分

15 Improving Deep Neural Networks For LVCSR using Rectified Linear Units and Dropout

利用ReLU和Dropout技术提升DNN-HMM系统

16 Improving the speed of neural networks on CPUs

google加速神经网络前向传播速度的工作，如利用定点计算、SIMD技术等

17 Improved Bottleneck Features Using Pretrained Deep Neural Networks

微软DNN-HMM系统的相关工作

18 Improved feature processing for Deep Neural Networks

利用特征处理技术提升DNN-HMM系统，具体的是对13维MFCC特征拼接9帧，进行LDA-MLLT变换，最后

也可加入SAT模块得到处理过的40维特征，作为DNN-HMM系统

19 Improving neural networks by preventing co-adaptation of feature detectors

主要讲了Dropout技术和其实验比较结果分析，把Dropout看做模型平均化结果

20 Exploiting Sparseness in Deep Neural Networks fo Large Vocabulary Speech Recognition

采用soft regularization和convex constraint的手段使DNN模型更加的稀疏化，稀疏化的目的是

减小模型复杂度，提升计算速度和模型的泛化能力

21 Feature Learning in Deep Neural Networks Studies on Speech Recognition Tasks

主要从Feature Learning的角度讨论DNN网络，讨论了为何DNN网络deeper更佳，为什么DNN能学出更鲁邦的特征等等。

22 Improving Neural Networks with Dropout

Hinton学生Nitish Srivastava的硕士论文，主要讨论了Droput技术在神经网络的作用。

23 Learning Features from Music Audio with Deep Belief Networks

DNN深度网络在音乐分类的应用，特征为MFCC，类别为hiphop、blues等曲风类型

24 Low-Rank Matrix Factorization for Deep Neural Network Training with High-Dimensional Output Targets

IBM方面的工作，利用低秩矩阵分解的技术解决DNN分类层权重参数过多的问题

25 Multilingual Training of Deep Neural Networks

DNN多语言方面的应用，调优的时候只调分类层参数即可

26 A Cluster-Based Multiple Deep Neural Networks Method for Large Vocabulay Continuous Speech Recognition

利用类别信息分数据训练，然后将所有数据训练出的小模型信息整合进了贝叶斯框架，加速了整个训练过程，但精度会损失，解码

也会变慢

27 Restructuring of Deep Neural Network Acoustic Models with Singular Value

提出采用SVD技术对权重矩阵进行压缩，减少模型的复杂度

28 Sparse Feature Learning for Deep Belief Networks

Marc’Aurelio Ranzato提出的一种unsupervised feature learning的方式，这种训练的优势在于低维特性和稀疏特性，

文中对比了RBM和PCA方法。

29 Training products of experts by minimizing contrastive

Hinton提出的PoE模型，文中讨论了如何训练PoE模型，RBM模型也是一种特殊的PoE模型，RBM的训练也是从此演化而来，如果

要理解CD算法原理，这篇文章必读。

30 Understanding How Deep Belief Networks Perform Acoustic Modelling

文中主要讨论了DBN模型为什么在声学模型训练会取得较好系统性能的几个方面，但是没有理论上的支持.

31 Pipelined Back-Propagation for Context-Dependent Deep Neural Networks

采用多GPU技术pipelined方式并行训练网络，文中还提到了一些并行措施，如数据并行化、模型并行化

32 Recent Advances in Deep Learning for Speech Research at Microsoft

文章主要介绍了微软在Deep Learning方面工作的进展，如回归原始特征，多任务特征学习、DNN模型的自适应等等

32 Rectified Linear Units Improve Restricted Boltzmann Machines

介绍ReLU技术在RBM模型上的运用，即非线性层的替换。

33 Reducing the Dimensionality of Data with Neural Networks

Hinton发表在science上的文章，主要介绍了如何利用神经网络进行非线性降维，文中对比了PCA线性降维技术

34 Data Normalization in the Learning of Restricted Boltzmann Machines

RBM训练方面数据处理的小trick,对数据进行零均值化处理使RBM训练更鲁邦。

35 Connectionist Probability Estimators in HMM Speech Recognition

早期神经网络运用于声学模型训练的方法，其实也是现在DNN-HMM工作的基础

36 Deep Learning for Robust Feature Generation in Audio-Visual Emotion Recognition

Deep Learning在视听系统情感分析的运用，文中提出了多种视觉信号与听觉信号混合训练模型

37 Improving Training Time of Deep Belief Networks Through Hybrid Pre-Training And Larger Batch Sizes

采用混合式的预训练方式，即生成式预训练和区分式预训练相结合方式，文中还认为加大minbatch的尺寸可以增加数据并行化粒度

38 Training Restricted Boltzmann Machines using Approximations to the Likelihood Gradient

提出训练RBM的新算法PCD，与CD算法不同的是全程只有一条马尔科夫链，参数更新时不用重启一条新的马尔科夫链，当然这么做的一个

假设前提是参数更新时，模型的改变不是很大，文中也提到了采用小的学习率。

39 Classification using Discriminative Restricted Boltzmann Machines

区分性DRBM的提出，相比于生成式模型RBM优化的是p(x,y)函数，区分性DRBM优化的是p(y|x)函数，而这里的y是标签，文中还提出了混合版本。

40 Learning Multiple Layers of Features from Tiny Images

Hinton学生Alex Krizhevsky的硕士论文，主要是DNN工作的一些串联

41 Making Deep Belief Networks Effective for Large Vocabulary Continuous Speech Recognition

讨论如何有效训练DNN，侧重于如何并行训练方面

42 Optimization Techniques to Improve Training Speed of Deep Neural Networks for Large Speech Tasks

IBM的Tara N. Sainath小组DNN工作上的一些技巧总结，侧重于如何提升并行化力度技巧和减少模型参数，IBM主要利用对分类层做低秩矩阵分解。

而CNN虽然是DNN的演化版本，参数量相对较小，但是目前语音识别中最好的CNN效果跟参数量相近的DNN效果差不多。

43 Parallel Training of Neural Networks for Speech Recognition

神经网络并行化训练方面的工作，文中的工作主要分为两部分：多线程多核的并行化和基于SIMD的GPU并行化。

44 Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices

google在移动端语音识别实践性的工作，特别是DNN和LM的优化，DNN的优化方面主要包括定点计算、SIMD加速、Batch lazy计算和frame skipping技术

语言模型方面也做一定的压缩技巧。参考价值较大的实战性文章。

45 Cross-Language Knowledge Transfer Using Multilingual Deep Neural Network with Shared Hidden Layers

DNN多语言的训练，所有语言共享相同隐层特征，而分类层面向不同语言，这种训练降低了3-5%左右，原因有点类似于transfer learning,

不同语言之间的知识是可以transfer借鉴的。

46 Improving Wideband Speech Recognition using Mixed-Bandwidth Training Data in CD-DNN-HMM

利用8-kHz和16-kHz做不同的频带的CD-DNN-HMM混合训练，其中比较重要的是如何设计不同频带的filter-bank对准问题，

文中还有一些关于filter-bank的训练技巧，如是否采用动态特征和静态特征训练。

47 Robust Visual Recognition Using Multilayer Generative Neural Networks

Hinton学生Yichuan Tang的硕士论文，DNN视觉识别方面工作的串联

48 Deep Boltzmann Machines

DBM模型开篇文章。

49 On Rectified Linear Units for Speech Processing

ReLU在语音识别上的性能分析

猜你喜欢