《解析深度学习 语音识别实践》高清中文版PDF下载

《解析深度学习 语音识别实践》高清中文版PDF下载
《解析深度学习 语音识别实践》高清中文版PDF下载
高清中文版PDF,全书321页带目录

下载链接:https://pan.baidu.com/s/1Ly4sdpNpcU_AwnwEVdBKLA
备用链接:https://u1593575.ctfile.com/fs/1593575-330744495

《解析深度学习 语音识别实践》高清中文版PDF下载
本书首次专门讲述了如何将深度学习方法,特别是深度神经网络(DNN)技术应用于语音识别(ASR)领域。在过去的几年中,深度神经网络技术在语音识别领域的应用取得了前所未有的成功。这使得本书成为在深度神经网络技术的发展历程中一个重要的里程碑。作者继其前一本书Deep Learning: Methods and Applications 之后,在语音识别技术和应用上进行了更深入钻研,得成此作。与上一本书不同,该作并没有对深度学习的各个应用领域都进行探讨,而是将重点放在了语音识别技术及其应用上,并就此进行了更深入、更专一的讨论。难能可贵的是,这本书提供了许多语音识别技术背景知识,以及深度神经网络的技术细节,比如严谨的数学描述和软件实现也都包含其中。这些对语音识别领域的专家和有一定基础的读者来说都将是极其珍贵的资料。
本书的独特之处还在于,它并没有局限于目前常应用于语音识别技术的深度神经网络上,还兼顾包含了深度学习中的生成模型,这种模型可以很自然地嵌入先验的领域知识和问题约束。作者在背景材料中充分证实了自20 世纪90 年代早期起,语音识别领域研究者提出的深度动态生成模型(dynamic generative models)的丰富性,同时又将其与最近快速发展的深度鉴别性模型在统一的框架下进行了比较。书中以循环神经网络和隐动态模型为例,对这两种截然不同的深度模型进行了全方位有见地的优劣比较。这为语音识别中的深度学习发展和其他信号及信息处理领域开启了一个新的激动人心的方向。该书还满怀历史情怀地对四代语音识别技术进行了分析。当然,以深度学习为主要内容的第四代技术是本书所详细阐述的,特别是DNN 和深度生成模型的无缝结,将使得知识扩展可以在一种最自然的方式下完成。
总的来说,该书可能成为语音识别领域工作者在第四代语音识别技术时代的重要参考书。全书不但巧妙地涵盖了一些基本概念,使你能够理解语音识别全貌,还对近两年兴盛起来的强大的深度学习方法进行了深入的细节介绍。读完本书,你将可以看清前沿的语音识别是如何构建在深度神经网络技术上的,可以满怀自信地去搭建识别能力达到甚至超越人类的语音识别系统。
Sadaoki Furui
芝加哥丰田技术研究所所长,东京理工学院教授

译者序 iv
序 vii
前言 ix
术语缩写 xxii
符号 xxvii
第 1 章 简介 1
1.1 自动语音识别:更好的沟通之桥 . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 人类之间的交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 人机交流 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 语音识别系统的基本结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 全书结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 第一部分:传统声学模型 . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 第二部分:深度神经网络 . . . . . . . . . . . . . . . . . . . . . . 6
1.3.3 第三部分:语音识别中的 DNN-HMM 混合系统 . . . . . . . . . . 7
1.3.4 第四部分:深度神经网络中的表征学习 . . . . . . . . . . . . . . 7
1.3.5 第五部分:高级的深度模型 . . . . . . . . . . . . . . . . . . . . . 7
第一部分 传统声学模型 9
第 2 章 混合高斯模型 11
2.1 随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 高斯分布和混合高斯随机变量 . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 参数估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 采用混合高斯分布对语音特征建模 . . . . . . . . . . . . . . . . . . . . . 16
第 3 章 隐马尔可夫模型及其变体 19
3.1 介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 马尔可夫链 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 序列与模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.1 隐马尔可夫模型的性质 . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.2 隐马尔可夫模型的仿真 . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.3 隐马尔可夫模型似然度的计算 . . . . . . . . . . . . . . . . . . . . 24
3.3.4 计算似然度的高效算法 . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.5 前向与后向递归式的证明 . . . . . . . . . . . . . . . . . . . . . . 27
3.4 期望最大化算法及其在学习 HMM 参数中的应用 . . . . . . . . . . . . . 28
3.4.1 期望最大化算法介绍 . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4.2 使用 EM 算法来学习 HMM 参数——Baum-Welch 算法 . . . . . . 30
3.5 用于解码 HMM 状态序列的维特比算法 . . . . . . . . . . . . . . . . . . . 34
3.5.1 动态规划和维特比算法 . . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.2 用于解码 HMM 状态的动态规划算法 . . . . . . . . . . . . . . . . 35
3.6 隐马尔可夫模型和生成语音识别模型的变体 . . . . . . . . . . . . . . . . 37
3.6.1 用于语音识别的 GMM-HMM 模型 . . . . . . . . . . . . . . . . . 38
3.6.2 基于轨迹和隐藏动态模型的语音建模和识别 . . . . . . . . . . . . 39
3.6.3 使用生成模型 HMM 及其变体解决语音识别问题 . . . . . . . . . 40
第二部分 深度神经网络 43
第 4 章 深度神经网络 45
4.1 深度神经网络框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 使用误差反向传播来进行参数训练 . . . . . . . . . . . . . . . . . . . . . 48
4.2.1 训练准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.2 训练算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3 实际应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.1 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.2 模型初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.3 权重衰减 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.4 丢弃法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.5 批量块大小的选择 . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.6 取样随机化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3.7 惯性系数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.8 学习率和停止准则 . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.9 网络结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.10 可复现性与可重启性 . . . . . . . . . . . . . . . . . . . . . . . . . 62
第 5 章 高级模型初始化技术 65
5.1 受限玻尔兹曼机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.1.1 受限玻尔兹曼机的属性 . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.2 受限玻尔兹曼机参数学习 . . . . . . . . . . . . . . . . . . . . . . 70
5.2 深度置信网络预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 降噪自动编码器预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 鉴别性预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.5 混合预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.6 采用丢弃法的预训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
第三部分 语音识别中的深度神经网络–隐马尔可夫混合模型 81
第 6 章 深度神经网络–隐马尔可夫模型混合系统 83
6

猜你喜欢

转载自blog.51cto.com/14166705/2342054