前馈神经网络
参考:http://www.julyedu.com/video/play/104/917
如何训练神经网络
神经网络是一个带参数(w,b)的函数
设计损失函数
梯度下降
反向传播
1.Tandem 结构
DNN的输入:
连续若干帧的滤波器组输出
甚至直接输入波形
DNN的输出:
上下文有关音素的分布(多判别问题)
标准答案有GMM+HMM系统提供
2.Hybrid结构
不在进行特征提取
输入为滤波器组的输出或波形
DNN+HMM声学模型
原先,GMM提供P(特征|状态)
现在,DNN提供P(状态|输入)
需要贝叶斯公式转换一下
系统架构中无GMM
但是训练DNN是需要GMM+HMM系统提供标准答案
循环神经网络
HMM对上下文的建模能力有限
源于马尔科夫性(HMM对音素的持续时间进行建模,服从指数分布,与现实不符合)
补救(马尔科夫性使得模型只能看到前面一帧,视野有限)
MFCC特征中的差分
DNN声学模型输入连续多帧滤波器组输出
上下文有关的音素模型
循环神经网络处理时间序列(不同于递归神经网络)
信息只能沿着时间轴单向流动
双向循环网络
因为要输入完整的语音,适合离线处理,不适合在线处理
梯度消失或者爆炸问题
导致RNN记忆力有限
解决:LSTM/GRU
RNN在语音识别中的应用:
代替DNN用于特征提取或者声学模型
保留HMM的原因
神经网络只进行逐帧判别
训练时,需要由HMM系统提供各音素的起止时间
解码时,需要考虑状态转移概率
1.CTC(不用HMM)
不再逐帧施加监督
只要求各帧输出连成标准答案音素串
对齐方式由网络自行处理
有些帧输出‘空’,空代表静音以及分割相邻的重复音素
2.Transducer
3.注意力机制
4.优缺点比较
语音识别现状与未来
1.现状
噪音
信道特性(如手机)
远场
口音
2.未来
有针对性的应对恶劣条件
除燥、语音增强
麦克风阵列(针对远场)
收集有口音数据
相关领域的配合
对话系统中对于打断的处理
真实环境中信息利用(660 First Street vs 6 61st Street)
说话人中英文混合(具有研究价值)