语音识别(四)

前馈神经网络

参考:http://www.julyedu.com/video/play/104/917

如何训练神经网络

    神经网络是一个带参数(w,b)的函数

    设计损失函数 

    梯度下降

    反向传播

1.Tandem 结构

DNN的输入:

     连续若干帧的滤波器组输出

     甚至直接输入波形

DNN的输出:

      上下文有关音素的分布(多判别问题)

      标准答案有GMM+HMM系统提供

2.Hybrid结构

不在进行特征提取

     输入为滤波器组的输出或波形

DNN+HMM声学模型

     原先,GMM提供P(特征|状态)

     现在,DNN提供P(状态|输入)

            需要贝叶斯公式转换一下

系统架构中无GMM

      但是训练DNN是需要GMM+HMM系统提供标准答案

循环神经网络

HMM对上下文的建模能力有限

      源于马尔科夫性(HMM对音素的持续时间进行建模,服从指数分布,与现实不符合) 

补救(马尔科夫性使得模型只能看到前面一帧,视野有限)

      MFCC特征中的差分

      DNN声学模型输入连续多帧滤波器组输出

      上下文有关的音素模型

循环神经网络处理时间序列(不同于递归神经网络)

         信息只能沿着时间轴单向流动

双向循环网络

      因为要输入完整的语音,适合离线处理,不适合在线处理

梯度消失或者爆炸问题

      导致RNN记忆力有限

      解决:LSTM/GRU

RNN在语音识别中的应用:

      代替DNN用于特征提取或者声学模型

保留HMM的原因

     神经网络只进行逐帧判别

     训练时,需要由HMM系统提供各音素的起止时间

     解码时,需要考虑状态转移概率

 1.CTC(不用HMM) 

      不再逐帧施加监督

      只要求各帧输出连成标准答案音素串

      对齐方式由网络自行处理

有些帧输出‘空’,空代表静音以及分割相邻的重复音素

2.Transducer

3.注意力机制

4.优缺点比较

 

 

语音识别现状与未来

1.现状

     噪音

    信道特性(如手机)

    远场

    口音

2.未来

有针对性的应对恶劣条件

    除燥、语音增强

    麦克风阵列(针对远场)

    收集有口音数据

相关领域的配合

    对话系统中对于打断的处理

   真实环境中信息利用(660 First Street vs 6 61st Street)

   说话人中英文混合(具有研究价值)

    

      

猜你喜欢

转载自blog.csdn.net/wangzhanxidian/article/details/84729263