语音识别（四） - 代码天地

语音识别（四）

其他 2019-03-01 13:29:50 阅读次数: 0

前馈神经网络

参考：http://www.julyedu.com/video/play/104/917

如何训练神经网络

神经网络是一个带参数（w,b）的函数

设计损失函数

梯度下降

反向传播

1.Tandem 结构

DNN的输入：

连续若干帧的滤波器组输出

甚至直接输入波形

DNN的输出：

上下文有关音素的分布（多判别问题）

标准答案有GMM+HMM系统提供

2.Hybrid结构

不在进行特征提取

输入为滤波器组的输出或波形

DNN+HMM声学模型

原先，GMM提供P(特征|状态)

现在，DNN提供P（状态|输入）

需要贝叶斯公式转换一下

系统架构中无GMM

但是训练DNN是需要GMM+HMM系统提供标准答案

循环神经网络

HMM对上下文的建模能力有限

源于马尔科夫性（HMM对音素的持续时间进行建模，服从指数分布，与现实不符合）

补救（马尔科夫性使得模型只能看到前面一帧，视野有限）

MFCC特征中的差分

DNN声学模型输入连续多帧滤波器组输出

上下文有关的音素模型

循环神经网络处理时间序列（不同于递归神经网络）

信息只能沿着时间轴单向流动

双向循环网络

因为要输入完整的语音，适合离线处理，不适合在线处理

梯度消失或者爆炸问题

导致RNN记忆力有限

解决：LSTM/GRU

RNN在语音识别中的应用：

代替DNN用于特征提取或者声学模型

保留HMM的原因

神经网络只进行逐帧判别

训练时，需要由HMM系统提供各音素的起止时间

解码时，需要考虑状态转移概率

1.CTC（不用HMM）

不再逐帧施加监督

只要求各帧输出连成标准答案音素串

对齐方式由网络自行处理

有些帧输出‘空’，空代表静音以及分割相邻的重复音素

2.Transducer

3.注意力机制

4.优缺点比较

语音识别现状与未来

1.现状

噪音

信道特性（如手机）

远场

口音

2.未来

有针对性的应对恶劣条件

除燥、语音增强

麦克风阵列（针对远场）

收集有口音数据

相关领域的配合

对话系统中对于打断的处理

真实环境中信息利用（660 First Street vs 6 61st Street）

说话人中英文混合（具有研究价值）

猜你喜欢

转载自blog.csdn.net/wangzhanxidian/article/details/84729263

语音识别（四）

语音识别（四）：音频合成

语音识别算法原理文档整理（四）

语音识别（四）——DTW, Spectrogram, Cepstrum Analysis

源码分享四语音识别，根据语音，执行对应操作

Python终究教程！语音识别！大四学生实现语音识别技能！吊的不行

Python终级教程！语音识别！大四学生实现语音识别技能！吊的不行

语音识别系列︱利用达摩院ModelScope进行语音识别+标点修复（四）

语音识别

语音识别与语音合成

语音识别语音合成

端到端语音识别（四） raw wavform

基于深度学习的语音识别研究-CTC理论推导（四）

语音识别之HTK入门（四）训练模型

手把手教你语音识别（四）

语音合成和语音识别

语音合成以及语音识别

语音识别一、语音识别介绍

[语音识别] 01 语音识别概述

【语音识别】基于keras的简易语音识别

语音识别（五）：声音识别

情感语音识别---识别网络

论文笔记：语音情感识别（四）语音特征之声谱图，log梅尔谱，MFCC，deltas

语音识别之CTC，RNA，RNN-T，Neural Transducer，MoChA模型详解——语音信号处理学习（四）

语音识别 - 损失函数

中文语音识别

语音识别技术

语音识别研究现状

android 语音识别

语音识别-TDNN

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)