端到端语音识别（四） raw wavform - 代码天地

端到端语音识别（四） raw wavform

其他 2018-05-30 16:57:34 阅读次数: 0

现在的端到端语音识别的第一个“端”大部分还是使用人为设定的语音特征，比如FBANK/PLP，更高级的端到端语音识别输入是语音波形，输出是文字。
近几年也有一些工作是使用神经网络（比如CNN）来学习传统的特征提取步骤，取得了跟使用传统的语音特征相当的结果，当前这部分工作绝大多数还是基于传统的HMM框架来做，还没有跟CTC或者encoder-decoder相结合。

CNN

Google[1]分析了CNN跟mel-scale filterbank之间的关系，convolution layer相当于学习一组FIR滤波器，学习到的这组filter对应的中心频率曲线跟mel-fb类似。

CLDNN

Google[2]使用一层CNN来抽取特征，声学模型使用CLDNN，在2000h数据集上取得了跟log-mel filterbank特征相当的效果。
这里写图片描述
第一层称为time-convolutional layer，用来学习滤波器参数。
- 每次输入M个采样点，帧移10ms
- 使用P个filter，对应于最后的P个频率输出
- max pooling，移除语音的short term phase信息

后面使用CLDNN的网络结构，这里面的convolutional layer称为fConv layer，相当于与频域信号做卷积，减少spectral variations。

CNN+TDNN

[3]提出了CNN+TDNN的网络结构，相比于[2]来讲，抽取特征使用NIN的非线性变换来替换pooling，获得了更快的收敛速度。

Reference

[1].SPEECH ACOUSTIC MODELING FROM RAW MULTICHANNEL WAVEFORMS
[2].Learning the Speech Front-end With RawWaveform CLDNNs
[3].Acoustic modelling from the signal domain using CNNs

猜你喜欢

转载自blog.csdn.net/xmdxcsj/article/details/70301180

端到端语音识别（四） raw wavform

端到端语音识别（二） ctc

端到端语音识别（一）概况

Deep Speech：端到端的语音识别

端到端语音识别时代

相机从RAW格式到相片生成过程

[语音识别] 10 端到端语音识别

端到端语音识别（三） Sequence to Sequence and Attention

关于端到端语音识别的笔记

C++新特性探究(四)：Raw String Literals

LwIP学习笔记——RAW编程接口TCP客户端实验

端到端流式语音识别研究综述——语音识别（论文研读）

raw asset

raw socket

ipmitool raw

什么是RAW

RAW数据

laravel DB::raw() DB::RAW()的用法

Raw与ProRes Raw（二、深入挖掘）

论文解读：对端到端语音识别网络的两种全新探索

利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

顺丰科技基于WeNet端到端语音识别方案落地

【论文阅读】Paraformer工业级非自回归端到端语音识别模型

读取raw文件，并将像素值写入到csv文件中

TACOTRON:端到端的语音合成

raw和assets的区别

Android的 assets和raw

Image & Raw Image的区别

reifiable type与raw type

python raw socket 介绍

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)