神经网络-CNN结构和语音识别应用 - 代码天地

神经网络-CNN结构和语音识别应用

编程语言 2019-04-20 17:10:52 阅读次数: 0

一、基本结构

入门介绍：https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/
参考deep learning. Ian Goodfellow的chapter9
cross-correlation: S(i,j)=(I∗K)(i,j)=∑ M ∑ N I(i+m,j+n)K(m,n)

（二）ctc-cnn

Zhang, Y., Pezeshki, M., Brakel, P., Zhang, S., Laurent, C., Bengio, Y., Courville, A. (2016) Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks. Proc. Interspeech 2016, 410-414.

性能和LSTM差不多，在同样参数量的情况下加速2.5X
将之前的LSTM网络结构替换为CNN，然后跟着全连接层，顶层使用CTC准则进行训练
这里写图片描述

W. Song and J. Cai, “End-to-End Deep Neural Network for Automatic Speech Recognition,” Technical Report. 2015 stanford

CNNs are exceptionally good at capturing high level features in spatial domain and have demonstrated unparalleled success in computer vision related tasks. One natural advantage of using CNN is that it’s invariant against translations of the variations in frequencies, which are common observed across speaker with different pitch due to their age or gender.
这里写图片描述
对数据帧使用时间窗获得一个单通道的图像，使用5X3的filter，考虑到频率维度的长度大于时间维度的长度。
首先使用CNN+softmax训练一个帧的分类器，然后固定CNN的参数，使用DNN+RNN+CTC替换softmax进行CTC训练，使用CNN预训练比直接训练CTC效果要好一些。

猜你喜欢

转载自blog.csdn.net/qq_44944990/article/details/89420033

神经网络-CNN结构和语音识别应用

卷积神经网络（CNN）在语音识别中的应用

R语言神经网络在语音识别中的应用

cnn 卷积神经网络人脸识别

深度神经网络——中文语音识别

4.2 高级神经网络结构-CNN 卷积神经网络（mnist手写体识别）

卷积神经网络(CNN)模型结构

CNN卷积神经网络层次结构

深度学习之卷积神经网络(CNN)的应用-验证码的生成与识别

Keras深度学习应用1——基于卷积神经网络(CNN)的人脸识别（下）

Keras深度学习应用1——基于卷积神经网络(CNN)的人脸识别（上）

卷积神经网络（CNN）在图像识别中的应用与优化

神经网络语言模型在语音识别的应用论文整理

神经网络 CNN

语音识别卷积神经网络,卷积神经网络识别原理

使用tensorflow和cnn（卷积神经网络）识别验证码并构建API

Python实战 | 使用 Python 和 TensorFlow 构建卷积神经网络（CNN）进行人脸识别

基于MFCC特征提取和神经网络的语音信号识别算法matlab仿真

使用CNN神经网络进行图片识别分类

用CNN卷积神经网络进行人脸识别

使用卷积神经网络（CNN）做人脸识别

卷积神经网络CNN识别MNIST数据集

基于CNN卷积神经网络的人脸识别

基于Python实现的CNN卷积神经网络训练与识别

猫狗图片识别（卷积神经网络（CNN）详解）

基于卷积神经网络(CNN)的猫狗识别

超低功耗神经网络MCU如何实现图像识别、语音识别等AI应用？

语音识别学习记录 [TDNN时延神经网络]

ASR-深度卷积神经网络之语音识别

基于DBN神经网络的语音分类识别

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)