Keras深度学习实战(41)——语音识别

0.前言

语音识别(Automatic Speech Recognition, ASR,或称语音转录文本)使声音变得"可读",让计算机能够"听懂"人类的语言并做出相应的操作,是人工智能实现人机交互的关键技术之一。在《图像字幕生成》一节中,我们已经学习了如何将手写文本图像转录为文本,在本节中,我们将利用类似的端到端模型实现将语音转录文本模型,将语音文件转录为文字。

1. 模型与数据集分析

1.1 数据集分析

为了构建语音转录文本模型,我们所使用的数据集中包含了大约

猜你喜欢

转载自blog.csdn.net/LOVEmy134611/article/details/126774881