语音识别的技术 - 代码天地

语音识别的技术

其他 2018-09-23 05:07:15 阅读次数: 0

首先要进行端点检测(VAD)，然后对声音进行分析。需要对声音分帧，也就是把声音切成一小段一小段的，每一小段称为一帧,分帧时要使用移动窗函数来实现，帧与帧之间一般是有交叠，如下图所示，每帧长度是25毫秒，每两帧之间有25-10=15毫秒的交叠，称为以帧长25ms，帧移10ms的分帧。

分帧后，语音就变成了许多小段，在波形的时域上没有任何描述能力，因此必须将波形做变换。常见的一种变换就是提取MFCC特征。根据人耳的生理特性，把一帧波形变成一个多维向量，可以简单的理解为这个向量包含了这帧语音的内容信息。这叫做声学特征提取。

至此，声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中每一帧都用一个12维的向量表示，色块的颜色标识向量值的大小。

扫描二维码关注公众号，回复： 3300678 查看本文章

转自：https://www.zhihu.com/question/20398418

猜你喜欢

转载自blog.csdn.net/baidu_31437863/article/details/82682305

语音识别的技术

语音识别的技术原理

语音识别的技术原理是什么？

语音识别的难点

语音识别的流程

语音识别的资料

人工智能 - 语音识别的技术原理是什么

基于语音识别的自然语言生成技术

在线语音识别的软件

语音识别的深度学习

关于《语音识别的技术原理是什么？》的一些回答

「深入浅出」了解语音识别的技术原理和应用价值？

揭开 MFCC 的魔力：语音识别的一项关键技术

用语音合成技术构建智能交通系统：基于语音识别的智能交通系统实现

情感语音识别的入门解析

语音识别的发展过程

华为HiAI语音识别的集成与使用

语音识别技术

语音识别技术概览

语音情感识别技术

语音识别技术自学笔记

语音识别技术的前世今生

【IOT】语音识别技术原理

百度语音识别的要求-18/04/01

Android 轻松实现语音识别的完整代码 (转)

关于端到端语音识别的笔记

语音识别的基础知识与CMUsphinx介绍

一个Nuance 的语音识别的例子

语音识别的发展趋势及主要模型

使用讯飞语音识别的空指针错误

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)