语音信号处理-基本概念（一）：音频长度（s）、采样率（Hz；如16000）、帧长（25ms）、帧数、帧移（12.5ms）、hop_size（每帧移动的样本点数=16000*12.5/1000=200）

企业开发 2023-04-08 17:46:27 阅读次数: 0

需要明白一点，mel帧数 * 帧移 = 音频长度（采样点个数，可换算为音频时长，具体怎么做不用说了吧）

因此，对于22050采样率， hopsize大小设置为256，那么对应的mel-spectrogram需要上采样 256倍

如果是16000采样率呢？使用帧长是50ms,帧移 12.5ms 那么hop_size就是200（16000*12.5/1000=200）啦，所以上采样倍数就是200倍啦.

一、采样率（采样频率）：每秒内进行采样的次数

每秒内进行采样的次数。符号是 fS，单位是 Hz。采样率越高，数字波形的形状就越接近原始模拟波形，声音的还原就越真实。

根据奈奎斯特·香农采样定理（Nyquist–Shannon sampling theorem），只有采样频率高于原始模拟信号中最高频率两倍，才能完美还原原信号。常用的采样率如下图所示

在这里插入图片描述

二、帧长

三、帧移

四、hop_size

五、nb_samples

nb_samples表示一帧音频数据中采样的数量（次数），nb_sample

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/126594126

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)