wav2vec 2.0：一种自监督的语音识别方法 - 代码天地

wav2vec 2.0：一种自监督的语音识别方法

企业开发 2023-09-11 23:57:10 阅读次数: 0

总体框架：

在这里插入图片描述
主要分为2个大模块：1:语音特征提取模块 2:语音特征向量融合模块

1:特征提取模块

输入：音频
输出：音频特征向量
在这里插入图片描述
过程：
1）跟具体采样率有关，如果一段1S的音频，采样率是16K，则这段1S的音频可以用1*16000的矩阵表示。
2）此模块的结构：

文章使用了7层的CNN，步长为(5,2,2,2,2,2,2)，卷积核宽度为(10,3,3,3,3,2,2)，假设输入语音的长度为(1,x)：
    cnn0 (x-10)/5+1=x/5-1
    cnn1 ((x/5-1)-3)/2+1=x/10-1
    cnn2 x/20-1
    cnn3 x/40-1
    cnn4 x/80-1
    cnn5 x/160
    cnn6 x/320
论文中的channels大小设置的为512，如果采样率是16K，对应的输出为:(512,16000/320)=(512,50)，可以得到50个512维的向量，相当于每20ms产生一个512维的特征向量。

2:语音特征向量融合模块

2.1）向量量化（Vector Quantization，VQ），将将由第一步得到的连续的语音特征Z转为离散特征Q；

保留一段语音中相应最大值的索引，其他置0。既将原来连续特征变为one-hot特征。
实现上述过程，有两种算法：
（a）gumbel softmax
（b）k-means clustering
结构：

2.2）将由第一步得到的语音特征做随机掩码，然后经过transformer模型得到上下文表征C；
过程：
使用conv1替代原来的positional embedding；
Transfoemer
结构：

2.3）对Q与C，通过对此学习损失L，Contrastive Loss，拉近对应Q与C的距离，达到自监督学习目的。

自监督模块的loss,计算one-hot量化后的音频特征与加mask之后获取的上下文特征之间的相似度。

猜你喜欢

转载自blog.csdn.net/jiafeier_555/article/details/129128610

wav2vec 2.0：一种自监督的语音识别方法

Wav2Vec & HuBert 自监督语音识别模型

【语音算法】wav2vec系列原理和使用

（IS 19）wav2vec: Unsupervised Pre-training for Speech Recognition

论文阅读_音频表示_wav2vec_2.0

wav2vec2.0: A Framework for Self-Supervised Learning of Speech Representations

HTTP2指纹识别（一种相对不为人知的网络指纹识别方法）

Mol2vec | 一种无监督机器学习方法的分子亚结构向量表示

wav2letter++全卷积语音识别框架

一种基于词性序列的人名识别方法

论文翻译-语音合成：Char2Wav

Facebook开源最先进的语音系统wav2letter++

Word2vec训练方法

word2vec方法代码学习

word2vec的原理（一）

Word2Vec词向量（一）

NLP（一）Word2Vec原理

浅析word2vec（一）

开源自动语音识别系统wav2letter (附实现教程)

Facebook 开源首个全卷积语音识别工具包 wav2letter++

wav2letter++简介：深度学习语音识别系统

Facebook 开源语音识别工具wav2letter环境搭建

一种基于机器学习的简便无损伤颈椎病智能识别方法

ICCV 2023 | MRN：一种多路复用路由网络的增量多语言文本识别方法

NLP：word embedding词嵌入/word2vec词向量方法(一种主流的分布式表示)的简介、案例应用之详细攻略

在一种特殊情况下损坏了wav音频文件，修复的方法

算一算-Word2Vec（2）

Doc2Vec训练相似文章识别模型

500张训练样本攻破验证码？蚂蚁金服提自监督表征学习识别方法

word2vec的两种形式和原理

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)