自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面 - 代码天地

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

企业开发 2023-12-18 07:15:36 阅读次数: 0

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

1.参考文献

《Masked Autoencoders that Listen》

2.背景

Transformers和self-supervised learning(自监督学习)占据了计算机视觉(Computer Vision,CV)和自然语言处理(natural language processing, NLP)的主导地位。

使用BERT进行屏蔽自动编码，通过对大规模语言语料库的自监督预训练，为各种NLP任务提供了一种新的最新技术。类似地，在CV社区中，Vision Transformers (ViT)变得越来越流行，在自监督的图像表示学习中，掩码自动编码器(MAE)使CV社区更接近BERT在NLP中的成功。

在这项工作中，主要研究了听的方面，即音频识别方面，如Audioset(规模最大的音频数据集)，环境声识别(ESC-50)，语音指令识别(SPC-2, SPC-1)，说话人识别(VoxCeleb)。

3.掩码自动编码器

MAE如上图所示。

扫描二维码关注公众号，回复： 17286967 查看本文章

①将音频的时频谱图分割成许多patch，对大部分patch进行掩码处理；

②通过把剩余可见的patch块进行编码操作；

③然后通过解码操作，对顺序恢复和掩码patch块进行重构输出；

④并与目标时频谱图计算MSE损失以此更新编码器和解码器；

这里编码器使用12-layer ViT-Base (ViT-B)

解码器用standard Transformer模块。

具体细节可以看原文。

4.微调至下游任务

MAE最终只保留编码器部分，解码器将删除，这样就能应用到下游任务。

5.结果

谱图修复结果如上图所示

MAE下游任务结果如上表所示

6.应用拓展

MAE预训练模型可以用于各种下游任务，对于提升识别率都很有效。

猜你喜欢

转载自blog.csdn.net/pk296256948/article/details/128666880

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

自监督语义分割面模型——Masked Autoencoders Are Scalable Vision Learners(MAE)论文阅读

MAE论文阅读《Masked Autoencoders Are Scalable Vision Learners》

李沐精读论文：MAE 《Masked Autoencoders Are Scalable Vision Learners》

【论文阅读】MAE Masked Autoencoders Are Scalable Vision Learners

【笔记记录】MAE：Masked Autoencoders Are Scalable Vision Learners

Recursive Autoencoders（递归自动编码器）

[深度学习]半监督学习、无监督学习之Autoencoders自编码器(附代码)

Autoencoders(自编码器)

变形自动编码器（Deforming Autoencoders）– 学习到解耦的表示形式

Adversarial Autoencoders学习笔记

Masked Autoencoders Are Scalable Vision Learners

ConvMAE：Masked Convolution 遇到 Masked Autoencoders

ConvMAE: Masked Convolution Meets Masked Autoencoders

Masked Autoencoders Are Scalable Vision Learners 论文研读

Masked Autoencoders Are Scalable Vision Learners 论文总结

论文阅读：Masked Autoencoders As Spatiotemporal Learners

第十五章——自编码器（Autoencoders）

系统学习机器学习之弱监督学习（三）--Adversarial Autoencoders

机器学习思考题目——15自编码器（Autoencoders）

AMiner推荐论文：Masked Autoencoders Are Scalable Vision Learners

【论文笔记】Masked Autoencoders Are Scalable Vision Learners

深度通信网络专栏（4）|自编码器：Blind Channel Equalization using Variational Autoencoders

AutoEncoders原理

AutoEncoders变种

Variational AutoEncoders

Adversarial Autoencoders

深度学习算法中的变分自编码器中的重参数化技巧（Reparameterization Trick in Variational Autoencoders）

无监督学习：Deep Auto-encoder（深度自动编码器）

【超分辨率】何凯明新作:Masked Autoencoders Are Scalable Vision Learners

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)