[CQTNet]-音频翻唱检索论文笔记 - 代码天地

[CQTNet]-音频翻唱检索论文笔记

企业开发 2023-08-01 19:57:52 阅读次数: 0

论文名称：Learning a Representation for Cover Song Identification Using Convolutional Neural Network（ICASSP2020）

论文地址：https://arxiv.org/abs/1911.00334

代码地址：https://github.com/yzspku/CQTNet

背景

研究Music Information Retrieval (MIR)方向中的Cover song identification任务，减少人工特征和对齐算法的使用，本文提出CNN网络来检索相同的音乐。

模型总览

模型训练流程：

预处理：Librosa抽取音频的CQT特征，采样率默认22050Hz，音频八度的bin个数为12，音频特征下采样倍率20，最终得到84*T维特征，T由音频的时长决定。
模型处理：模型比较简单，就是几层conv和pool的堆叠，有几点注意的地方。
- 前几层conv的height维度kenel为12、13，主要是因为CQT特征音频八度的bin个数为12，使得前三个conv层的感受野为3个八度。
- 采用膨胀卷积，不过是在时序维度上，因为翻唱歌曲的识别侧重于音乐的长期旋律。
- 频域维度上的步长始终为1，音频的关键变化可能发生在一或两个半音。
- 输出层采用adaptive global pool，将不同的音频压缩成固定长度特征。

模型结果

猜你喜欢

转载自blog.csdn.net/yangyanbao8389/article/details/125931773

[CQTNet]-音频翻唱检索论文笔记

[MOVE]-音频翻唱检索论文笔记

[ByteCover]-音频翻唱检索论文笔记

[ByteCover2]-音频翻唱检索论文笔记

【时序】WaveNet 音频生成模型论文笔记

【论文笔记】ZFNet论文笔记

Kalman论文笔记

SEDA论文笔记

论文笔记

RFCN论文笔记

SSD论文笔记

【论文笔记】SPPnet

ResNet论文笔记

论文笔记模板

MobileNets 论文笔记

CRNN论文笔记

ResNeXt 论文笔记

Xception 论文笔记

DenseNet 论文笔记

YOLO 论文笔记

论文笔记的格式

论文笔记：IOUnet

论文笔记：FPN

VGGNet 论文笔记

AlexNet 论文笔记

论文笔记：FCN

论文笔记：YOLO

论文笔记：PointSIFT

论文笔记：PPFNet

论文笔记三

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)