[ByteCover]-音频翻唱检索论文笔记 - 代码天地

[ByteCover]-音频翻唱检索论文笔记

企业开发 2023-08-01 19:57:50 阅读次数: 0

论文名称：BYTECOVER: COVER SONG IDENTIFICATION VIA MULTI-LOSS TRAINING（ICASSP2021）

论文地址：https://arxiv.org/pdf/2010.14022v2.pdf

代码地址：暂无

背景

研究Music Information Retrieval (MIR)方向中的Cover song identification任务，减少人工特征和对齐算法的使用，本文提出ByteCover网络来检索相同的音乐。

模型流程

模型输入：
- 采用CQT频谱特征，每个octave的bin个数设置为12，hann window大小设置为512，采样率为22050Hz，CQT特征average下采样倍率为100，最终得到的音频特征维度为[84, T]，其中T为时间维度，与音频时长挂钩。
模型结构：

ResNet-IBN模块：为了将ResNet转换为带有IBN模块的模型来学习不变嵌入，将模型的基本元素残差块替换为IBN块（IN有助于模型学习音调、节奏、音色等不变性特征）。
1. 每个残差block的第一个conv添加IBN模块，BN处理一半通道，IN处理另外一半通道。
2. 输入特征1x84xT，最终模型输出的形状为2048x6xT/8。
3. 为保证输出feature map的大小，ResNet50最后一组block的stride设为1。
4. 为防止过多IN层降低模型能力，ResNet50最后一组block保持不变。
GemPool池化模块：将X映射成定长vector，参数p设置为可学习。
BNNeck Loss函数：
1. 结合分类loss和triplet loss对模型进行训练，其中插入BN Layer协调，原因在于分类loss主要优化cosine距离，triplet loss主要优化欧式距离，如果同时对一个FC使用两个Loss，triplet loss会影响到分类的决策面而分类loss会影响到类内紧凑性。
2. GeM模块产生的vector用表示，通过BN Layer表示为，训练阶段前者用于计算triplet loss，后者用于计算分类loss。

模型实验结果

模型整体实验结果

模型消融实验

猜你喜欢

转载自blog.csdn.net/yangyanbao8389/article/details/125974331

[ByteCover]-音频翻唱检索论文笔记

[ByteCover2]-音频翻唱检索论文笔记

[MOVE]-音频翻唱检索论文笔记

[CQTNet]-音频翻唱检索论文笔记

【时序】WaveNet 音频生成模型论文笔记

【论文笔记】ZFNet论文笔记

Kalman论文笔记

SEDA论文笔记

论文笔记

RFCN论文笔记

SSD论文笔记

【论文笔记】SPPnet

ResNet论文笔记

论文笔记模板

MobileNets 论文笔记

CRNN论文笔记

ResNeXt 论文笔记

Xception 论文笔记

DenseNet 论文笔记

YOLO 论文笔记

论文笔记的格式

论文笔记：IOUnet

论文笔记：FPN

VGGNet 论文笔记

AlexNet 论文笔记

论文笔记：FCN

论文笔记：YOLO

论文笔记：PointSIFT

论文笔记：PPFNet

论文笔记三

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)