Deep Speaker笔记 - 代码天地

Deep Speaker笔记

其他 2019-04-22 14:00:58 阅读次数: 0

结构图及解析

在这里插入图片描述

输入：每个miniBatch的数据格式为（N, C, H, W），N为batch_size， C为通道数，此处的数目为3，顺序为(fbank二阶倒数)delta2 (fbank一阶倒数)delta1 fbank， H文章中为时间帧数，该参数是可变的，但是在每个miniBatch中是一样的， W为每帧的特征数目，文章中取值为64。
Deep architecture:
ResCNN

dim参数的理解请参照图下边的蓝色注释，拿第一层卷积层为例，原输入为H(T，时间帧数)64(特征维度)3(通道数)，第一层卷积层的kenel大小为55，stride为22，则输出的 $特征维度=\frac{64+2*2-5}{2}=32$ ，输出通道数为64，所以 $dim=32*64=2048$ ，每一个CNN后dim=2048。
Average Sentence：本来数据为三维的，分别代表时间帧数×每帧特征数×通道数，将时间平均，这样一段语音就对应一段特征了，而不是每一帧都对应一段特征。
Length Normalization：将特征进行归一化处理，变成均值为0，方差为1，目的是方便后续进行triplet loss中ap和an之间的相似度计算。
训练策略：1. 负样本挑选（预训练）: semi-hard-examples: 保持ap不变，挑选an，满足 $s_{i}^{an}+\alpha>s_{i}^{ap}>s_{i}^{an}$ 。

注：hard-examples: 保持ap不变，挑选最高相似度的an作训练

softmax+cross entropy(预训练)
refine: softmax + triplet loss

猜你喜欢

转载自blog.csdn.net/Suan2014/article/details/88989714

Deep Speaker笔记

Deep Speaker: an End-to-End Neural Speaker Embedding System

Deep Speech笔记

Deep Learning 学习笔记

Deep Learning 简略笔记

deep learning实验笔记

每日一篇小论文 ---- Attentive Statistics Pooling for Deep Speaker Embedding

A Review of Speaker Diarization- Recent Advances with Deep Learning 综述 ——简化&翻译

Deep learning 论文笔记

Deep Learning With Python 学习笔记

《Deep Learnning Tutorial》笔记（三）

《Deep Learnning Tutorial》笔记（二）

《Deep Learnning Tutorial》笔记（一）

花书《Deep Learning》笔记

《Deep GrabCut for Object Selection》笔记

Neural Networks and Deep Learning 笔记

ImageNet with Deep CNN阅读笔记

Deep image prior阅读笔记

《Deep Learning》学习笔记（一）

Deep Learning 的阅读笔记（一）

[更新中] Deep Learning笔记

Deep SORT论文阅读笔记

Wide & Deep论文阅读笔记

Deep Leaning (深度学习)学习笔记一

Deep Leaning (深度学习)学习笔记二

论文笔记(1)：Deep Learning.

angular5学习笔记（deep in 路由）

Fast Distributed Deep Learning on RDMA阅读笔记

论文笔记：Deep Residual Network

neural networks and deep learning 学习笔记

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)