生成对抗网络GAN（二）语音相关 - 代码天地

生成对抗网络GAN（二）语音相关

其他 2018-05-30 16:57:32 阅读次数: 1

多任务对抗学习[1]

这里写图片描述
为了获得对噪音的鲁棒性，引入多任务学习，分为三个网络：
- 输入网络（绿色），用作特征提取器
- senone输出网络（红色），用作senone分类
- domain输出网络（蓝色），domain这里指噪音的类型，总共17种噪声

为了增加对噪音的鲁棒性，增加了GRL层（gradient reversal layer），网络在反向传播的时候，对于domain网络过来的梯度取了 $-\alpha$ ，也就是增加噪音分类的错误率，以便获得senone-discriminative domain-invariant的特征。
[2]和[1]的思想类似。

SEGAN[3]

主要用来做语音增强（比如降噪）等。
结合conditional GAN和LSGAN，使用 $L_1$ norm，最后的loss如下：

m i n D V L S G A N (D) = 1 2 E x \sim p d a t a (x, x c) [(D (x, x c) - 1) 2] + 1 2 E x c \sim p d a t a (x c), z \sim p z (z) [D (G (z, x c)) 2]

$min_{D}V_{LSGAN}(D)=\frac{1}{2}\mathbb E_{x \sim p_{data}(x,x_c)}[(D(x,x_c)-1)^2]+\frac{1}{2}\mathbb E_{x_c \sim p_{data}(x_c), z\sim p_{z}(z)}[D(G(z,x_c))^2]$

m i n G V L S G A N (G) = 1 2 E x \sim p d a t a (x c), z \sim p z (z) [(D (G (z, x c)) - 1) 2] + λ ∥ G (z, x ~) - x ∥ 1

$min_{G}V_{LSGAN}(G)=\frac{1}{2}\mathbb E_{x \sim p_{data}(x_c), z\sim p_{z}(z)}[(D(G(z,x_c))-1)^2]+\lambda \| G(z, \tilde{x})-x\|_1$
一些参数的含义如下：

x $x$ : noise speech

xc $x_c$ : clean speech

z $z$ : 服从正态分布的noise samples

训练流程如下：
这里写图片描述
训练的时候需要clean speech和noisy speech的pair，以保证在去除噪声的同时保留原始语音的信息。

参考文献

[1].Adversarial Multi-task Learning of Deep Neural Networks for Robust Speech Recognition
[2].Invariant Representations for Noisy Speech Recognition
[3].SEGAN: Speech Enhancement Generative Adversarial Network

猜你喜欢

转载自blog.csdn.net/xmdxcsj/article/details/78512905

生成对抗网络GAN（二）语音相关

生成对抗网络（GAN）相关学习

生成对抗网络GAN

GAN 生成对抗网络

生成对抗网络(GAN)

GAN(生成对抗网络)

【CVPR 2023的AIGC应用汇总(8)】3D相关（编辑/重建/生成） diffusion扩散/GAN生成对抗网络方法...

生成对抗网络(二)Conditional GAN讲解

生成对抗网络（GAN）初探

生成对抗网络——GAN（一）

理解GAN生成对抗网络

初步认识GAN（生成对抗网络）

keras 实现GAN（生成对抗网络）

GAN-生成对抗网络原理

原始的生成对抗网络GAN

生成对抗式网络 GAN的理解

生成对抗网络浅析（GAN）

生成对抗网络(一)----------原始GAN

生成对抗网络GAN介绍

生成对抗网络GAN详解与代码

生成对抗性网络GAN

GAN——生成对抗网络详解

GAN生成对抗网络学习

生成对抗网络（GAN）Demo

生成对抗网络(一)GAN讲解

生成对抗网络GAN的前世今生

GAN生成对抗网络入门与实战

通俗理解生成对抗网络GAN

【机器学习】生成对抗网络 GAN

什么是GAN（生成对抗网络）？

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)