GAN(Generative Adversarial Network)作为深度学习领域中的一种生成模型,近年来在图像、音频等多种模态数据上取得了良好的效果。其核心思想就是通过博弈论中的对抗训练方式

作者:禅与计算机程序设计艺术

1.简介

GAN(Generative Adversarial Network)作为深度学习领域中的一种生成模型,近年来在图像、音频等多种模态数据上取得了良好的效果。其核心思想就是通过博弈论中的对抗训练方式,让两个网络(一个生成网络G和一个判别网络D)互相竞争,不断提升自我认为的分布的能力。本文中,作者将生成对抗网络应用于语音合成任务之中,并以子词单元的方式构建序列到序列模型,以解决口语转写的问题。
NLP(Natural Language Processing)作为人工智能领域的主要研究方向,是实现对自然语言的理解及自动化处理的关键技术之一。在过去几年里,随着机器翻译、文本摘要、自动问答系统等各种应用的兴起,NLP的研究工作又得到了飞速的发展。例如,谷歌的新闻机器翻译系统Baidu实验室推出的GNMT(Google Neural Machine Translation)模型,就是基于神经网络的深度学习模型,能够达到令人惊叹的准确率。目前已有多种传统的分词方法被证明有效且准确性高。而在新一代的无监督的方法如BERT、XLNet等出现后,分词这一重要的基础功能也逐渐成为NLP的一个研究热点。
本文关注的重点是将生成对抗网络应用于语音合成任务,即将输入的汉字字符串转换为对应的拼音音素(phonemes)。子词单位(subword units)是NLP中的一个重要概念,它能够将汉字字符串表示为较小的片段,便于建模和处理。本文将基于Transformer结构的序列到序列(seq2seq)模型进行实践,并使用子词单元的方式构造模型,以解决口语转写的问题。

2.相关工作

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132013973