作者：禅与计算机程序设计艺术

1.简介

GAN（Generative Adversarial Network）作为深度学习领域中的一种生成模型，近年来在图像、音频等多种模态数据上取得了良好的效果。其核心思想就是通过博弈论中的对抗训练方式，让两个网络（一个生成网络G和一个判别网络D）互相竞争，不断提升自我认为的分布的能力。本文中，作者将生成对抗网络应用于语音合成任务之中，并以子词单元的方式构建序列到序列模型，以解决口语转写的问题。
NLP（Natural Language Processing）作为人工智能领域的主要研究方向，是实现对自然语言的理解及自动化处理的关键技术之一。在过去几年里，随着机器翻译、文本摘要、自动问答系统等各种应用的兴起，NLP的研究工作又得到了飞速的发展。例如，谷歌的新闻机器翻译系统Baidu实验室推出的GNMT(Google Neural Machine Translation)模型，就是基于神经网络的深度学习模型，能够达到令人惊叹的准确率。目前已有多种传统的分词方法被证明有效且准确性高。而在新一代的无监督的方法如BERT、XLNet等出现后，分词这一重要的基础功能也逐渐成为NLP的一个研究热点。
本文关注的重点是将生成对抗网络应用于语音合成任务，即将输入的汉字字符串转换为对应的拼音音素（phonemes）。子词单位（subword units）是NLP中的一个重要概念，它能够将汉字字符串表示为较小的片段，便于建模和处理。本文将基于Transformer结构的序列到序列（seq2seq）模型进行实践，并使用子词单元的方式构造模型，以解决口语转写的问题。

GAN（Generative Adversarial Network）作为深度学习领域中的一种生成模型，近年来在图像、音频等多种模态数据上取得了良好的效果。其核心思想就是通过博弈论中的对抗训练方式

1.简介

2.相关工作

猜你喜欢